TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024123471
公報種別公開特許公報(A)
公開日2024-09-12
出願番号2023030913
出願日2023-03-01
発明の名称論文構造解析装置、論文構造解析方法、プログラム
出願人日本電信電話株式会社,国立大学法人電気通信大学
代理人個人,個人,個人
主分類G06F 40/279 20200101AFI20240905BHJP(計算;計数)
要約【課題】従来よりも高精度に論文の文書構造を解析することができる論文構造解析装置を提供する。
【解決手段】論文構造解析装置は、PDF形式の論文をHTML形式に変換するHTML変換部と、HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する引用アンカ検出部を含む。
【選択図】図1
特許請求の範囲【請求項1】
PDF形式の論文をHTML形式に変換するHTML変換部と、
HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する引用アンカ検出部を含む
論文構造解析装置。
続きを表示(約 780 文字)【請求項2】
請求項1に記載の論文構造解析装置であって、
前記引用アンカに範囲を示す記号が含まれる場合に、前記引用アンカを範囲によって示された番号を列挙する形式に変換する対応付け部を含む
論文構造解析装置。
【請求項3】
請求項2に記載の論文構造解析装置であって、
HTML形式に変換された論文の本文から所定のキーワードを検出し、前記所定のキーワードの直前に括弧付き番号または括弧無しの番号を含む場合に前記括弧付き番号または前記括弧無しの番号を含む行を章の先頭とするか、あるいは前記所定のキーワードのフォントサイズと一致するフォントサイズで表記されている行を章の先頭として、前記論文の本文を章ごとに抽出する章抽出部を含む
論文構造解析装置。
【請求項4】
請求項3に記載の論文構造解析装置であって、
章ごとに抽出された前記論文の末尾の章において行頭に括弧付き番号または括弧無しの番号を含む行が存在する場合に該当する行を各文献情報の先頭として前記末尾の章を文献毎に抽出してGROBIDに入力する引用文献情報抽出部を含む
論文構造解析装置。
【請求項5】
論文構造解析装置が実行する論文構造解析方法であって、
PDF形式の論文をHTML形式に変換するステップと、
HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出するステップを含む
論文構造解析方法。
【請求項6】
コンピュータを請求項1から4の何れかに記載の論文構造解析装置として機能させるプログラム。

発明の詳細な説明【技術分野】
【0001】
本開示は、視覚情報で判断される文書構造を考慮して論文の構造を解析する論文構造解析装置、論文構造解析方法、プログラムに関する。
続きを表示(約 1,500 文字)【背景技術】
【0002】
PDF形式の論文からの情報抽出に関する従来の技術として例えばGROBIT(非特許文献1)、PDFBOT(非特許文献2)などがある。GROBITは、章タイトル、本文、引用文献情報の抽出、本文中の引用アンカとの対応付けを行うことができ、引用文献情報を高精度に抽出することができる。PDFBOTは、PDF形式の論文をHTML形式に変換することにより、論文の本文のみを抽出することができる。
【先行技術文献】
【非特許文献】
【0003】
Patrice Lopez, “GROBID”, [online], [令和 5年 1月 30日検索]、インターネット〈 URL:https://github.com/kermitt2/grobid〉
Changfeng Yu, Cheng Zhang, Jie Wang, “Extracting Body Text from Academic PDF Documents for Text Mining”, International Conference on Knowledge Discovery and Information Retrieval, 23 October 2020.
【発明の概要】
【発明が解決しようとする課題】
【0004】
GROBITは、本文の途中に図表のテキストが紛れ込む誤認識がしばしば起こる。またPDFBOTは、論文の章タイトル、引用文献の章を全て除去してしまうという課題がある。
【0005】
そこで本開示では、従来よりも高精度に論文の文書構造を解析することができる論文構造解析装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の論文構造解析装置は、HTML変換部と、引用アンカ検出部を含む。
【0007】
HTML変換部は、PDF形式の論文をHTML形式に変換する。引用アンカ検出部は、HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する。
【発明の効果】
【0008】
本開示の論文構造解析装置によれば、従来よりも高精度に論文の文書構造を解析することができる。
【図面の簡単な説明】
【0009】
実施例1の論文構造解析装置の機能構成を示すブロック図。
実施例1の論文構造解析装置の動作を示すフローチャート。
典型的な論文の文書構造の例を示す図。
章抽出部の章の先頭を特定する動作の例を示す図。
引用文献の章を文献毎に抽出(分割)した例を示す図。
GROBIDの出力例を示す図。
引用アンカ検出部の検出パターン設定例を示す図。
従来技術と実施例1の装置における章タイトル抽出精度評価実験の結果を示す図。
従来技術と実施例1の装置における本文抽出精度評価実験の結果を示す図。
従来技術と実施例1の装置における引用文献情報抽出精度評価実験の結果を示す図。
コンピュータの機能構成例を示す図。
【発明を実施するための形態】
【0010】
以下、本開示の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

日本電信電話株式会社
量子鍵配送装置
2日前
日本電信電話株式会社
データ伝送システム
11日前
日本電信電話株式会社
光線路特性解析装置
3日前
日本電信電話株式会社
ロボットVRシステム
11日前
日本電信電話株式会社
ロボットVRシステム
11日前
日本電信電話株式会社
光ファイバ特性解析装置
17日前
日本電信電話株式会社
光ファイバ特性解析装置
17日前
日本電信電話株式会社
モード回転子及びモード合分波器
16日前
日本電信電話株式会社
演算装置、演算方法及びプログラム
2日前
日本電信電話株式会社
解析装置、解析方法および解析プログラム
16日前
東日本電信電話株式会社
制御システム、制御方法、および制御プログラム
16日前
日本電信電話株式会社
感情提示装置、感情提示方法及び感情提示プログラム
9日前
日本電信電話株式会社
音響システム
16日前
日本電信電話株式会社
アンテナの配置を決定する方法、装置、及びプログラム、並びに物体検出システム
11日前
日本電信電話株式会社
パラメータ更新保証システム、証明装置、パラメータ更新保証方法及びプログラム
4日前
日本電信電話株式会社
エネルギー関数の最小値探索装置、エネルギー関数の最小値探索方法、及びプログラム。
2日前
富士通株式会社
リソース割当て装置、リソース割当て方法、およびリソース割当てプログラム
16日前
日本電信電話株式会社
信号処理装置、信号処理方法及び信号処理プログラム
4日前
日本電信電話株式会社
二酸化炭素固定化システム及び二酸化炭素固定化方法
15日前
NTTテクノクロス株式会社
音声認識モデル追加学習装置、音声認識モデル追加学習方法、及びプログラム
16日前
日本電信電話株式会社
単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム
16日前
個人
非正規コート
12日前
個人
人物再現システム
9日前
個人
AI飲食最適化プラグイン
2日前
有限会社ノア
データ読取装置
10日前
個人
電話管理システム及び管理方法
3日前
個人
広告提供システムおよびその方法
12日前
株式会社ザメディア
出席管理システム
17日前
個人
日誌作成支援システム
9日前
個人
ポイント還元付き配送システム
10日前
トヨタ自動車株式会社
工程計画装置
17日前
ミサワホーム株式会社
情報処理装置
16日前
トヨタ自動車株式会社
作業判定方法
18日前
株式会社タクテック
商品取出集品システム
16日前
オベック実業株式会社
接続構造
9日前
株式会社村田製作所
動き検知装置
16日前
続きを見る