TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024123471
公報種別公開特許公報(A)
公開日2024-09-12
出願番号2023030913
出願日2023-03-01
発明の名称論文構造解析装置、論文構造解析方法、プログラム
出願人日本電信電話株式会社,国立大学法人電気通信大学
代理人個人,個人,個人
主分類G06F 40/279 20200101AFI20240905BHJP(計算;計数)
要約【課題】従来よりも高精度に論文の文書構造を解析することができる論文構造解析装置を提供する。
【解決手段】論文構造解析装置は、PDF形式の論文をHTML形式に変換するHTML変換部と、HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する引用アンカ検出部を含む。
【選択図】図1
特許請求の範囲【請求項1】
PDF形式の論文をHTML形式に変換するHTML変換部と、
HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する引用アンカ検出部を含む
論文構造解析装置。
続きを表示(約 780 文字)【請求項2】
請求項1に記載の論文構造解析装置であって、
前記引用アンカに範囲を示す記号が含まれる場合に、前記引用アンカを範囲によって示された番号を列挙する形式に変換する対応付け部を含む
論文構造解析装置。
【請求項3】
請求項2に記載の論文構造解析装置であって、
HTML形式に変換された論文の本文から所定のキーワードを検出し、前記所定のキーワードの直前に括弧付き番号または括弧無しの番号を含む場合に前記括弧付き番号または前記括弧無しの番号を含む行を章の先頭とするか、あるいは前記所定のキーワードのフォントサイズと一致するフォントサイズで表記されている行を章の先頭として、前記論文の本文を章ごとに抽出する章抽出部を含む
論文構造解析装置。
【請求項4】
請求項3に記載の論文構造解析装置であって、
章ごとに抽出された前記論文の末尾の章において行頭に括弧付き番号または括弧無しの番号を含む行が存在する場合に該当する行を各文献情報の先頭として前記末尾の章を文献毎に抽出してGROBIDに入力する引用文献情報抽出部を含む
論文構造解析装置。
【請求項5】
論文構造解析装置が実行する論文構造解析方法であって、
PDF形式の論文をHTML形式に変換するステップと、
HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出するステップを含む
論文構造解析方法。
【請求項6】
コンピュータを請求項1から4の何れかに記載の論文構造解析装置として機能させるプログラム。

発明の詳細な説明【技術分野】
【0001】
本開示は、視覚情報で判断される文書構造を考慮して論文の構造を解析する論文構造解析装置、論文構造解析方法、プログラムに関する。
続きを表示(約 1,500 文字)【背景技術】
【0002】
PDF形式の論文からの情報抽出に関する従来の技術として例えばGROBIT(非特許文献1)、PDFBOT(非特許文献2)などがある。GROBITは、章タイトル、本文、引用文献情報の抽出、本文中の引用アンカとの対応付けを行うことができ、引用文献情報を高精度に抽出することができる。PDFBOTは、PDF形式の論文をHTML形式に変換することにより、論文の本文のみを抽出することができる。
【先行技術文献】
【非特許文献】
【0003】
Patrice Lopez, “GROBID”, [online], [令和 5年 1月 30日検索]、インターネット〈 URL:https://github.com/kermitt2/grobid〉
Changfeng Yu, Cheng Zhang, Jie Wang, “Extracting Body Text from Academic PDF Documents for Text Mining”, International Conference on Knowledge Discovery and Information Retrieval, 23 October 2020.
【発明の概要】
【発明が解決しようとする課題】
【0004】
GROBITは、本文の途中に図表のテキストが紛れ込む誤認識がしばしば起こる。またPDFBOTは、論文の章タイトル、引用文献の章を全て除去してしまうという課題がある。
【0005】
そこで本開示では、従来よりも高精度に論文の文書構造を解析することができる論文構造解析装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の論文構造解析装置は、HTML変換部と、引用アンカ検出部を含む。
【0007】
HTML変換部は、PDF形式の論文をHTML形式に変換する。引用アンカ検出部は、HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する。
【発明の効果】
【0008】
本開示の論文構造解析装置によれば、従来よりも高精度に論文の文書構造を解析することができる。
【図面の簡単な説明】
【0009】
実施例1の論文構造解析装置の機能構成を示すブロック図。
実施例1の論文構造解析装置の動作を示すフローチャート。
典型的な論文の文書構造の例を示す図。
章抽出部の章の先頭を特定する動作の例を示す図。
引用文献の章を文献毎に抽出(分割)した例を示す図。
GROBIDの出力例を示す図。
引用アンカ検出部の検出パターン設定例を示す図。
従来技術と実施例1の装置における章タイトル抽出精度評価実験の結果を示す図。
従来技術と実施例1の装置における本文抽出精度評価実験の結果を示す図。
従来技術と実施例1の装置における引用文献情報抽出精度評価実験の結果を示す図。
コンピュータの機能構成例を示す図。
【発明を実施するための形態】
【0010】
以下、本開示の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
プログラム
27日前
株式会社理研
演算装置
1か月前
個人
アカウントマップ
2か月前
個人
プログラム
2か月前
個人
情報検索システム
7日前
個人
日本語入力支援システム
1か月前
個人
AI旅行最適化プラグイン
1か月前
個人
確率場データ同化演算手法
19日前
個人
学習装置及び推論装置
2か月前
シャープ株式会社
電子機器
20日前
キヤノン株式会社
電子機器
6日前
個人
技術実行管理システム
21日前
キヤノン株式会社
電子機器
6日前
キヤノン株式会社
電子機器
6日前
個人
案件管理装置および端末装置
1か月前
個人
納骨堂システム
26日前
株式会社発明屋
電池指向の構造設計
1か月前
株式会社イノベイト
広告装置
9日前
個人
不動産情報提供システム
16日前
トヨタ自動車株式会社
管理装置
1か月前
キヤノン株式会社
情報処理装置
1か月前
トヨタ自動車株式会社
電気自動車
1か月前
株式会社イズミ
総合代行システム
1か月前
個人
ネイルスキルテストシステム
20日前
合同会社IPマネジメント
内部不正対策
14日前
個人
ダブルオークションシステム
1か月前
富士通株式会社
プロセッサ
1か月前
富士通株式会社
予測
1か月前
トヨタ自動車株式会社
管理システム
1日前
TDK株式会社
等価回路
1日前
株式会社NURSY
再就職の支援装置
今日
株式会社TIMEWELL
情報処理システム
27日前
ローム株式会社
半導体集積回路
1か月前
西松建設株式会社
計測システム
5日前
株式会社SUBARU
車両用操作装置
1か月前
合同会社IPマネジメント
料金収受システム
1か月前
続きを見る