TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024123471
公報種別
公開特許公報(A)
公開日
2024-09-12
出願番号
2023030913
出願日
2023-03-01
発明の名称
論文構造解析装置、論文構造解析方法、プログラム
出願人
日本電信電話株式会社
,
国立大学法人電気通信大学
代理人
個人
,
個人
,
個人
主分類
G06F
40/279 20200101AFI20240905BHJP(計算;計数)
要約
【課題】従来よりも高精度に論文の文書構造を解析することができる論文構造解析装置を提供する。
【解決手段】論文構造解析装置は、PDF形式の論文をHTML形式に変換するHTML変換部と、HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する引用アンカ検出部を含む。
【選択図】図1
特許請求の範囲
【請求項1】
PDF形式の論文をHTML形式に変換するHTML変換部と、
HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する引用アンカ検出部を含む
論文構造解析装置。
続きを表示(約 780 文字)
【請求項2】
請求項1に記載の論文構造解析装置であって、
前記引用アンカに範囲を示す記号が含まれる場合に、前記引用アンカを範囲によって示された番号を列挙する形式に変換する対応付け部を含む
論文構造解析装置。
【請求項3】
請求項2に記載の論文構造解析装置であって、
HTML形式に変換された論文の本文から所定のキーワードを検出し、前記所定のキーワードの直前に括弧付き番号または括弧無しの番号を含む場合に前記括弧付き番号または前記括弧無しの番号を含む行を章の先頭とするか、あるいは前記所定のキーワードのフォントサイズと一致するフォントサイズで表記されている行を章の先頭として、前記論文の本文を章ごとに抽出する章抽出部を含む
論文構造解析装置。
【請求項4】
請求項3に記載の論文構造解析装置であって、
章ごとに抽出された前記論文の末尾の章において行頭に括弧付き番号または括弧無しの番号を含む行が存在する場合に該当する行を各文献情報の先頭として前記末尾の章を文献毎に抽出してGROBIDに入力する引用文献情報抽出部を含む
論文構造解析装置。
【請求項5】
論文構造解析装置が実行する論文構造解析方法であって、
PDF形式の論文をHTML形式に変換するステップと、
HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出するステップを含む
論文構造解析方法。
【請求項6】
コンピュータを請求項1から4の何れかに記載の論文構造解析装置として機能させるプログラム。
発明の詳細な説明
【技術分野】
【0001】
本開示は、視覚情報で判断される文書構造を考慮して論文の構造を解析する論文構造解析装置、論文構造解析方法、プログラムに関する。
続きを表示(約 1,500 文字)
【背景技術】
【0002】
PDF形式の論文からの情報抽出に関する従来の技術として例えばGROBIT(非特許文献1)、PDFBOT(非特許文献2)などがある。GROBITは、章タイトル、本文、引用文献情報の抽出、本文中の引用アンカとの対応付けを行うことができ、引用文献情報を高精度に抽出することができる。PDFBOTは、PDF形式の論文をHTML形式に変換することにより、論文の本文のみを抽出することができる。
【先行技術文献】
【非特許文献】
【0003】
Patrice Lopez, “GROBID”, [online], [令和 5年 1月 30日検索]、インターネット〈 URL:https://github.com/kermitt2/grobid〉
Changfeng Yu, Cheng Zhang, Jie Wang, “Extracting Body Text from Academic PDF Documents for Text Mining”, International Conference on Knowledge Discovery and Information Retrieval, 23 October 2020.
【発明の概要】
【発明が解決しようとする課題】
【0004】
GROBITは、本文の途中に図表のテキストが紛れ込む誤認識がしばしば起こる。またPDFBOTは、論文の章タイトル、引用文献の章を全て除去してしまうという課題がある。
【0005】
そこで本開示では、従来よりも高精度に論文の文書構造を解析することができる論文構造解析装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の論文構造解析装置は、HTML変換部と、引用アンカ検出部を含む。
【0007】
HTML変換部は、PDF形式の論文をHTML形式に変換する。引用アンカ検出部は、HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する。
【発明の効果】
【0008】
本開示の論文構造解析装置によれば、従来よりも高精度に論文の文書構造を解析することができる。
【図面の簡単な説明】
【0009】
実施例1の論文構造解析装置の機能構成を示すブロック図。
実施例1の論文構造解析装置の動作を示すフローチャート。
典型的な論文の文書構造の例を示す図。
章抽出部の章の先頭を特定する動作の例を示す図。
引用文献の章を文献毎に抽出(分割)した例を示す図。
GROBIDの出力例を示す図。
引用アンカ検出部の検出パターン設定例を示す図。
従来技術と実施例1の装置における章タイトル抽出精度評価実験の結果を示す図。
従来技術と実施例1の装置における本文抽出精度評価実験の結果を示す図。
従来技術と実施例1の装置における引用文献情報抽出精度評価実験の結果を示す図。
コンピュータの機能構成例を示す図。
【発明を実施するための形態】
【0010】
以下、本開示の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
対話装置
1か月前
個人
情報処理装置
1か月前
個人
情報処理システム
4日前
個人
情報処理装置
28日前
個人
記入設定プラグイン
20日前
個人
検査システム
6日前
個人
不動産売買システム
12日前
キヤノン電子株式会社
携帯装置
5日前
個人
情報入力装置
1か月前
株式会社サタケ
籾摺・調製設備
5日前
個人
物価スライド機能付生命保険
1か月前
個人
備蓄品の管理方法
4日前
個人
マイホーム非電子入札システム
1か月前
株式会社BONNOU
管理装置
25日前
サクサ株式会社
中継装置
5日前
キヤノン株式会社
情報処理装置
5日前
キヤノン株式会社
情報処理装置
5日前
ホシデン株式会社
タッチ入力装置
12日前
株式会社ワコム
電子消去具
12日前
株式会社東芝
電子機器
13日前
東洋電装株式会社
操作装置
5日前
アスエネ株式会社
排水量管理方法
5日前
キヤノン電子株式会社
名刺管理システム
6日前
個人
決済手数料0%のクレジットカード
1か月前
東洋電装株式会社
操作装置
5日前
サクサ株式会社
カードの制動構造
1か月前
株式会社JVCケンウッド
管理装置
6日前
株式会社ライト
情報処理装置
25日前
個人
パターン抽出方法及び通信多重化方法
11日前
住友重機械工業株式会社
力覚伝達装置
27日前
大王製紙株式会社
RFIDタグ
11日前
株式会社CBE-A
情報処理システム
11日前
株式会社寺岡精工
顔認証システム
6日前
個人
システム、データおよびプログラム
21日前
キヤノン株式会社
通信端末
6日前
株式会社mov
情報処理システム
1か月前
続きを見る
他の特許を見る