TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024123471
公報種別
公開特許公報(A)
公開日
2024-09-12
出願番号
2023030913
出願日
2023-03-01
発明の名称
論文構造解析装置、論文構造解析方法、プログラム
出願人
日本電信電話株式会社
,
国立大学法人電気通信大学
代理人
個人
,
個人
,
個人
主分類
G06F
40/279 20200101AFI20240905BHJP(計算;計数)
要約
【課題】従来よりも高精度に論文の文書構造を解析することができる論文構造解析装置を提供する。
【解決手段】論文構造解析装置は、PDF形式の論文をHTML形式に変換するHTML変換部と、HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する引用アンカ検出部を含む。
【選択図】図1
特許請求の範囲
【請求項1】
PDF形式の論文をHTML形式に変換するHTML変換部と、
HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する引用アンカ検出部を含む
論文構造解析装置。
続きを表示(約 780 文字)
【請求項2】
請求項1に記載の論文構造解析装置であって、
前記引用アンカに範囲を示す記号が含まれる場合に、前記引用アンカを範囲によって示された番号を列挙する形式に変換する対応付け部を含む
論文構造解析装置。
【請求項3】
請求項2に記載の論文構造解析装置であって、
HTML形式に変換された論文の本文から所定のキーワードを検出し、前記所定のキーワードの直前に括弧付き番号または括弧無しの番号を含む場合に前記括弧付き番号または前記括弧無しの番号を含む行を章の先頭とするか、あるいは前記所定のキーワードのフォントサイズと一致するフォントサイズで表記されている行を章の先頭として、前記論文の本文を章ごとに抽出する章抽出部を含む
論文構造解析装置。
【請求項4】
請求項3に記載の論文構造解析装置であって、
章ごとに抽出された前記論文の末尾の章において行頭に括弧付き番号または括弧無しの番号を含む行が存在する場合に該当する行を各文献情報の先頭として前記末尾の章を文献毎に抽出してGROBIDに入力する引用文献情報抽出部を含む
論文構造解析装置。
【請求項5】
論文構造解析装置が実行する論文構造解析方法であって、
PDF形式の論文をHTML形式に変換するステップと、
HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出するステップを含む
論文構造解析方法。
【請求項6】
コンピュータを請求項1から4の何れかに記載の論文構造解析装置として機能させるプログラム。
発明の詳細な説明
【技術分野】
【0001】
本開示は、視覚情報で判断される文書構造を考慮して論文の構造を解析する論文構造解析装置、論文構造解析方法、プログラムに関する。
続きを表示(約 1,500 文字)
【背景技術】
【0002】
PDF形式の論文からの情報抽出に関する従来の技術として例えばGROBIT(非特許文献1)、PDFBOT(非特許文献2)などがある。GROBITは、章タイトル、本文、引用文献情報の抽出、本文中の引用アンカとの対応付けを行うことができ、引用文献情報を高精度に抽出することができる。PDFBOTは、PDF形式の論文をHTML形式に変換することにより、論文の本文のみを抽出することができる。
【先行技術文献】
【非特許文献】
【0003】
Patrice Lopez, “GROBID”, [online], [令和 5年 1月 30日検索]、インターネット〈 URL:https://github.com/kermitt2/grobid〉
Changfeng Yu, Cheng Zhang, Jie Wang, “Extracting Body Text from Academic PDF Documents for Text Mining”, International Conference on Knowledge Discovery and Information Retrieval, 23 October 2020.
【発明の概要】
【発明が解決しようとする課題】
【0004】
GROBITは、本文の途中に図表のテキストが紛れ込む誤認識がしばしば起こる。またPDFBOTは、論文の章タイトル、引用文献の章を全て除去してしまうという課題がある。
【0005】
そこで本開示では、従来よりも高精度に論文の文書構造を解析することができる論文構造解析装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の論文構造解析装置は、HTML変換部と、引用アンカ検出部を含む。
【0007】
HTML変換部は、PDF形式の論文をHTML形式に変換する。引用アンカ検出部は、HTML形式に変換された論文の本文から、著者名に付随する括弧記号の挿入の有無、および前記括弧記号が挿入されている場合の前記括弧記号の種類および挿入位置に関する複数の検出パターンを設定して、引用アンカを検出する。
【発明の効果】
【0008】
本開示の論文構造解析装置によれば、従来よりも高精度に論文の文書構造を解析することができる。
【図面の簡単な説明】
【0009】
実施例1の論文構造解析装置の機能構成を示すブロック図。
実施例1の論文構造解析装置の動作を示すフローチャート。
典型的な論文の文書構造の例を示す図。
章抽出部の章の先頭を特定する動作の例を示す図。
引用文献の章を文献毎に抽出(分割)した例を示す図。
GROBIDの出力例を示す図。
引用アンカ検出部の検出パターン設定例を示す図。
従来技術と実施例1の装置における章タイトル抽出精度評価実験の結果を示す図。
従来技術と実施例1の装置における本文抽出精度評価実験の結果を示す図。
従来技術と実施例1の装置における引用文献情報抽出精度評価実験の結果を示す図。
コンピュータの機能構成例を示す図。
【発明を実施するための形態】
【0010】
以下、本開示の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
マウス用テーブル
1か月前
個人
管理装置
1か月前
個人
特徴検討支援システム
1か月前
個人
人的価値発掘システム
20日前
個人
業界地図作成システム
17日前
個人
契約管理サーバ
1か月前
アズビル株式会社
防爆装置
1か月前
個人
管理装置
1か月前
株式会社宗建
SNSサーバー
28日前
キヤノン電子株式会社
情報処理装置
20日前
株式会社セガフェイブ
遊戯機
1か月前
ミサワホーム株式会社
管理装置
20日前
ミサワホーム株式会社
システム
20日前
個人
配送システムおよび同包箱
20日前
キヤノン株式会社
印刷制御装置
8日前
個人
選択操作音声出力システム
1か月前
株式会社ジール
文章の分析装置
1か月前
大同特殊鋼株式会社
棒材計数装置
27日前
オムロン株式会社
認証中継サーバ
27日前
個人
動作のデザイン評価の方法及び装置
27日前
個人
文字入力方法、文字入力プログラム
今日
株式会社奥村組
削孔位置検出方法
1か月前
アスエネ株式会社
森林管理の方法
1か月前
トヨタ自動車株式会社
車両
1か月前
トヨタ自動車株式会社
作業評価装置
6日前
株式会社八咲
イベント管理システム
27日前
トヨタ自動車株式会社
情報処理装置
1か月前
日本電気株式会社
システム及び方法
1か月前
個人
口座悪用を防止する口座管理システム
22日前
株式会社チノー
ユーザ認証システム
15日前
トヨタ自動車株式会社
記号認識装置
1か月前
個人
分類処理プログラム、システム及び方法
1か月前
三菱電機モビリティ株式会社
メモリ制御装置
21日前
セコム株式会社
監視装置
1か月前
セコム株式会社
監視装置
1か月前
個人
分類処理プログラム、システム及び方法
1か月前
続きを見る
他の特許を見る