TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025114370
公報種別
公開特許公報(A)
公開日
2025-08-05
出願番号
2024009025
出願日
2024-01-24
発明の名称
情報処理プログラム、情報処理方法および情報処理装置
出願人
富士通株式会社
代理人
弁理士法人酒井国際特許事務所
主分類
G06F
40/216 20200101AFI20250729BHJP(計算;計数)
要約
【課題】構造化した文書データへの適切な変換を支援する。
【解決手段】実施形態の情報処理プログラムは、分割する処理と、作成する処理と、実行する処理とをコンピュータに実行させる。分割する処理は、変換対象の文書データを複数の文書断片に分割する。作成する処理は、分割した文書断片それぞれについて、文書構造を明示した文書への変換を大規模言語モデルに依頼する際に、変換を依頼する文書断片の直前の文書断片と、変換を依頼する文書断片と、直前の文書断片を大規模言語モデルが変換した変換後の文書断片とを含む変換依頼文を作成する。実行する処理は、作成した変換依頼文を大規模言語モデルに入力して文書構造を明示した文書断片への変換を実行する。
【選択図】図6
特許請求の範囲
【請求項1】
変換対象の文書データを複数の文書断片に分割し、
分割した前記文書断片それぞれについて、文書構造を明示した文書への変換を大規模言語モデルに依頼する際に、変換を依頼する文書断片の直前の文書断片と、変換を依頼する文書断片と、前記直前の文書断片を前記大規模言語モデルが変換した変換後の文書断片とを含む変換依頼文を作成し、
作成した前記変換依頼文を前記大規模言語モデルに入力して文書構造を明示した文書断片への変換を実行する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
続きを表示(約 1,700 文字)
【請求項2】
前記作成する処理は、前記大規模言語モデルの変換後の出力を示す記号についで前記変換後の文書断片を含む前記変換依頼文を作成する、
ことを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
変換後の複数の文書断片に基づいて前記文書データにかかる文章構造を抽出する処理をさらに前記コンピュータに実行させ、
前記作成する処理は、前記抽出した文章構造を含む前記変換依頼文を作成する、
ことを特徴とする請求項1に記載の情報処理プログラム。
【請求項4】
変換後の文書断片を結合し、結合した文書を文書構造の区切り対応する位置で分割する処理をさらに前記コンピュータに実行させる、
ことを特徴とする請求項1に記載の情報処理プログラム。
【請求項5】
変換対象の文書データを複数の文書断片に分割し、
前記文書データにかかる文章構造を示す第1の文脈情報と、変換を依頼する文書断片の直前の文書断片にかかる文書構造を示す第2の文脈情報とを抽出し、
分割した前記文書断片それぞれについて、文書構造を明示した文書への変換を大規模言語モデルに依頼する際に、前記変換を依頼する文書断片とともに、前記第1の文脈情報および前記第2の文脈情報を含む変換依頼文を作成し、
作成した前記変換依頼文を前記大規模言語モデルに入力して文書構造を明示した文書断片への変換を実行する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【請求項6】
前記抽出する処理は、変換後の複数の文書断片をもとに抽出した文書構造を前記第1の文脈情報とする、
ことを特徴とする請求項5に記載の情報処理プログラム。
【請求項7】
前記抽出する処理は、前記直前の文書断片と、当該直前の文書断片を前記大規模言語モデルが変換した変換後の文書断片とを前記第2の文脈情報とする、
ことを特徴とする請求項5に記載の情報処理プログラム。
【請求項8】
変換対象の文書データを複数の文書断片に分割し、
分割した前記文書断片それぞれについて、文書構造を明示した文書への変換を大規模言語モデルに依頼する際に、変換を依頼する文書断片の直前の文書断片と、変換を依頼する文書断片と、前記直前の文書断片を前記大規模言語モデルが変換した変換後の文書断片とを含む変換依頼文を作成し、
作成した前記変換依頼文を前記大規模言語モデルに入力して文書構造を明示した文書断片への変換を実行する、
処理をコンピュータが実行することを特徴とする情報処理方法。
【請求項9】
変換対象の文書データを複数の文書断片に分割し、
前記文書データにかかる文章構造を示す第1の文脈情報と、変換を依頼する文書断片の直前の文書断片にかかる文書構造を示す第2の文脈情報とを抽出し、
分割した前記文書断片それぞれについて、文書構造を明示した文書への変換を大規模言語モデルに依頼する際に、前記変換を依頼する文書断片とともに、前記第1の文脈情報および前記第2の文脈情報を含む変換依頼文を作成し、
作成した前記変換依頼文を前記大規模言語モデルに入力して文書構造を明示した文書断片への変換を実行する、
処理をコンピュータが実行することを特徴とする情報処理方法。
【請求項10】
変換対象の文書データを複数の文書断片に分割し、
分割した前記文書断片それぞれについて、文書構造を明示した文書への変換を大規模言語モデルに依頼する際に、変換を依頼する文書断片の直前の文書断片と、変換を依頼する文書断片と、前記直前の文書断片を前記大規模言語モデルが変換した変換後の文書断片とを含む変換依頼文を作成し、
作成した前記変換依頼文を前記大規模言語モデルに入力して文書構造を明示した文書断片への変換を実行する、
処理を実行する制御部を含むことを特徴とする情報処理装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明の実施形態は、情報処理プログラム、情報処理方法および情報処理装置に関する。
続きを表示(約 1,900 文字)
【背景技術】
【0002】
設計書、説明書、手順書などの人間が読むための文書データは、文書構造(章、節、表、注釈、参照先、参照元など)について、タグ付けなどによる構造化が不十分あるいは不健全であり、機械可読性の低いものが多い。
【0003】
このような構造化が不十分な文書データについては、ChatGPT(登録商標)等の大規模言語モデル(LLM:Large Language Models)に読み込ませて構造化を依頼することで、構造化した文書データに変換する従来技術がある。また、設計書、説明書、手順書等の変換対象の文書データはページ数の多い長大なものであることから、LLMのトークン長制約を満たすように、変換対象の文書データを要約した上でLLMに読み込ませる従来技術がある。また、変換対象の文書データを文書断片に変換・分割してLLMに読み込ませる従来技術がある。
【先行技術文献】
【特許文献】
【0004】
特開2023-73095号公報
特許第7378003号明細書
米国特許出願公開第2004/0117734号明細書
米国特許出願公開第2022/0036153号明細書
米国特許第11748577号明細書
国際公開第2023/145051号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の従来技術では、適切に構造化した文書データへの変換が困難な場合があるという問題がある。例えば、変換対象の文書データを要約してLLMに読み込ませる場合、要約によって構造化等に重要となる情報の欠落が生じ、変換後の文章データの正確性が損なわれることがある。また、変換対象の文書データを文書断片に変換・分割すると、文書断片それぞれが構造化に必要な情報を持たない場合があり、本来は小見出しのタグ付けをするところを大見出しのタグ付けをするなど、LLMによる構造化が不安定になることがある。
【0006】
1つの側面では、構造化した文書データへの適切な変換を支援できる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
1つの案では、情報処理プログラムは、分割する処理と、作成する処理と、実行する処理とをコンピュータに実行させる。分割する処理は、変換対象の文書データを複数の文書断片に分割する。作成する処理は、分割した文書断片それぞれについて、文書構造を明示した文書への変換を大規模言語モデルに依頼する際に、変換を依頼する文書断片の直前の文書断片と、変換を依頼する文書断片と、直前の文書断片を大規模言語モデルが変換した変換後の文書断片とを含む変換依頼文を作成する。実行する処理は、作成した変換依頼文を大規模言語モデルに入力して文書構造を明示した文書断片への変換を実行する。
【発明の効果】
【0008】
1実施態様によれば、構造化した文書データへの適切な変換を支援できる。
【図面の簡単な説明】
【0009】
図1は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。
図2は、実施形態にかかる情報処理装置の動作例を示すフローチャートである。
図3は、依頼文の一例を説明する説明図である。
図4は、依頼文の一例を説明する説明図である。
図5は、レベル補正処理の一例を説明する説明図である。
図6は、構造化結果の一例を説明する説明図である。
図7Aは、出力結果の一例を説明する説明図である。
図7Bは、出力結果の一例を説明する説明図である。
図8は、比較例を説明する説明図である。
図9は、比較例を説明する説明図である。
図10は、比較例を説明する説明図である。
図11は、比較例を説明する説明図である。
図12は、コンピュータ構成の一例を説明する説明図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して、実施形態にかかる情報処理プログラム、情報処理方法および情報処理装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する情報処理プログラム、情報処理方法および情報処理装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
富士通株式会社
測定装置
2か月前
富士通株式会社
光伝送装置
3か月前
富士通株式会社
医用画像処理方法
21日前
富士通株式会社
画像変換機器と方法
2か月前
富士通株式会社
転倒検出方法及び装置
13日前
富士通株式会社
量子デバイスの製造方法
7日前
富士通株式会社
光伝送装置および光伝送方法
2か月前
富士通株式会社
データセット特徴タイプ推論
1か月前
富士通株式会社
制御装置及び基地局制御方法
28日前
富士通株式会社
信号相関量の確定装置と方法
1か月前
富士通株式会社
マーキング方法及びプログラム
1か月前
富士通株式会社
量子ビットデバイスの製造方法
27日前
富士通株式会社
制御プログラム、および制御方法
2か月前
富士通株式会社
光伝送装置および光伝送システム
1か月前
富士通株式会社
双方向光リンクの異常モニタリング
1か月前
富士通株式会社
ポイントクラウドレジストレーション
7日前
富士通株式会社
バイアスのための生成人工知能の検査
1か月前
富士通株式会社
大規模言語モデルを使用したデータ調整
1か月前
富士通株式会社
情報処理プログラムおよび情報処理方法
1か月前
富士通株式会社
制御プログラム、制御方法及び決済装置
1か月前
富士通株式会社
データ転送制御装置および情報処理装置
13日前
富士通株式会社
データ転送制御装置および情報処理装置
13日前
富士通株式会社
視線誘導方法および視線誘導プログラム
2日前
富士通株式会社
選択プログラム、選択装置、及び選択方法
1か月前
富士通株式会社
圧縮プログラム、圧縮方法および圧縮装置
2か月前
富士通株式会社
通信管理装置および無線リソース予測方法
2か月前
富士通株式会社
管理装置、管理方法および管理プログラム
2か月前
富士通株式会社
量子デバイス及び量子デバイスの制御方法
1か月前
富士通株式会社
広告画像を生成する方法、装置及び記憶媒体
2か月前
富士通株式会社
赤外線センサ、及び赤外線センサの製造方法
2か月前
富士通株式会社
光送信機サブ信号光位相差の確定装置と方法
1か月前
富士通株式会社
ホモグラフィの取得装置、方法及び電子機器
2か月前
富士通株式会社
無線アクセスネットワークプロビジョニング
1か月前
富士通株式会社
画像を記述する構造化テキストを生成する方法
1日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
今日
富士通株式会社
学習プログラム、学習方法、及び情報処理装置
12日前
続きを見る
他の特許を見る