特許ウォッチ

公開番号2025137328
公報種別公開特許公報(A)
公開日2025-09-19
出願番号2024091632
出願日2024-06-05
発明の名称推論装置、学習装置、推論方法、及びプログラム
出願人NTT株式会社,国立大学法人東北大学
代理人弁理士法人ITOH,個人,個人,個人
主分類G06F 40/56 20200101AFI20250911BHJP(計算;計数)
要約【課題】テキストを含むデータから、当該データに関する視覚的情報に明示的に基づいた特徴を生成する。
【解決手段】推論装置において、テキストを含むデータから抽出された視覚的情報であって、前記テキストに関する視覚的情報と、第1テキストとから学習済みモデルに基づいて特徴を生成し、前記特徴を生成部に入力するために出力する特徴生成部を備え、前記生成部は、前記特徴と前記第1テキストとに基づいて第2テキストを出力する。
【選択図】図14
特許請求の範囲【請求項１】
テキストを含むデータから抽出された視覚的情報であって、前記テキストに関する視覚的情報と、第１テキストとから学習済みモデルに基づいて特徴を生成し、前記特徴を生成部に入力するために出力する特徴生成部、を備え、
前記生成部は、前記特徴と前記第１テキストとに基づいて第２テキストを出力する
推論装置。
続きを表示（約 810 文字）【請求項２】
前記視覚的情報は、前記データにおける前記テキストの領域を示す領域情報と、前記データにおける画像特徴とを含み、前記特徴生成部は、前記視覚的情報と、前記データから抽出された第３テキストと、前記第１テキストとから前記学習済みモデルに基づいて前記特徴を生成する
請求項１に記載の推論装置。
【請求項３】
前記特徴生成部は、前記テキストに重みを付けた情報と前記領域情報に重みを付けた情報とを用いて前記特徴を生成する
請求項２に記載の推論装置。
【請求項４】
テキストを含むデータから抽出された視覚的情報であって、前記テキストに関する視覚的情報と、第１テキストとから特徴を生成し、前記特徴を生成部に入力するために出力する特徴生成部と、
前記特徴及び前記第１テキストが入力された前記生成部から出力される情報と、前記データ及び前記第１テキストに対する正解の第２テキストとを用いて、前記特徴生成部を構成するニューラルネットワークのモデルパラメータを学習する学習部と、
を備える学習装置。
【請求項５】
推論装置が実行する推論方法であって、
テキストを含むデータから抽出された視覚的情報であって、前記テキストに関する視覚的情報と、第１テキストとから特徴を生成し、前記特徴を生成部に入力するために出力するステップを備え、
前記生成部は、前記特徴と前記第１テキストとに基づいて第２テキストを出力する
推論方法。
【請求項６】
コンピュータを、請求項１ないし３のうちいずれか１項に記載の前記推論装置における前記特徴生成部として機能させるためのプログラム。
【請求項７】
コンピュータを、請求項４に記載の前記学習装置における前記特徴生成部、及び前記学習部として機能させるためのプログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、文書画像に基づいてテキストを出力する技術に関連するものである。
続きを表示（約 1,600 文字）【背景技術】
【０００２】
テキストや画像が様々な位置に配置された文書画像を対象としたタスクを実行する技術が知られている。そのようなタスクとして、例えば、文書画像を知識源として、質問に対して回答テキストを生成する質問応答タスク、文書画像内の特定の情報を抽出する情報抽出タスク等がある。
【０００３】
自然の風景等を写した画像である自然画像を対象としたタスクを実行する従来技術の１つとして非特許文献１に開示された技術が知られている。非特許文献１に開示された技術では、事前学習済みの大規模言語モデル（ＬＬＭ：Large Language Model）が使用されている。
【先行技術文献】
【非特許文献】
【０００４】
Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. ICML23
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかし、非特許文献１に開示された従来技術では、文書画像を入力とした際に、当該文書画像における、テキストに関するレイアウト情報等の視覚的情報を明示的に考慮した特徴を用いることができない。なお、文書画像は「テキストを含むデータ」の例である。
【０００６】
本発明は上記の点に鑑みてなされたものであり、テキストを含むデータから、当該データに関する視覚的情報に明示的に基づいた特徴を生成するための技術を提供することを目的とする。
【課題を解決するための手段】
【０００７】
開示の技術によれば、テキストを含むデータから抽出された視覚的情報であって、前記テキストに関する視覚的情報と、第１テキストとから学習済みモデルに基づいて特徴を生成し、前記特徴を生成部に入力するために出力する特徴生成部、を備え、
前記生成部は、前記特徴と前記第１テキストとに基づいて第２テキストを出力する
推論装置が提供される。
【発明の効果】
【０００８】
開示の技術によれば、テキストを含むデータから、当該データに関する視覚的情報に明示的に基づいた特徴を生成するための技術が提供される。
【図面の簡単な説明】
【０００９】
タスクの例１を示す図である。
タスクの例２を示す図である。
タスクの例３を示す図である。
タスクの例４を示す図である。
タスクの例５を示す図である。
学習装置１００の構成例を示す図である。
学習装置１００の動作例を示すフローチャートである。
生成部１４０の内部構成例を示す図である。
更新するパラメータと更新しないパラメータを示す図である。
推論装置２００の構成例を示す図である。
更新するパラメータと更新しないパラメータを示す図である。
推論装置２００の動作例を示すフローチャートである。
学習装置１００の他の構成例を示す図である。
推論装置２００の他の構成例を示す図である。
装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
【００１０】
以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
（【００１１】以降は省略されています）

関連特許