TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025123494
公報種別公開特許公報(A)
公開日2025-08-22
出願番号2025105505,2023216105
出願日2025-06-23,2020-12-09
発明の名称生成システム、学習システム、生成方法、学習方法、及びプログラム
出願人NTT株式会社
代理人弁理士法人ITOH
主分類G06N 3/0475 20230101AFI20250815BHJP(計算;計数)
要約【課題】視覚情報を考慮した機械読解を実現すること。
【解決手段】一実施形態に係る学習装置は、視覚的な領域が含まれるデータと、前記データに関連する第1の情報とを入力として、機械学習モデルのモデルパラメータを用いて、前記領域の特徴を表す情報から、前記第1の情報に対応する第2の情報を生成する生成部と、前記第2の情報と、前記第2の情報の正解を表す第3の情報とに基づいて、前記モデルパラメータを学習する学習部と、を有することを特徴とする。
【選択図】図1
特許請求の範囲【請求項1】
視覚的な領域が含まれるデータと、前記データに関連する第1の情報とを入力として、機械学習モデルのモデルパラメータを用いて、前記領域の特徴を表す情報から、前記第1の情報に対応する第2の情報を生成する生成部と、
前記第2の情報と、前記第2の情報の正解を表す第3の情報とに基づいて、前記モデルパラメータを学習する学習部と、
を有することを特徴とする学習装置。
続きを表示(約 1,300 文字)【請求項2】
前記生成部は、
前記領域の特徴を表す情報と前記第1の情報との特徴量を作成し、前記特徴量から前記第2の情報を生成する、請求項1に記載の学習装置。
【請求項3】
前記領域には、画像又は図表が少なくとも含まれる、請求項1又は2に記載の学習装置。
【請求項4】
前記第1の情報は、前記データに関連する内容を表すテキスト情報である、請求項1乃至3の何れか一項に記載の学習装置。
【請求項5】
視覚的な領域が含まれるデータと、前記データに関連する第1の情報とを入力として、機械学習モデルのモデルパラメータを用いて、前記領域と、前記第1の情報に対応する第2の情報との関連度を算出する算出部と、
前記関連度と、前記関連度の正解を表す情報とに基づいて、前記モデルパラメータを学習する学習部と、
を有することを特徴とする学習装置。
【請求項6】
視覚的な領域が含まれるデータと、前記データに関連する第1の情報とを入力として、学習済みの機械学習モデルのモデルパラメータを用いて、前記領域の特徴を表す情報から、前記第1の情報に対応する第2の情報を生成する生成部、
を有することを特徴とする生成装置。
【請求項7】
視覚的な領域が含まれるデータと、前記データに関連する第1の情報とを入力として、学習済みの機械学習モデルのモデルパラメータを用いて、前記領域に関して、前記領域と前記第1の情報に対応する第2の情報との関連度に基づく所定の評価値を出力する出力部、
を有することを特徴とする出力装置。
【請求項8】
視覚的な領域が含まれるデータと、前記データに関連する第1の情報とを入力として、機械学習モデルのモデルパラメータを用いて、前記領域の特徴を表す情報から、前記第1の情報に対応する第2の情報を生成する生成手順と、
前記第2の情報と、前記第2の情報の正解を表す第3の情報とに基づいて、前記モデルパラメータを学習する学習手順と、
をコンピュータが実行することを特徴とする学習方法。
【請求項9】
視覚的な領域が含まれるデータと、前記データに関連する第1の情報とを入力として、学習済みの機械学習モデルのモデルパラメータを用いて、前記領域の特徴を表す情報から、前記第1の情報に対応する第2の情報を生成する生成手順、
をコンピュータが実行することを特徴とする生成方法。
【請求項10】
視覚的な領域が含まれるデータと、前記データに関連する第1の情報とを入力として、機械学習モデルのモデルパラメータを用いて、前記領域の特徴を表す情報から、前記第1の情報に対応する第2の情報を生成する生成部、
前記第2の情報と、前記第2の情報の正解を表す第3の情報とに基づいて、前記モデルパラメータを学習する学習部、
としてコンピュータを機能させることを特徴とするプログラム。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、学習装置、生成装置、出力装置、学習方法、生成方法、プログラム、及び学習済み機械学習モデルの製造方法に関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
与えられた文書の集合に基づいて、質問に対する回答を生成する「機械読解」を人工知能により正確に行うことができれば、質問応答や知的エージェント対話等の幅広いサービスに応用することができる。機械読解には抽出型と生成型があるが、生成型の機械読解を行うための従来技術として、例えば、非特許文献1に開示された技術が知られている。
【先行技術文献】
【非特許文献】
【0003】
Kyosuke Nishida, Itsumi Saito, Kosuke Nishida, Kazutoshi Shinoda, Atsushi Otsuka, Hisako Asano, Junji Tomita: Multi-style Generative Reading Comprehension. ACL (1) 2019: 2273-2284
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の機械読解技術はテキストのみを扱っており、文書中におけるテキストの位置や大きさ等の視覚的な情報を扱うことができなかった。このため、複数個のテキストがレイアウトされた文書(例えば、HTML(HyperText Markup Language)文書やPDF(Portable Document Format)文書等)を機械読解により理解する場合、テキストの内容以外の情報はすべて欠落した状態で扱われていた。
【0005】
本発明の一実施形態は、上記の点に鑑みてなされたもので、視覚的な情報を考慮した機械読解を実現することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するため、一実施形態に係る学習装置は、視覚的な領域が含まれるデータと、前記データに関連する第1の情報とを入力として、機械学習モデルのモデルパラメータを用いて、前記領域の特徴を表す情報から、前記第1の情報に対応する第2の情報を生成する生成部と、前記第2の情報と、前記第2の情報の正解を表す第3の情報とに基づいて、前記モデルパラメータを学習する学習部と、を有することを特徴とする。
【発明の効果】
【0007】
視覚情報を考慮した機械読解を実現することができる。
【図面の簡単な説明】
【0008】
第一の実施形態に係る質問応答装置の全体構成(学習時)の一例を示す図である。
第一の実施形態に係る学習処理の一例を示すフローチャートである。
第一の実施形態に係るモデルパラメータ更新処理の一例を示すフローチャートである。
特徴領域の抽出の一例を説明するための図である。
第一の実施形態に係る視覚効果付き言語理解処理の一例を示すフローチャートである。
第一の実施形態に係る回答テキスト生成確率算出処理の一例を示すフローチャートである。
第一の実施形態に係る質問応答装置の全体構成(推論時)の一例を示す図である。
第一の実施形態に係る推論処理の一例を示すフローチャートである。
第一の実施形態に係る回答テキスト生成処理の一例を示すフローチャートである。
第二の実施形態に係る質問応答装置の全体構成(学習時)の一例を示す図である。
第二の実施形態に係るモデルパラメータ更新処理の一例を示すフローチャートである。
第二の実施形態に係る視覚効果付き言語理解処理の一例を示すフローチャートである。
第二の実施形態に係る回答テキスト生成確率算出処理の一例を示すフローチャートである。
第二の実施形態に係る質問応答装置の全体構成(推論時)の一例を示す図である。
第二の実施形態に係る推論処理の一例を示すフローチャートである。
第二の実施形態に係る回答テキスト生成処理の一例を示すフローチャートである。
一実施形態に係る質問応答装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態について説明する。
【0010】
・第一の実施形態
本実施形態では、テキストを含む画像とこの画像に関連する質問テキストとが与えられたときに、この画像中の視覚的な情報(例えば、画像中におけるテキストの位置や大きさ等)を考慮した回答テキストを生成することができる質問応答装置10について説明する。また、本実施形態に係る質問応答装置10は、画像中におけるテキストの位置や大きさだけでなく、画像中に含まれるグラフや写真等の視覚的な情報(言い換えれば、テキストの理解を助ける補助的な情報)も考慮して回答テキストを生成することができる。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

NTT株式会社
試験装置および試験方法
1か月前
NTT株式会社
分類装置、および分類方法
1か月前
NTT株式会社
通信システム、及び通信方法
2日前
NTT株式会社
量子計算装置、及び制御装置
22日前
NTT株式会社
音声抽出装置及び音声抽出方法
7日前
NTT株式会社
光増幅器及び光増幅器監視方法
22日前
NTT株式会社
足場を構築する施工方法及び治具
1か月前
NTT株式会社
無線通信方法及び無線通信システム
16日前
NTT株式会社
推論装置、推論方法、及びプログラム
20日前
NTT株式会社
単一光子生成装置、及び単一光子生成方法
6日前
NTT株式会社
生成システム、生成装置、および生成方法
10日前
NTT株式会社
情報処理装置、情報処理方法及びプログラム
10日前
NTT株式会社
置局設計装置、置局設計方法及びプログラム
28日前
NTT株式会社
周期検出装置、周期検出方法及びプログラム
6日前
NTT株式会社
情報処理装置、情報処理方法及びプログラム
17日前
NTT株式会社
量子計算装置、量子計算方法、及びプログラム
1か月前
NTT株式会社
配送計画装置、配送計画方法、及びプログラム
28日前
NTT株式会社
通信制御システム、通信制御方法及びプログラム
28日前
NTT株式会社
移動ロボット、移動量推定方法、及びプログラム
1か月前
NTT株式会社
画像処理装置、画像処理方法及び画像処理プログラム
20日前
NTT株式会社
修辞構造解析装置、修辞構造解析方法及びプログラム
15日前
NTT株式会社
情報処理装置、情報処理方法および情報処理プログラム
15日前
NTT株式会社
簡易な方法で光ファイバをセンサ化するシステム及び方法
23日前
富士通株式会社
データ転送制御装置および情報処理装置
21日前
富士通株式会社
データ転送制御装置および情報処理装置
21日前
NTT株式会社
伝送システム、送信装置、受信装置、伝送方法およびプログラム
28日前
NTT株式会社
電気刺激装置、電気刺激システム、電気刺激方法及びプログラム
17日前
NTT株式会社
基地局及び端末
1か月前
NTT株式会社
基地局及び端末
9日前
NTT株式会社
送信局及び受信局
22日前
NTT株式会社
音響信号出力装置
9日前
NTT株式会社
音響信号出力装置
1か月前
NTT株式会社
通信ネットワークシステム、通信方法、通信端末およびプログラム
28日前
NTT株式会社
運動耐容能推定方法、運動耐容能推定装置及びコンピュータプログラム
1か月前
NTT株式会社
光伝送システムの異常個所絞り込み装置、および、異常個所絞り込み方法
3日前
NTT株式会社
装置、方法及びプログラム
13日前
続きを見る