TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024172255
公報種別
公開特許公報(A)
公開日
2024-12-12
出願番号
2023089841
出願日
2023-05-31
発明の名称
プログラム、情報処理装置及び情報処理方法
出願人
株式会社東芝
代理人
弁理士法人酒井国際特許事務所
主分類
G06F
16/53 20190101AFI20241205BHJP(計算;計数)
要約
【課題】より精度の高いAI処理結果を得るためのプロンプトの調整を効率的に行う。
【解決手段】実施形態のプログラムは、コンピュータを、入力制御部とAI処理部と第1算出部と表示制御部として機能させる。入力制御部は、第1テキストと、前記第1テキストに応じた回答の期待値とを含むプロンプトの入力を受け付ける。AI処理部は、前記第1テキストと、少なくとも1つの画像とが入力されると、前記回答を出力するAI(Artificial Intelligence)モデルを使用して、前記少なくとも1つの画像毎に前記回答を予測する。第1算出部は、前記期待値と前記回答とから、前記回答の精度を算出する。表示制御部は、前記プロンプトと前記回答と前記精度とを少なくとも含む表示情報を表示装置に表示する。
【選択図】図2
特許請求の範囲
【請求項1】
コンピュータを、
第1テキストと、前記第1テキストに応じた回答の期待値とを含むプロンプトの入力を受け付ける入力制御部と、
前記第1テキストと、少なくとも1つの画像とが入力されると、前記回答を出力するAI(Artificial Intelligence)モデルを使用して、前記少なくとも1つの画像毎に前記回答を予測するAI処理部と、
前記期待値と前記回答とから、前記回答の精度を算出する第1算出部と、
前記プロンプトと前記回答と前記精度とを少なくとも含む表示情報を表示装置に表示する表示制御部、
として機能させるためのプログラム。
続きを表示(約 1,700 文字)
【請求項2】
前記AI処理部は、正例を示す少なくとも1つの正例画像と、負例を示す少なくとも1つの負例画像とを含む複数の画像の入力を受け付け、
前記表示情報は、前記少なくとも1つの正例画像毎の前記回答と、前記少なくとも1つの負例画像毎の前記回答とを含む、
請求項1に記載のプログラム。
【請求項3】
前記AIモデルは、VQA(Visual question answering)タスクを処理し、
前記第1テキストは、前記複数の画像に対する質問であり、
前記回答の期待値は、前記質問の正解である、
請求項2に記載のプログラム。
【請求項4】
前記AIモデルは、特定の特徴を有する画像を検索する画像検索タスクを処理し、
前記第1テキストは、前記特定の特徴を有する画像を検索するクエリであり、
前記回答の期待値は、前記正例画像に対しては前記特定の特徴を有する画像との第1類似度が閾値より高いことであり、前記負例画像に対しては前記特定の特徴を有する画像との前記第1類似度が前記閾値以下であることである、
請求項2に記載のプログラム。
【請求項5】
前記AIモデルは、特定の領域を特定する画像接地タスクを処理し、
前記第1テキストは、前記特定の領域を表すクエリであり、
前記回答の期待値は、前記特定の領域の位置を示す座標である、
請求項1に記載のプログラム。
【請求項6】
前記コンピュータを、
前記少なくとも1つの画像と、前記少なくとも1つの画像に付随する第2テキストとをサンプルとして記憶するプロンプトデータセットから、前記第1テキストと前記第2テキストとの第2類似度が高い順にK個の前記サンプルを抽出する抽出部と、
前記K個のサンプルそれぞれについての前記第2類似度に基づき、前記第1テキストと前記プロンプトデータセットとの第3類似度を算出する第2算出部、
として更に機能させ、
前記表示情報は、前記第3類似度を更に含む、
請求項1乃至5のいずれか1項に記載のプログラム。
【請求項7】
前記コンピュータを、
前記少なくとも1つの画像と、前記少なくとも1つの画像に付随する第2テキストとをサンプルとして記憶するサンプル画像データセットから、前記第1テキストと前記第2テキストのとの第2類似度が高い順にK個の前記サンプルを抽出する抽出部と、
前記K個のサンプルそれぞれに含まれる前記第2テキストに基づき、提案テキストを生成する提案部、
として更に機能させ、
前記表示情報は、前記提案テキストを更に含む、
請求項1乃至5のいずれか1項に記載のプログラム。
【請求項8】
前記第1算出部は、前記第1テキストに含まれる単語に応じて、前記少なくとも1つの画像において前記AIモデルによって注目される注目領域を可視化する処理を更に実行し、
前記表示情報は、前記単語の選択に応じて注目される注目領域を、前記少なくとも1つの画像毎に示す情報を更に含む、
請求項1乃至5のいずれか1項に記載のプログラム。
【請求項9】
前記第1算出部は、前記少なくとも1つの画像が処理されるときに、前記第1テキストに含まれる単語のうち、前記AIモデルによって注目される注目単語を可視化する処理を更に実行し、
前記表示情報は、前記注目単語を、前記少なくとも1つの画像毎に示す情報を更に含む、
請求項1乃至5のいずれか1項に記載のプログラム。
【請求項10】
前記コンピュータを、
前記第1テキストに基づき、ネットワークから前記少なくとも1つの画像を検索する検索部、
として更に機能させ、
前記表示情報は、前記少なくとも1つの画像の検索を指示するボタンと、検索された前記少なくとも1つの画像とを更に含む、
請求項1乃至5のいずれか1項に記載のプログラム。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明の実施形態はプログラム、情報処理装置及び情報処理方法に関する。
続きを表示(約 2,100 文字)
【背景技術】
【0002】
プロンプトに基づき、AI(Artificial Intelligence)に処理を実行させるプロンプトエンジニアリングが従来から知られている。例えば、画像及びテキストのペアによる大規模事前学習モデルCLIP(ICML2021)では、ユーザーにより与えられるプロンプトとの類似度によって任意のクラス識別ができる。プロンプトの与え方によって精度が変わるため、手作業によりプロンプトの調整が行われている。
【先行技術文献】
【非特許文献】
【0003】
A.Radford et al.,“Learning Transferable Visual Models From Natural Language Supervision”,ICML2021,2021
R.R.Selvaraju et al,”Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization”,ICCV2017,2017
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術では、より精度の高いAI処理結果を得るためのプロンプトの調整を効率的に行うことが難しかった。
【課題を解決するための手段】
【0005】
実施形態のプログラムは、コンピュータを、入力制御部とAI処理部と第1算出部と表示制御部として機能させる。入力制御部は、第1テキストと、前記第1テキストに応じた回答の期待値とを含むプロンプトの入力を受け付ける。AI処理部は、前記第1テキストと、少なくとも1つの画像とが入力されると、前記回答を出力するAI(Artificial Intelligence)モデルを使用して、前記少なくとも1つの画像毎に前記回答を予測する。第1算出部は、前記期待値と前記回答とから、前記回答の精度を算出する。表示制御部は、前記プロンプトと前記回答と前記精度とを少なくとも含む表示情報を表示装置に表示する。
【図面の簡単な説明】
【0006】
第1実施形態の情報処理装置の機能構成の例を示す図。
第1実施形態の表示情報の例を示す図。
悪いプロンプトの例を説明するための図。
良いプロンプトの例を説明するための図。
第1実施形態の情報処理方法の例を示すフローチャート。
第1実施形態の変形例1の情報処理装置の機能構成の例を示す図。
第1実施形態の変形例2の情報処理装置の機能構成の例を示す図。
第2実施形態の情報処理装置の機能構成の例を示す図。
第2実施形態の類似度の算出例を示す図。
第2実施形態の表示情報の例を示す図。
第3実施形態の情報処理装置の機能構成の例を示す図。
第3実施形態の質問の候補の提案例を示す図。
第3実施形態の表示情報の例を示す図。
第4実施形態の情報処理装置の機能構成の例を示す図。
第4実施形態の表示情報の例1(画像側で可視化される場合)を示す図。
第4実施形態の表示情報の例2(テキスト側で可視化される場合)を示す図。
第5実施形態の情報処理装置の機能構成の例を示す図。
第5実施形態の表示情報の例1を示す図。
第5実施形態の表示情報の例2を示す図。
第6実施形態の情報処理装置の機能構成の例を示す図。
第6実施形態の表示情報の例を示す図。
第7実施形態の情報処理装置の機能構成の例を示す図。
第1乃至第7実施形態の情報処理装置のハードウェア構成の例を示す図。
【発明を実施するための形態】
【0007】
以下に添付図面を参照して、プログラム、情報処理装置及び情報処理方法の実施形態を詳細に説明する。
【0008】
(第1実施形態)
Visual question answering(VQA)を用いた画像検知、及び、テキストによる画像検索などにおいて、どのようなプロンプトを用いるのかは精度に直結する。第1実施形態では、より良いプロンプトを導くためのプロンプト調整をサポートするUI(User Interface)の例について説明する。
【0009】
[機能構成の例]
図1は第1実施形態の情報処理装置1の機能構成の例を示す図である。第1実施形態の情報処理装置1は、入力制御部11、AI処理部12、算出部13及び表示制御部14を備える。
【0010】
入力制御部11は、プロンプトの入力を受け付ける。プロンプトとは、画像及び言語等を処理するAIに入力されるテキストである。例えば、プロンプトは、AIへの指示である。具体的には、VQAの場合は、プロンプトは、画像を検知するAIに与える質問(第1テキスト)と、その期待値とを含む。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
株式会社東芝
台車
21日前
株式会社東芝
センサ
今日
株式会社東芝
固定子
20日前
株式会社東芝
センサ
7日前
株式会社東芝
計画装置
1か月前
株式会社東芝
除去装置
1か月前
株式会社東芝
搬送装置
21日前
株式会社東芝
開閉装置
14日前
株式会社東芝
回転電機
21日前
株式会社東芝
光スイッチ
今日
株式会社東芝
真空バルブ
1か月前
株式会社東芝
光デバイス
28日前
株式会社東芝
直流遮断器
21日前
株式会社東芝
蓋の開閉装置
2日前
株式会社東芝
電力変換装置
1か月前
株式会社東芝
合成ユニット
2か月前
株式会社東芝
駅務システム
1か月前
株式会社東芝
電力変換装置
14日前
株式会社東芝
駆動システム
27日前
株式会社東芝
靴用絶縁カバー
2か月前
株式会社東芝
潤滑油供給装置
14日前
株式会社東芝
オゾン発生装置
1か月前
株式会社東芝
電気車制御装置
14日前
株式会社東芝
開閉器駆動装置
1か月前
株式会社東芝
電動機制御装置
21日前
株式会社東芝
有価物回収方法
14日前
株式会社東芝
液体の貯蔵タンク
1か月前
株式会社東芝
画像取得システム
14日前
株式会社東芝
地中箱用アダプタ
28日前
株式会社東芝
埋込磁石型モータ
2か月前
株式会社東芝
積雪検出システム
22日前
株式会社東芝
ガス絶縁開閉装置
1か月前
株式会社東芝
磁気ディスク装置
今日
株式会社東芝
系統安定化システム
15日前
株式会社東芝
二酸化炭素回収設備
1か月前
株式会社東芝
センサ及び検査装置
1か月前
続きを見る
他の特許を見る