TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025072789
公報種別
公開特許公報(A)
公開日
2025-05-12
出願番号
2023183113
出願日
2023-10-25
発明の名称
機器、情報処理装置、情報処理システム、情報処理方法及びプログラム
出願人
株式会社リコー
代理人
個人
,
個人
主分類
H04N
1/00 20060101AFI20250501BHJP(電気通信技術)
要約
【課題】生成モデルへの入力に適した画像を機器が入力可能とすること。
【解決手段】機器は、当該機器が入力する画像に対して適用する処理内容を示す文字列の入力を受け付ける文字列入力部と、前記文字列を入力とし、当該文字列が示す処理内容を適用する画像を入力する際の当該機器の動作方法を出力とする第1のモデルを用いて、当該機器の動作方法を取得する動作方法取得部と、を有し、前記第1のモデルは、或る文字列と前記或る文字列を入力した当該第1のモデルが出力する前記動作方法に基づいて入力元の画像を当該機器が入力することで得られる画像又は前記入力元の画像に対して当該動作方法に応じた画像処理が適用された画像とに基づいて第2のモデルが生成するデータと、前記或る文字列と前記或る画像とに基づいて前記第2のモデルが生成するデータとの誤差が小さくなるように学習されている。
【選択図】図11
特許請求の範囲
【請求項1】
機器であって、
当該機器が入力する画像に対して適用する処理内容を示す文字列の入力を受け付ける文字列入力部と、
前記文字列を入力とし、当該文字列が示す処理内容を適用する画像を入力する際の当該機器の動作方法を出力とする第1のモデルを用いて、当該機器の動作方法を取得する動作方法取得部と、
を有し、
前記第1のモデルは、或る文字列と前記或る文字列を入力した当該第1のモデルが出力する前記動作方法に基づいて入力元の画像を当該機器が入力することで得られる画像又は前記入力元の画像に対して当該動作方法に応じた画像処理が適用された画像とに基づいて第2のモデルが生成するデータと、前記或る文字列と前記或る画像とに基づいて前記第2のモデルが生成するデータとの誤差が小さくなるように学習されている、
ことを特徴とする機器。
続きを表示(約 2,000 文字)
【請求項2】
前記入力元の画像は、撮像対象の物体が含む画像であり、
前記機器は、前記物体を撮像することで前記入力元の画像を入力する、
ことを特徴とする請求項1記載の機器。
【請求項3】
前記文字列入力部が受け付けた文字列と、前記動作方法取得部が取得した動作方法に基づいて当該機器が入力する画像とに基づくデータの生成要求を、前記第2のモデルを有するコンピュータへ要求する要求部、
を有することを特徴とする請求項1記載の機器。
【請求項4】
前記要求部は、前記コンピュータから得られる画面を介して入力されるユーザの指示に応じ、前記生成要求を前記コンピュータへ送信する、
ことを特徴とする請求項3記載の機器。
【請求項5】
前記動作方法取得部が取得した動作方法に対応付けられて他の動作方法が記憶部に記憶されている場合に、当該機器の動作方法を当該他の動作方法に修正する動作方法修正部、
を有する、
ことを特徴とする請求項1記載の機器。
【請求項6】
前記記憶部は、前記動作方法取得部が取得した動作方法と、当該動作方法がユーザによって変更された動作方法とを対応付けて記憶する、
ことを特徴とする請求項5記載の機器。
【請求項7】
文字列を入力とし、当該文字列が示す処理内容を適用する画像を入力する機器の動作方法を出力とする第1のモデルを用いて、当該動作方法を判定する動作方法判定部、
を有し、
前記第1のモデルは、或る文字列と、前記或る文字列を入力した当該第1のモデルが出力する前記動作方法に基づいて入力元の画像を前記機器が入力することで得られる画像又は前記入力元の画像に対して当該動作方法に応じた画像処理が適用された画像とに基づいて第2のモデルが生成するデータと、前記或る文字列と前記或る画像とに基づいて前記第2のモデルが生成するデータとの誤差が小さくなるように学習されている、
ことを特徴とする情報処理装置。
【請求項8】
機器を含む情報処理システムであって、
前記機器が入力する画像に対して適用する処理内容を示す文字列の入力を受け付ける文字列入力部と、
前記文字列を入力とし、当該文字列が示す処理内容を適用する画像を入力する際の前記機器の動作方法を出力とする第1のモデルを用いて、前記機器の動作方法を取得する動作方法取得部と、
を有し、
前記第1のモデルは、或る文字列と前記或る文字列を入力した当該第1のモデルが出力する前記動作方法に基づいて入力元の画像を前記機器が入力することで得られる画像又は前記入力元の画像に対して当該動作方法に応じた画像処理が適用された画像とに基づいて第2のモデルが生成するデータと、前記或る文字列と前記或る画像とに基づいて前記第2のモデルが生成するデータとの誤差が小さくなるように学習されている、
ことを特徴とする情報処理システム。
【請求項9】
機器が、
当該機器が入力する画像に対して適用する処理内容を示す文字列の入力を受け付ける文字列入力手順と、
前記文字列を入力とし、当該文字列が示す処理内容を適用する画像を入力する際の当該機器の動作方法を出力とする第1のモデルを用いて、当該機器の動作方法を取得する動作方法取得手順と、
を実行し、
前記第1のモデルは、或る文字列と前記或る文字列を入力した当該第1のモデルが出力する前記動作方法に基づいて入力元の画像を当該機器が入力することで得られる画像又は前記入力元の画像に対して当該動作方法に応じた画像処理が適用された画像とに基づいて第2のモデルが生成するデータと、前記或る文字列と前記或る画像とに基づいて前記第2のモデルが生成するデータとの誤差が小さくなるように学習されている、
ことを特徴とする情報処理方法。
【請求項10】
機器に、
当該機器が入力する画像に対して適用する処理内容を示す文字列の入力を受け付ける文字列入力手順と、
前記文字列を入力とし、当該文字列が示す処理内容を適用する画像を入力する際の当該機器の動作方法を出力とする第1のモデルを用いて、当該機器の動作方法を取得する動作方法取得手順と、
を実行させ、
前記第1のモデルは、或る文字列と前記或る文字列を入力した当該第1のモデルが出力する前記動作方法に基づいて入力元の画像を当該機器が入力することで得られる画像又は前記入力元の画像に対して当該動作方法に応じた画像処理が適用された画像とに基づいて第2のモデルが生成するデータと、前記或る文字列と前記或る画像とに基づいて前記第2のモデルが生成するデータとの誤差が小さくなるように学習されている、
ことを特徴とするプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、機器、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。
続きを表示(約 2,200 文字)
【背景技術】
【0002】
近年、機械学習モデル(生成モデル)を用いた生成AIが発達している。テキストを入力しテキストを生成するテキスト生成AI、画像を入力しテキストを生成する生成AI、テキストを入力し動画を生成するAI、テキストと画像を入力し画像を生成する生成AIなど、様々な入力情報に応じて様々な形式の生成物を生成するマルチモーダルな生成AIが実用化されている。ここでいう生成物には、テキスト、音声、画像、動画などの各種コンテンツが含まれる。
【0003】
生成AIでは入力された指示コマンドに応じた生成物の生成を行うが、生成物がユーザの意図に合致しているか否かは、指示コマンドの表現によって大きく左右される。指示コマンドは自然言語形式で入力される場合が多いが、意図した通りの結果を得るためにどの様な指示コマンドを入力すれば良いかに関するスキルはコマンドエンジニアリングと呼ばれて研究されている。
【0004】
なお、従来、操作者に手書き文字で指示内容を記述させ、その記述から指示する機能を決定する装置が検討されている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の生成AIに関する検討は、生成アルゴリズムやデータ空間上での生成AIの活用方法の検討がメインであり、ハードウェアである機器との連携という観点での検討は発展途上である。例えば、画像を入力する機器と生成AIとを組み合わせる際、機器に対する指示をどのように入力し、入力された指示に応じて機器が入力した画像を生成AIへの入力とするために、機器をどのような動作方法で動作させれば生成AI(生成モデル)への入力に適した画像が得られるのかといった検討は十分にはなされていない。
【0006】
本発明は、上記の点に鑑みてなされたものであって、生成モデルへの入力に適した画像を機器が入力可能とすることを目的とする。
【課題を解決するための手段】
【0007】
そこで上記課題を解決するため、機器は、当該機器が入力する画像に対して適用する処理内容を示す文字列の入力を受け付ける文字列入力部と、前記文字列を入力とし、当該文字列が示す処理内容を適用する画像を入力する際の当該機器の動作方法を出力とする第1のモデルを用いて、当該機器の動作方法を取得する動作方法取得部と、を有し、前記第1のモデルは、或る文字列と前記或る文字列を入力した当該第1のモデルが出力する前記動作方法に基づいて入力元の画像を当該機器が入力することで得られる画像又は前記入力元の画像に対して当該動作方法に応じた画像処理が適用された画像とに基づいて第2のモデルが生成するデータと、前記或る文字列と前記或る画像とに基づいて前記第2のモデルが生成するデータとの誤差が小さくなるように学習されている。
【発明の効果】
【0008】
生成モデルへの入力に適した画像を機器が入力可能とすることができる。
【図面の簡単な説明】
【0009】
第1の実施の形態における情報処理システムの構成例を示す図である。
入力データ、指示コマンド及び生成データの一例を示す第1の図である。
入力データ、指示コマンド及び生成データの一例を示す第2の図である。
入力データ、指示コマンド及び生成データの一例を示す第3の図である。
第1の実施の形態における機器10のハードウェア構成例を示す図である。
第1の実施の形態における情報処理装置20のハードウェア構成例を示す図である。
第1の実施の形態の学習時における情報処理システムの機能構成例を示す図である。
学習データ記憶部25の構成例を示す図である。
生成モデルm2の学習を説明するための図である。
第1の実施の形態における動作方法判定モデルm1の学習処理の処理手順の一例を説明するためのフローチャートである。
第1の実施の形態の推論時における情報処理システムの機能構成例を示す図である。
学習済みの動作方法判定モデルm1を用いたデータ生成処理の処理手順の一例を説明するためのフローチャートである。
学習済みの動作方法判定モデルm1を用いたデータ生成処理における画面遷移の一例を説明するための図である。
動作方法修正テーブル131の構成例を示す図である。
動作方法の修正処理の処理手順の一例を説明するためのフローチャートである。
第2の実施の形態の学習時における情報処理システムの機能構成例を示す図である。
第2の実施の形態における動作方法判定モデルm1の学習処理の処理手順の一例を説明するためのフローチャートである。
【発明を実施するための形態】
【0010】
以下、図面に基づいて本発明の実施の形態を説明する。図1は、第1の実施の形態における情報処理システムの構成例を示す図である。図1において、スキャン、プリント、コピーなどの機能を備え、画像を入力可能な機器10は、有線や無線のネットワークを介して情報処理装置20に接続する。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
携帯端末保持具
1日前
個人
防犯AIプラグイン
1か月前
個人
テレビ会議拡張システム
1か月前
日本精機株式会社
投影システム
4日前
日本放送協会
無線通信装置
1か月前
ヤマハ株式会社
音響出力装置
13日前
キヤノン電子株式会社
画像処理装置
1か月前
キヤノン電子株式会社
画像読取装置
29日前
個人
無線中継赤外線コピーリモコン
1か月前
ヤマハ株式会社
音響出力装置
13日前
TOA株式会社
音響システム
1か月前
キヤノン電子株式会社
画像読取装置
1日前
日本放送協会
映像伝送システム
今日
キヤノン株式会社
画像処理装置
今日
キヤノン株式会社
映像表示装置
15日前
キヤノン株式会社
画像読取装置
26日前
オムロン株式会社
スレーブ装置
15日前
株式会社バッファロー
無線通信装置
今日
株式会社ニコン
撮像装置
1か月前
理想科学工業株式会社
連絡システム
1か月前
株式会社ユピテル
撮像装置等
1か月前
株式会社ニコン
カメラボディ
26日前
アイホン株式会社
インターホン機器
15日前
17LIVE株式会社
サーバ及び方法
27日前
個人
対走行騒音の音量音質制御の安定化方法
今日
シャープ株式会社
画像読取装置
11日前
二幸産業株式会社
建物設備の管理装置
21日前
キヤノン株式会社
冷却装置と電子機器
1か月前
キヤノン株式会社
撮像装置
1か月前
国立大学法人東京科学大学
超音波照射器
15日前
キヤノン株式会社
撮像装置
19日前
株式会社JVCケンウッド
映像記録装置
1か月前
アイホン株式会社
ナースコールシステム
12日前
キヤノン株式会社
撮像装置
11日前
ニッタン株式会社
引率支援システム
1か月前
株式会社国際電気
無線通信システム
1か月前
続きを見る
他の特許を見る