TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025089908
公報種別公開特許公報(A)
公開日2025-06-16
出願番号2023204878
出願日2023-12-04
発明の名称情報処理装置、情報処理装置の制御方法、及びプログラム
出願人キヤノン株式会社
代理人個人
主分類G06T 1/40 20060101AFI20250609BHJP(計算;計数)
要約【課題】ユーザが発言した内容が示すオブジェクトの形体をより好適な態様で再現可能とする。
【解決手段】テキスト生成部203は、ユーザの発言内容を示す発言データを基に、当該発言内容の主題となるオブジェクトを示す主題オブジェクト情報と、当該発言内容に含まれる当該オブジェクトの形体を修飾する情報である形体修飾因子情報と、を取得する。形体更新部206は、ユーザの発言の対象となる画像に含まれる1以上のオブジェクトのうち、テキスト生成部203により取得された主題オブジェクト情報に対応するオブジェクトに対して、形体修飾因子情報に基づいて変更を加える。出力制御部207は、形体更新部206によりオブジェクトに対して変更が加えられた結果が所定の出力先に出力されるように制御する。
【選択図】図2
特許請求の範囲【請求項1】
ユーザの発言内容を示す発言データを基に、当該発言内容の主題となるオブジェクトを示す主題オブジェクト情報と、当該発言内容に含まれる当該オブジェクトの形体を修飾する情報である形体修飾因子情報と、を取得する取得手段と、
前記ユーザの発言の対象となる画像に含まれる1以上のオブジェクトのうち、前記取得手段により取得された前記主題オブジェクト情報に対応するオブジェクトに対して、前記形体修飾因子情報に基づいて変更を加える変更手段と、
前記変更手段により前記オブジェクトに対して変更が加えられた結果が所定の出力先に出力されるように制御する出力制御手段と、
を有することを特徴とする、情報処理装置。
続きを表示(約 1,700 文字)【請求項2】
前記形体修飾因子情報に基づき、前記オブジェクトの形体的特徴を示す形体修飾パラメータを生成する生成手段を有し、
前記変更手段は、前記主題オブジェクト情報に対応するオブジェクトに対して、前記形体修飾パラメータに基づき変更を加える
ことを特徴とする、請求項1に記載の情報処理装置。
【請求項3】
前記変更手段が行う変更は、前記形体修飾パラメータに基づき、
前記主題オブジェクト情報に対応するオブジェクトに対して前記形体的特徴を追加すること、
当該オブジェクトの少なくとも一部を前記形体的特徴に基づいて変形すること、及び
当該オブジェクトから前記形体的特徴を削除すること
のうち少なくともいずれかを含む
ことを特徴とする、請求項2に記載の情報処理装置。
【請求項4】
前記形体修飾パラメータは、位置、サイズ、形状、及び向きのうちの少なくともいずれかの情報を含む形体情報と、色及びテクスチャのうちの少なくともいずれかを含むアピアランス情報と、のうちの少なくともいずれかを含むことを特徴とする、請求項2に記載の情報処理装置。
【請求項5】
前記形体修飾因子情報は、前記主題オブジェクト情報に対応するオブジェクトに追加、削除、及び変形を含む複数の変更のうち、いずれを行うものかを指示する情報を属性として含み、
前記生成手段は、前記形体修飾因子情報に含まれる前記属性に応じて、生成する前記形体修飾パラメータの構成を制御する
ことを特徴とする、請求項2に記載の情報処理装置。
【請求項6】
前記形体修飾因子情報は、前記発言内容の主題となるオブジェクトの名称、当該オブジェクトの主題らしさとしての推定尤度、当該オブジェクトに対して変更を加えることの実施の可否、及び当該発言内容が示す発言を行ったユーザの情報のうちの少なくともいずれかを含むことを特徴とする、請求項2に記載の情報処理装置。
【請求項7】
前記変更手段は、前記形体修飾因子情報に含まれる前記推定尤度が閾値未満の場合には、前記主題オブジェクト情報に対応するオブジェクトに対する、当該形体修飾因子情報に基づく変更を抑制することを特徴とする、請求項6に記載の情報処理装置。
【請求項8】
前記変更手段は、前記ユーザの発言の対象となる画像中のどこにどの確率で前記主題オブジェクト情報に対応するオブジェクトが存在するかを示す尤度マップであって、前記形体修飾因子情報に含まれる前記推定尤度に基づく尤度マップから取得される所定の統計量が閾値未満の場合には、前記主題オブジェクト情報に対応するオブジェクトに対する、当該形体修飾因子情報に基づく変更を抑制することを特徴とする、請求項6に記載の情報処理装置。
【請求項9】
形体修飾因子情報と、当該形体修飾因子情報に基づいて生成された形態修飾パラメータと、を対応付けて学習データとして保存する保存手段を有し、
前記生成手段は、入力として受け付けた形体修飾因子情報に含まれるユーザの情報と、前記保存手段により保存された前記学習データと、に基づき、形態修飾パラメータを生成する
ことを特徴とする、請求項2に記載の情報処理装置。
【請求項10】
前記出力制御手段は、前記変更手段により前記オブジェクトに対して変更が加えられた結果が所定の表示領域に表示されるように制御し、
前記表示領域は、
前記ユーザの発言の対象となる画像が表示される第1の部分領域と、前記主題オブジェクト情報に対応するオブジェクトの画像が表示される第2の部分領域と、前記変更手段により前記オブジェクトに対して変更が加えられた結果に応じた画像が表示される第3の部分領域と、を含み、
前記第1の部分領域、前記第2の部分領域、及び前記第3の部分領域それぞれへの画像の表示の可否を選択的に切り替え可能に構成されている
ことを特徴とする、請求項2に記載の情報処理装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、情報処理装置、情報処理装置の制御方法、及びプログラムに関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
近年では、ビデオ会議を活用する場面が増えてきている。ビデオ会議を利用する利点としては、複数のユーザ間において視覚的にイメージを共有することで情報伝達の精度を向上させる効果が期待できる点が挙げられる。このようなユースケースでは、共有されているイメージを基に、当該イメージが示す議論の対象に対してどのような変更を施すかについて会話により補足しながら担当者間のイメージのすり合わせが行われる場合がある。このような背景から、担当者間でなされた会話の情報や、担当者が入力したテキスト情報から、新たに画像を作成したり、既存の画像を修飾したりする手法が各種提案されている。
非特許文献1には、プロンプトと称されるテキストの入力を受け付け、当該テキストの意味情報に基づく画像を新規に作成して出力する技術が開示されている。非特許文献2には、ベースとなる画像と、当該画像を修飾するテキスト情報との入力を受け付け、当該画像に対して当該テキスト情報が示す修飾が施されるようにスタイル変換が行われた画像を出力する技術が開示されている。
【先行技術文献】
【非特許文献】
【0003】
R. Rombach, “High-Resolution Image Synthesis with Latent Diffusion Models”, CVPR 2021.
O. Patashnik, “StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery”, ICCV 2021.
【発明の概要】
【発明が解決しようとする課題】
【0004】
一方で、非特許文献1に開示された技術では、入力されたテキスト情報に基づき尤もらしい修飾がなされた画像が作成されるため、必ずしもユーザの意図が正確に反映された画像が作成されるとは限られない。このような課題を解決するための技術の一例として、非特許文献2に開示された技術が挙げられる。しかしながら、非特許文献2に開示された技術においては、画像を修飾するためのテキスト情報を逐次準備することとなるため、ユーザにとっては手間となる。
【0005】
本発明は上記の問題を鑑み、ユーザが発言した内容が示すオブジェクトの形体をより好適な態様で再現可能とすることを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る情報処理装置は、ユーザの発言内容を示す発言データを基に、当該発言内容の主題となるオブジェクトを示す主題オブジェクト情報と、当該発言内容に含まれる当該オブジェクトの形体を修飾する情報である形体修飾因子情報と、を取得する取得手段と、前記ユーザの発言の対象となる画像に含まれる1以上のオブジェクトのうち、前記取得手段により取得された前記主題オブジェクト情報に対応するオブジェクトに対して、前記形体修飾因子情報に基づいて変更を加える変更手段と、前記変更手段により前記オブジェクトに対して変更が加えられた結果が所定の出力先に出力されるように制御する出力制御手段と、を有することを特徴とする。
【発明の効果】
【0007】
本発明によれば、ユーザが発言した内容が示すオブジェクトの形体をより好適な態様で再現することが可能となる。
【図面の簡単な説明】
【0008】
情報処理装置のハードウェア構成の一例を示した図である。
情報処理装置の機能構成の一例を示した図である。
情報処理装置の処理の一例を示したフローチャートである。
情報処理装置の表示画面の一例を示した図である。
表示画面の表示状態の一例を示した図である。
情報処理装置の処理の一例を示したフローチャートである。
表示画面の表示状態の一例を示した図である。
情報処理装置の処理の一例を示したフローチャートである。
情報処理装置の処理の一例を示したフローチャートである。
情報処理装置の処理の一例を示したフローチャートである。
検出尤度マップの一例を示した模式図である。
情報処理装置の表示画面の一例を示した図である。
情報処理装置の機能構成の一例を示した図である。
情報処理装置の処理の一例を示したフローチャートである。
主題オブジェクトの形体の更新結果の一例を示した図である。
情報処理装置の表示画面の一例を示した図である。
情報処理装置の表示画面の一例を示した図である。
【発明を実施するための形態】
【0009】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0010】
<第1の実施形態>
本開示の第1の実施形態について以下に説明する。図1は、本実施形態に係る情報処理装置のハードウェア構成の一例を示した図である。
情報処理装置100は、CPU(Central Processing Unit)104、RAM(Random Access Memory)105、ROM(Read Only Memory)106を備える。また、情報処理装置100は、入力部101、表示部102、画像入力部103、及びHDD(Hard Disk Drive)107を備える。上述した情報処理装置100の各構成要素は、データバス108を介して相互にデータを送受信可能に接続される。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

キヤノン株式会社
トナー
9日前
キヤノン株式会社
移動体
9日前
キヤノン株式会社
トナー
9日前
キヤノン株式会社
顕微鏡
10日前
キヤノン株式会社
撮像装置
10日前
キヤノン株式会社
撮像装置
5日前
キヤノン株式会社
記憶装置
9日前
キヤノン株式会社
撮像装置
5日前
キヤノン株式会社
光学装置
16日前
キヤノン株式会社
記録装置
9日前
キヤノン株式会社
処理装置
9日前
キヤノン株式会社
撮像装置
12日前
キヤノン株式会社
記録装置
9日前
キヤノン株式会社
光学センサ
15日前
キヤノン株式会社
光走査装置
18日前
キヤノン株式会社
画像形成装置
10日前
キヤノン株式会社
画像形成装置
2日前
キヤノン株式会社
画像形成装置
2日前
キヤノン株式会社
画像処理装置
19日前
キヤノン株式会社
画像形成装置
19日前
キヤノン株式会社
液体収容容器
2日前
キヤノン株式会社
画像形成装置
12日前
キヤノン株式会社
液体供給装置
19日前
キヤノン株式会社
画像形成装置
4日前
キヤノン株式会社
画像形成装置
4日前
キヤノン株式会社
画像形成装置
12日前
キヤノン株式会社
画像表示装置
15日前
キヤノン株式会社
画像形成装置
23日前
キヤノン株式会社
画像形成装置
16日前
キヤノン株式会社
画像形成装置
16日前
キヤノン株式会社
画像処理装置
19日前
キヤノン株式会社
情報処理装置
22日前
キヤノン株式会社
画像形成装置
12日前
キヤノン株式会社
画像形成装置
10日前
キヤノン株式会社
画像形成装置
2日前
キヤノン株式会社
画像形成装置
19日前
続きを見る