特許ウォッチ

公開番号2025014533
公報種別公開特許公報(A)
公開日2025-01-30
出願番号2023117166
出願日2023-07-18
発明の名称クリックベースの反復的AI画像生成ツール
出願人個人
代理人
主分類G06T 1/40 20060101AFI20250123BHJP(計算;計数)
要約【課題】ユーザーが簡単で短いプロンプトと自分が思い描く画像に近いものをクリックしていくだけで欲しい画像を得ることができる画像生成装置、画像生成方法及びプログラムを提供する。
【解決手段】方法は、ユーザーから簡単なプロンプトを受け取り、そのプロンプトに基づいて複数の画像を生成し、それらの画像をユーザーに表示し、ユーザーが表示された画像の中から最も自分の思い描く画像に近いものを選択し、その選択に基づき、システムが選択された画像の言葉のベクトルが指し示す方向を基準に、ベイズ統計等の統計的手法を利用して新たな画像を二枚以上生成する。このプロセスを、ユーザーが目的の画像を得るまで反復的に行う。
【選択図】図1
特許請求の範囲【請求項１】
簡単で短いプロンプトに基づいて複数の画像を生成し、ユーザーが生成された画像群から選択することで、選択された画像に基づいてさらに画像を生成する画像生成装置。
続きを表示（約 400 文字）【請求項２】
請求項１に記載の装置であって、選択された画像の言葉のベクトルが指し示す方向を基準に統計的手法を使って画像を生成する。
【請求項３】
簡単で短いプロンプトに基づいて複数の画像を生成し、ユーザーが生成された画像群から選択することで、選択された画像に基づいてさらに画像を生成する方法。
【請求項４】
請求項３に記載の方法であって、選択された画像の言葉のベクトルが指し示す方向を基準に統計的手法を使って画像を生成する。
【請求項５】
簡単で短いプロンプトに基づいて複数の画像を生成し、ユーザーが生成された画像群から選択することで、選択された画像に基づいてさらに画像を生成するプログラム。
【請求項６】
請求項５に記載のプログラムであって、選択された画像の言葉のベクトルが指し示す方向を統計的手法を使って画像を生成する。

発明の詳細な説明【技術分野】
【０００１】
本発明は、画像生成装置、画像生成方法、及び、プログラムに関するものである。
続きを表示（約 2,000 文字）【背景技術】
【０００２】
近年、AIによる画像生成技術が進歩してきている。例えば、特定のプロンプトに基づいて特定の画像を生成する技術が存在する。
【０００３】
しかし、欲しい画像を得るためにはユーザーが具体的で詳細なプロンプトを入力する必要があり、目的の画像を得るにはある程度の知識が必要であった。
【０００４】
本発明は、ユーザーが簡単で短いプロンプトと自分が思い描く画像に近いものをクリックしていくだけで欲しい画像を得ることができる画像生成装置、画像生成方法、及び、プログラムを提供することを目的とする。
【０００５】
従来のAI画像生成技術では、ユーザーが詳細なプロンプトを入力することが必要であり、生成される画像は入力したプロンプトと深く関連していました。例えば、「椅子に座ってコーヒーを飲む犬」の画像を生成したい場合、ユーザーは「best quality,masterpiece,ultra high res,(photo realistic:1.4),1dog, sitting on a ((chair)), wearing a ((suit)), holding a ((coffee cup)), stylish glasses, confident posture, suave expression, (tie:1.3), well-groomed fur, polished shoes, sipping ((steaming coffee:1.5)), with a newspaper ((folded neatly on the table)), elegant surroundings」などの詳細なプロンプトを入力すると、それに基づいて画像が生成されます。しかし、このような方法では、ユーザーが具体的な画像を思い描くことが困難であるという問題がありました。具体的なプロンプトを作成するためには、ユーザーが画像生成のメカニズムや言葉の意味を理解する必要があり、これは一般的なユーザーにとっては難しい課題である。
【０００６】
また、従来の方法では、生成される画像の属性（例えば、Steps、Scale、Seed、Sampler）を調整するためには、ユーザーが各属性の意味と効果を理解し、適切な値を設定する必要がありました。しかし、これはユーザーにとっては困難であり、また、目的の画像を得るためには多くの試行錯誤が必要でした。
【０００７】
このような背景から、ユーザーは「椅子犬コーヒー」等簡単なプロンプトを入力し、自分が思い描く画像に近い画像を選択するだけで、欲しい画像を得ることができる新たな画像生成技術の開発が求められている。
【発明の概要】
【発明が解決しようとする課題】
【０００８】
本発明が解決しようとする課題は、ユーザーが簡単なプロンプトを入力し、自分が思い描く画像に近い画像を選択するだけで、欲しい画像を得ることができる画像生成技術の開発である。具体的には、ユーザーが複雑なプロンプトを作成したり、画像の各属性を詳細に調整することなく、目的の画像を生成できるシステムが求められている。
【課題を解決するための手段】
【０００９】
本発明の主要な特徴は、ユーザーから簡単なプロンプトを受け取り、そのプロンプトに基づいて複数の画像を生成し、それらの画像をユーザーに表示することです。ユーザーは、表示された画像の中から最も自分の思い描く画像に近いものを選択します。その選択に基づき、システムは選択された画像の言葉のベクトルが指し示す方向を基準に、ベイズ統計等の統計的手法を利用して新たな画像を二枚以上生成します。このプロセスは、ユーザーが目的の画像を得るまで反復的に行われます。これにより、ユーザーは複雑なプロンプトを作成したり、画像の各属性を詳細に調整することなく、目的の画像を生成できます。
【発明の効果】
【００１０】
本発明のAI画像生成システムは、ユーザーが簡単なプロンプトを入力し、自分が思い描く画像に近い画像を選択するだけで、欲しい画像を得ることができるという利点があります。これにより、ユーザーは複雑なプロンプトを作成したり、画像の各属性を詳細に調整することなく、目的の画像を生成できます。また、ユーザーは自分の思い描く画像に近い画像を選択することで、システムにより精密な指示を与えることができ、これにより目的の画像をより正確に生成することが可能になります。これらの利点は、eコマース、広告、漫画、ビデオゲームなど、様々な分野での応用が可能です。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許