特許ウォッチ

公開番号2024151939
公報種別公開特許公報(A)
公開日2024-10-25
出願番号2023065778
出願日2023-04-13
発明の名称生成装置、生成方法及び生成プログラム
出願人株式会社ZOZO
代理人弁理士法人酒井国際特許事務所
主分類G06T 11/80 20060101AFI20241018BHJP(計算;計数)
要約【課題】ファッション特有の抽象的な用語を適切に解釈して反映させた画像を提供すること。
【解決手段】本願に係る生成装置は、取得部と、生成部とを備える。取得部は、学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に関する情報を取得する。生成部は、取得部により取得された類似性に関する情報に基づき、複数の学習用画像と所定のキーワードとの関係性をモデルに学習させる。
【選択図】図6
特許請求の範囲【請求項１】
学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に関する情報を取得する取得部と、
前記取得部により取得された類似性に関する情報に基づき、前記複数の学習用画像と前記所定のキーワードとの関係性をモデルに学習させる生成部と、
を有することを特徴とする生成装置。
続きを表示（約 880 文字）【請求項２】
前記生成部は、
画像とキーワードとを入力すると当該画像に対応する画像を出力する前記モデルを学習させる
ことを特徴とする請求項１に記載の生成装置。
【請求項３】
前記生成部は、
前記モデルの出力結果に基づいて前記モデルを再学習させる
ことを特徴とする請求項１に記載の生成装置。
【請求項４】
前記生成部は、
前記分散表現空間において前記所定のキーワードに基づく所定方向に移動させた画像であるか否かに基づいて前記モデルを再学習させる
ことを特徴とする請求項３に記載の生成装置。
【請求項５】
前記生成部は、
前記分散表現空間において前記所定のキーワードに基づく所定方向に移動させた画像でない場合にのみ前記モデルを再学習させる
ことを特徴とする請求項３に記載の生成装置。
【請求項６】
前記生成部は、
学習データに利用者情報を含めて前記モデルを学習させる
ことを特徴とする請求項１に記載の生成装置。
【請求項７】
コンピュータが実行する生成方法であって、
学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に関する情報を取得する取得工程と、
前記取得工程により取得された類似性に関する情報に基づき、前記複数の学習用画像と前記所定のキーワードとの関係性をモデルに学習させる生成工程と、
を含むことを特徴とする生成方法。
【請求項８】
学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に関する情報を取得する取得手順と、
前記取得手順により取得された類似性に関する情報に基づき、前記複数の学習用画像と前記所定のキーワードとの関係性をモデルに学習させる生成手順と、
をコンピュータに実行させることを特徴とする生成プログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、生成装置、生成方法及び生成プログラムに関する。
続きを表示（約 2,300 文字）【背景技術】
【０００２】
従来、ＡＩを用いて画像を生成する技術が知られている。例えば、画像から抽出した特徴を混合した画像を生成する技術（下記特許文献１）、目標とする特徴の画像に改変した画像を生成する技術（下記特許文献２）、目標画像の特徴を記述したテキストに対応する画像を生成する技術（下記特許文献３）が知られている。
【０００３】
また、画像を編集することでよりファッション性の高い画像を生成する技術（下記非特許文献１）、選択した被服を試着させた画像を生成する技術（下記非特許文献２）のようなファッション画像の生成に特化した技術や、変更を所望する画像と生成を所望する画像の説明文とを与えて画像を説明文のように編集した画像を生成する技術（下記非特許文献３）、説明文から画像を生成するモデルに変更したい画像の追加学習を行わせることでその変更対象を呼び出し可能にする技術（下記非特許文献４）のような文章から画像を生成する技術が知られている。
【０００４】
また、ファッション用語の解釈にＶＳＥ（Visual-Semantic Embedding）の技術を用いた技術が知られている。例えば、ファッション特有の抽象的な用語を全身画像とともに定量化することで種々の角度から各用語の解釈を可能にする技術（下記非特許文献５）が知られている。
【先行技術文献】
【特許文献】
【０００５】
特開２０２０－１１２９０７号公報
特開２０２２－１５７４２４号公報
特開２０２２－１７２１７３号公報
【非特許文献】
【０００６】
WL. Hsiao, I. Katsman, CY. Wu, D. Parikh, K. Grauman“Fashion++: Minimal Edits for Outfit Improvement”，［online］，［令和５年２月６日検索］，インターネット＜https://arxiv.org/abs/1904.09261＞
X. Han, Z. Wu, Z. Wu, R. Yu, L.S. Davis“VITON: An Image-based Virtual Try-on Network”，［online］，［令和５年２月６日検索］，インターネット＜https://arxiv.org/abs/1711.08447＞
B. Kawar, S. Zada, O. Lang, O. Tov, H. Chang, T. Dekel, I. Mosseri, M. Irani“Imagic: Text-Based Real Image Editing with Diffusion Models”，［online］，［令和５年２月６日検索］，インターネット＜https://arxiv.org/abs/2210.09276＞
N. Ruiz, Y. Li, V. Jampani, Y. Pritch, M. Rubinstein, K. Aberman“DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation”，［online］，［令和５年２月６日検索］，インターネット＜https://arxiv.org/abs/2208.12242＞
R. Shimizu, Y. Saito, M. Matsutani, M. Goto“Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags”，［online］，［令和５年２月６日検索］，インターネット＜https://www.sciencedirect.com/science/article/pii/S0957417422021856?via%3Dihub＞
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、従来の技術では、ファッション特有の抽象的な用語を適切に解釈して反映させた画像を提供することができなかった。
【０００８】
本願は、上記に鑑みてなされたものであって、ファッション特有の抽象的な用語を適切に解釈して反映させた画像を提供することを目的とする。
【課題を解決するための手段】
【０００９】
本願に係る生成装置は、学習用画像とキーワードとを投影した分散表現空間における複数の学習用画像の差分と所定のキーワードとの類似性に関する情報を取得する取得部と、前記取得部により取得された類似性に関する情報に基づき、前記複数の学習用画像と前記所定のキーワードとの関係性をモデルに学習させる生成部と、を有することを特徴とする。
【発明の効果】
【００１０】
実施形態の一態様によれば、ファッション特有の抽象的な用語を適切に解釈して反映させた画像を提供することができるという効果を奏する。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許