TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025137444
公報種別公開特許公報(A)
公開日2025-09-19
出願番号2025028560
出願日2025-02-26
発明の名称画像の着色のためのモデルの訓練方法及び装置、画像着色方法及び装置、並びにコンピュータ読み取り可能な記憶媒体
出願人富士通株式会社
代理人弁理士法人ITOH
主分類G06T 13/80 20110101AFI20250911BHJP(計算;計数)
要約【課題】画像の着色のためのモデルの訓練方法及び装置、画像着色方法及び装置並びに記憶媒体を提供する。
【解決手段】訓練方法は、カラーのビデオストリームにおける現在のフレームの線画の画素点と参照フレームの線画の画素点との対応関係及び現在のフレームの画像と参照フレームの画像との差異のある領域を示す遮蔽マスクを取得するステップと、対応関係に基づいて参照フレームをワーピングし、ワーピング画像を取得するステップと、現在のフレームの線画を制御モデルに入力して特徴を抽出し、抽出された特徴を画像修復モデルに入力するステップと、ワーピング画像及び遮蔽マスクを画像修復モデルに入力するステップと、ワーピング画像における差異のある領域の色を修復するステップと、を含み、画像修復モデルが正確に着色された現在のフレームを出力するように以上のステップを反復的に実行することによって、画像修復モデル及び制御モデルを訓練する。
【選択図】図1
特許請求の範囲【請求項1】
画像の着色のためのモデルを訓練する方法であって、
カラーのビデオストリームにおける現在のフレームの線画の画素点と参照フレームの線画の画素点との対応関係及び遮蔽マスクを取得するステップであって、前記遮蔽マスクは、前記現在のフレームの画像と前記参照フレームの画像との差異のある領域を示す、ステップと、
前記対応関係に基づいて前記参照フレームをワーピングし、前記現在のフレームに対応するワーピング画像を取得するステップと、
前記現在のフレームの線画を制御モデルに入力して特徴を抽出し、抽出された特徴を画像修復モデルに入力するステップと、
前記ワーピング画像及び前記遮蔽マスクを前記画像修復モデルに入力するステップと、
前記画像修復モデルにより、抽出された特徴及び前記遮蔽マスクに基づいて、前記ワーピング画像における前記差異のある領域の色を修復するステップと、
前記画像修復モデルが正確に着色された現在のフレームを出力するように、前記ビデオストリームにおける2つ以上のフレームを前記現在のフレームとして以上のステップを反復的に実行することによって、前記画像修復モデル及び前記制御モデルを訓練するステップと、を含む、方法。
続きを表示(約 2,800 文字)【請求項2】
前記ワーピング画像及び前記遮蔽マスクは、前記現在のフレームの線画及び前記参照フレームの線画を事前訓練されたオプティカルフローモデルに入力することによって得られる、請求項1に記載の方法。
【請求項3】
前記参照フレームは、前記ビデオストリームにおける前記現在のフレームに隣接するフレーム、又は前記ビデオストリームにおける任意のフレームである、請求項1に記載の方法。
【請求項4】
前記画像修復モデルを訓練するステップは、前記画像修復モデルにおけるU-Netエンコーダ及びU-Netデコーダを訓練することを含む、請求項1乃至3の何れかに記載の方法。
【請求項5】
画像を着色するための方法であって、
カラーのビデオストリームにおける各フレームの線画の画素点と参照フレームの線画の画素点との対応関係及び遮蔽マスクを取得するステップであって、前記遮蔽マスクは、各フレームの画像と前記参照フレームの画像との差異のある領域を示す、ステップと、
各フレームの対応関係に基づいて前記参照フレームをワーピングし、各フレームに対応するワーピング画像を取得するステップと、
各フレームの線画を事前訓練された制御モデルに入力して特徴を抽出し、抽出された特徴を事前訓練された画像修復モデルに入力するステップと、
各フレームに対応するワーピング画像及び遮蔽マスクを前記画像修復モデルに入力するステップと、
前記画像修復モデルにより、各フレームの抽出された特徴及び遮蔽マスクに基づいて、各フレームのワーピング画像における差異のある領域の色を修復し、修復後のフレームを出力するステップと、を含む、方法。
【請求項6】
各フレームに対応するワーピング画像及び遮蔽マスクは、該フレームの線画及び前記参照フレームの線画を事前訓練されたオプティカルフローモデルに入力することによって得られる、請求項5に記載の方法。
【請求項7】
速度値を予測値として用いて前記画像修復モデル及び前記制御モデルに対して第1の訓練を実行し、
ノイズ値を予測値として用いて前記画像修復モデル及び前記制御モデルに対して第2の訓練を実行し、
各フレームのワーピング画像における差異のある領域の色を修復するステップは、
該フレームに対応する抽出された特徴、ワーピング画像及び遮蔽マスクを、前記第1の訓練が実行された画像修復モデルに入力することによって、ランダムノイズに基づいて前記ワーピング画像における差異のある領域の色に対して第1の修復を実行することと、
修復後のワーピング画像に対してノイズ除去拡散暗黙モデル逆マッピングを実行して、初期潜在変数を取得することと、
各フレームの線画の分割マスクを取得することであって、前記分割マスクは、該線画におけるキャラクタを含む領域を示す、ことと、
前記分割マスク、前記初期潜在変数及び前記ランダムノイズの組み合わせを開始潜在変数として、前記第2の訓練が実行された画像修復モデル及び制御モデルに入力することによって、前記ワーピング画像における差異のある領域の色に対して第2の修復を実行することと、を含む、請求項5又は6に記載の方法。
【請求項8】
画像の着色のためのモデルを訓練する装置であって、
カラーのビデオストリームにおける現在のフレームの線画の画素点と参照フレームの線画の画素点との対応関係及び遮蔽マスクを取得する取得部であって、前記遮蔽マスクは、前記現在のフレームの画像と前記参照フレームの画像との差異のある領域を示す、取得部と、
前記対応関係に基づいて前記参照フレームをワーピングし、前記現在のフレームに対応するワーピング画像を取得するワーピング部と、
前記現在のフレームの線画を制御モデルに入力して特徴を抽出する抽出部と、
抽出された特徴、前記ワーピング画像及び前記遮蔽マスクを画像修復モデルに入力し、前記画像修復モデルにより、抽出された特徴及び前記遮蔽マスクに基づいて、前記ワーピング画像における前記差異のある領域の色を修復する修復部と、
前記画像修復モデルが正確に着色された現在のフレームを出力するように、前記ビデオストリームにおける2つ以上のフレームを前記現在のフレームとして以上のステップを反復的に実行することによって、前記画像修復モデル及び前記制御モデルを訓練する訓練部と、を含む、装置。
【請求項9】
画像を着色するための装置であって、
カラーのビデオストリームにおける各フレームの線画の画素点と参照フレームの線画の画素点との対応関係及び遮蔽マスクを取得する第1の取得部であって、前記遮蔽マスクは、各フレームの画像と前記参照フレームの画像との差異のある領域を示す、第1の取得部と、
各フレームの対応関係に基づいて前記参照フレームをワーピングし、各フレームに対応するワーピング画像を取得するワーピング部と、
各フレームの線画を第1の事前訓練が実行された制御モデルに入力して特徴を抽出する抽出部と、
各フレームに対応する抽出された特徴、ワーピング画像及び遮蔽マスクを第1の事前訓練が実行された画像修復モデルに入力し、前記第1の事前訓練が実行された画像修復モデルにより、各フレームの抽出された特徴及び遮蔽マスクに基づいて、各フレームのワーピング画像における差異のある領域の色に対して第1の修復を実行し、第1の修復後のフレームを出力する第1の修復部と、を含む、装置。
【請求項10】
前記第1の事前訓練が実行された制御モデル及び前記第1の事前訓練が実行された画像修復モデルは、速度値に基づいて事前訓練されたものであり、
前記第1の修復後のフレームに対してノイズ除去拡散暗黙モデル逆マッピングを実行して、初期潜在変数を取得する逆マッピング部と、
各フレームの線画の分割マスクを取得する第2の取得部であって、前記分割マスクは、該線画におけるキャラクタを含む領域を示す、第2の取得部と、
前記分割マスク、前記初期潜在変数及びランダムノイズの組み合わせを開始潜在変数として、第2の事前訓練が実行された画像修復モデル及び第2の事前訓練が実行された制御モデルに入力することによって、各フレームのワーピング画像における差異のある領域の色に対して第2の修復を実行し、第2の修復後のフレームを出力する第2の修復部であって、前記第2の事前訓練が実行された制御モデル及び前記第2の事前訓練が実行された画像修復モデルは、ノイズ値に基づいて事前訓練されたものである、第2の修復部と、をさらに含む、請求項9に記載の装置。

発明の詳細な説明【技術分野】
【0001】
本開示は、画像処理の分野に関し、具体的には、線画により画像の修復をガイドすることによってビデオストリームを着色する技術に関する。
続きを表示(約 2,500 文字)【背景技術】
【0002】
線画の着色は、注目されている研究のトピックである。その用途の1つは、アニメーションの制作者が線画を自動的に着色することを支援し、手動での着色のコストを低減し、アニメーションの制作プロセスを促進することである。線画の自動着色の主な課題は、制作者の意図に忠実なものを実現することである。例えば、制作者が意図した通りの色を塗り、色調、輝度などの点で制作者が満足できるようにする必要がある。
【0003】
また、線画ベースのビデオストリームの着色は、より困難な作業である。ビデオストリームのフレーム間のタイミングの一貫性を維持することが困難である。この一貫性は、同一のオブジェクトに対する着色の一貫性及び背景の安定性などを含む。現在、ビデオ生成について、タイミングの一貫性の問題をある程度改善した多くの新しい方法が出現したが、これらの方法は、一貫性を向上させることができるが、画像の品質を維持できないものが多い。
【0004】
従来の線画の着色方法は、通常、制作者の意図をパレット、参照画像又は色のプロンプトで表現し、その意図に従って線画を着色する。しかし、これらの意図の表現は曖昧である場合があり、制作者の意図を正確に表現することは困難である。例えば、パレット又は参照画像に基づく着色結果は、線画の各部分がパレット又は参照画像の何れかの色に割り当てられるため、比較的にランダムである。線画のこのような不確定な色の対応関係により、ビデオのフレーム間の不整合を引き起こし、その着色結果は制作者が意図した作品に正確に対応しない。色のプロンプトに基づく方法では、制作者は線画の各部分について色を選択する必要がある。このような方法は制作者が提供した色のプロンプトに従うものであるため、着直の結果を制作者の意図に比較的によく一致する。しかし、ビデオストリームの着色では、各フレームについて制作者が詳細な色のプロンプトを提供することを要求すると、明らかに煩雑な作業であり、実用に不利である。
【0005】
近年、拡散モデル(diffusion model)の発展により、画像生成の分野では大きな進展を遂げた。拡散モデルは、入力された文字に基づいて文字に対応する画像を出力する文字に基づく画像生成モデルである。拡散モデルの画像生成能力は、既に敵対的生成ネットワークを超えている。安定拡散モデル(stable diffusion model)は、現在最も進んでいるものである。
【0006】
安定拡散モデルをベースにして、研究者は、制御モデル(Controlnet)をさらに提案し、この制御モデルは、例えば線画、深度マップ、姿勢などの他の制御条件を追加して、文字記述と特定の制御条件の両方を満たす画像を生成することができる。類似する他のモデルとして、ControlVideo、AnimateAnyoneなどがある。ControlVideoは、Controlnetをベースにして、単一フレーム画像の生成からマルチフレーム画像の同時生成に拡張し、マルチフレーム画像の制御条件(例えば、線画)を入力することで、タイミングが一致する複数のフレーム画像を出力することができる。ここで、タイミングの一貫性は、クロスフレームのアテンション機構により実現されてもよい。しかし、ControlVideoは、生成された画像の品質が低く、長いビデオのタイミングの一貫性を確保できないという欠点がある。AnimateAnyoneは、ControlVideoよりも優れたパフォーマンスを示したが、AnimateAnyoneは、姿勢に基づく人物の動作のビデオ生成であるため、人体の姿勢制御を様々な形態の動物のシナリオに一般化することが容易ではない。
【発明の概要】
【発明が解決しようとする課題】
【0007】
以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
【0008】
本開示は、画像の着色のためのモデルの訓練(トレーニング)方法及び装置、画像着色方法及び装置、並びに記憶媒体を提供する。
【課題を解決するための手段】
【0009】
本開示の1つの態様では、画像の着色のためのモデルを訓練する方法であって、カラーのビデオストリームにおける現在のフレームの線画の画素点と参照フレームの線画の画素点との対応関係及び遮蔽マスクを取得するステップであって、前記遮蔽マスクは、前記現在のフレームの画像と前記参照フレームの画像との差異のある領域を示す、ステップと、前記対応関係に基づいて前記参照フレームをワーピングし、前記現在のフレームに対応するワーピング画像を取得するステップと、前記現在のフレームの線画を制御モデルに入力して特徴を抽出し、抽出された特徴を画像修復モデルに入力するステップと、前記ワーピング画像及び前記遮蔽マスクを前記画像修復モデルに入力するステップと、前記画像修復モデルにより、抽出された特徴及び前記遮蔽マスクに基づいて、前記ワーピング画像における前記差異のある領域の色を修復するステップと、前記画像修復モデルが正確に着色された現在のフレームを出力するように、前記ビデオストリームにおける2つ以上のフレームを前記現在のフレームとして以上のステップを反復的に実行することによって、前記画像修復モデル及び前記制御モデルを訓練するステップと、を含む、方法を提供する。
【0010】
好ましくは、前記ワーピング画像及び前記遮蔽マスクは、前記現在のフレームの線画及び前記参照フレームの線画を事前訓練されたオプティカルフローモデルに入力することによって得られる。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

富士通株式会社
医用画像処理方法
1か月前
富士通株式会社
転倒検出方法及び装置
1か月前
富士通株式会社
ハイブリッド光増幅器
21日前
富士通株式会社
量子デバイスの製造方法
1か月前
富士通株式会社
演算処理装置及び演算処理方法
4日前
富士通株式会社
動的多次元メディアコンテンツ投影
3日前
富士通株式会社
ポイントクラウドレジストレーション
1か月前
富士通株式会社
異常予測方法および異常予測プログラム
3日前
富士通株式会社
視線誘導方法および視線誘導プログラム
28日前
富士通株式会社
データ転送制御装置および情報処理装置
1か月前
富士通株式会社
データ転送制御装置および情報処理装置
1か月前
富士通株式会社
生成人工知能を使用したデータセット符号化
14日前
富士通株式会社
演算システムおよび演算システムの制御方法
11日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
1か月前
富士通株式会社
交通シミュレーションのための方法および装置
3日前
富士通株式会社
画像を記述する構造化テキストを生成する方法
27日前
富士通株式会社
予測プログラム、予測方法および情報処理装置
5日前
富士通株式会社
シストリック型の演算アレイ装置及び制御方法
5日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
26日前
富士通株式会社
描画プログラム、描画方法および情報処理装置
1か月前
富士通株式会社
学習プログラム、学習方法、及び情報処理装置
1か月前
富士通株式会社
電源制御回路,情報処理装置および電源制御方法
1か月前
富士通株式会社
演算装置、情報処理装置及び演算装置の制御方法
5日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
1か月前
富士通株式会社
データ処理装置、プログラム及びデータ処理方法
1か月前
富士通株式会社
光送信機アナログ特性の監視装置と方法及び光送信機
14日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
1か月前
富士通株式会社
レース内容再現方法およびレース内容再現プログラム
13日前
富士通株式会社
情報処理プログラム、情報処理装置及び情報処理方法
11日前
富士通株式会社
表示制御プログラム、表示制御方法及び情報処理装置
1か月前
富士通株式会社
異常検出プログラム、異常検出方法及び情報処理装置
3日前
富士通株式会社
調達管理プログラム,調達管理方法,及び情報処理装置
1か月前
富士通株式会社
予測制御プログラム、情報処理装置および予測制御方法
20日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
1か月前
富士通株式会社
施策特定プログラム、施策特定方法および情報処理装置
3日前
富士通株式会社
行動予測プログラム、行動予測装置および行動予測方法
1か月前
続きを見る