TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025036259
公報種別
公開特許公報(A)
公開日
2025-03-14
出願番号
2024145035
出願日
2024-08-27
発明の名称
ニューラルネットワークの訓練装置、推論装置及びコンピュータプログラム
出願人
富士通株式会社
代理人
弁理士法人ITOH
主分類
G06T
5/60 20240101AFI20250306BHJP(計算;計数)
要約
【課題】本発明は、ニューラルネットワーク訓練装置、推論装置及びプログラムを提供する。
【解決手段】ニューラルネットワークはテキスト符号化器、時間符号化器、第一乃至第四UNET符号化器、UNET復号器、第一乃至第三加算器を含む。訓練装置はオリジナル画像に異なるノイズを追加することでノイズ画像を取得するユニット;ノイズ画像を第一UNET符号化器に入力し、オリジナル画像に対応する線画画像とノイズ画像を加算した後にそれぞれ第二及び第三UNET符号化器に入力し、かつノイズ画像と、オリジナル画像に対応する、一部がマスクされた画像とを加算した後に第四UNET符号化器に入力するユニット;及び、第三及び第四UNET符号化器のパラメータを調整し、かつテキスト符号化器、時間符号化器、第一及び第二UNET符号化器のそれぞれのパラメータを不変にすることで、ニューラルネットワークが収束するようにさせるユニットを含む。
【選択図】図1
特許請求の範囲
【請求項1】
ニューラルネットワークを訓練する装置であって、
前記ニューラルネットワークはテキスト符号化器、時間符号化器、第一UNET符号化器、第二UNET符号化器、第三UNET符号化器、第四UNET符号化器、UNET復号器、第一加算器、第二加算器及び第三加算器を含み、前記第一UNET符号化器の出力端は前記UNET復号器の第一入力端に接続され、前記第一加算器は前記第二UNET符号化器の入力端に接続され、前記第二加算器は前記第三UNET符号化器の入力端に接続され、前記第三加算器は前記第四UNET符号化器の入力端に接続され、かつ前記第二UNET符号化器の出力端、前記第三UNET符号化器の出力端及び前記第四UNET符号化器の出力端は前記UNET復号器の第二入力端に接続され、前記装置は、
オリジナル画像に異なるノイズを追加することでノイズ画像を得るように構成される取得ユニット;
入力ユニットであって、
前記ノイズ画像を前記第一UNET符号化器に入力し、
前記オリジナル画像に対応する線画画像と前記ノイズ画像を前記第一加算器によって加算した後に前記第二UNET符号化器に入力し、
前記ノイズ画像と前記線画画像を前記第二加算器によって加算した後に前記第三UNET符号化器に入力し、及び
前記ノイズ画像と、前記オリジナル画像に対応する、一部がマスクされた画像とを前記第三加算器によって加算した後に前記第四UNET符号化器に入力するように構成される、入力ユニット;及び
訓練ユニットであって、
前記第三UNET符号化器及び前記第四UNET符号化器のパラメータを調整し、かつ前記UNET復号器、前記テキスト符号化器、前記時間符号化器、前記第一UNET符号化器及び前記第二UNET符号化器のそれぞれのパラメータを不変に維持することで、前記ニューラルネットワークが収束するようにさせ、又は
前記UNET復号器、前記第三UNET符号化器及び前記第四UNET符号化器のそれぞれのパラメータを調整し、かつ前記テキスト符号化器、前記時間符号化器、前記第一UNET符号化器及び前記第二UNET符号化器のそれぞれのパラメータを不変に維持することで、前記ニューラルネットワークが収束するようにさせる
ことによって、前記ニューラルネットワークを訓練するように構成される、訓練ユニットを含む、装置。
続きを表示(約 5,000 文字)
【請求項2】
請求項1に記載の装置であって、
前記テキスト符号化器及び前記時間符号化器は前記第一UNET符号化器、前記第二UNET符号化器、前記第三UNET符号化器、前記第四UNET符号化器及び前記UNET復号器に接続され、
前記テキスト符号化器に提示(prompt)を入力し、かつ前記時間符号化器に時間ステップを入力することで、前記提示及び前記時間ステップのそれぞれのテンソルを取得し、
前記提示及び前記時間ステップのそれぞれのテンソルはそれぞれ、前記第一UNET符号化器、前記第二UNET符号化器、前記第三UNET符号化器、前記第四UNET符号化器及び前記UNET復号器に提供される、装置。
【請求項3】
請求項2に記載の装置であって、
前記ニューラルネットワークはさらに、第一ゼロ畳み込みモジュール及び第二ゼロ畳み込みモジュールを含み、前記第一ゼロ畳み込みモジュールは前記第二加算器に接続され、前記第二ゼロ畳み込みモジュールは前記第三UNET符号化器の出力端と前記UNET復号器の第二入力端との間に接続され、
前記線画画像は前記第一ゼロ畳み込みモジュールによってゼロ畳み込みが行われた後に前記第二加算器に提供される、装置。
【請求項4】
請求項1乃至3のうちの任意の1項に記載の装置であって、
前記ニューラルネットワークの総損失関数は第一損失関数と第二損失関数との和として構築され、前記第一損失関数はランダムにサンプリングされるノイズと前記ノイズ画像について推定されるノイズとの間の平方和損失関数であり、前記第二損失関数はノイズを含まない前記オリジナル画像に対応する隠れ変数とノイズ除去後の再構築画像の隠れ変数との間の平方和損失関数である、装置。
【請求項5】
事前訓練されたニューラルネットワークを用いて推論を行うための装置であって、
前記ニューラルネットワークはテキスト符号化器、時間符号化器、第一UNET符号化器、第二UNET符号化器、第三UNET符号化器、第四UNET符号化器、UNET復号器、第一加算器、第二加算器及び第三加算器を含み、前記第一UNET符号化器の出力端は前記UNET復号器の第一入力端に接続され、前記第一加算器は前記第二UNET符号化器の入力端に接続され、前記第二加算器は前記第三UNET符号化器の入力端に接続され、前記第三加算器は前記第四UNET符号化器の入力端に接続され、かつ前記第二UNET符号化器の出力端、前記第三UNET符号化器の出力端及び前記第四UNET符号化器の出力端は前記UNET復号器の第二入力端に接続され、前記装置は、
線画画像をN個の画像ブロックに分割するように構成される画像分割ユニットであって、前記N個の画像ブロックのうちの隣接する画像ブロックの間には互いにオーバーラップしてる部分があり、Nは2以上の整数である、画像分割ユニット;及び
推論ユニットを含み、
前記推論ユニットは、
N個のノイズ画像のうちの第一ノイズ画像を前記第一UNET符号化器に入力し、
前記第一ノイズ画像と前記線画画像のN個の画像ブロックのうちの第一画像ブロックをそれぞれ前記第一加算器及び前記第二加算器によって加算した後に、それぞれ、前記第二UNET符号化器及び前記第三UNET符号化器に入力し、
前記第一ノイズ画像と純色画像を前記第三加算器によって加算した後に前記第四UNET符号化器に入力し、
前記UNET復号器から出力される、前記線画画像の第一画像ブロックに対応する第一出力画像ブロックに基づいて、第一マスク画像ブロックを取得し、
前記線画画像の第二画像ブロック乃至第N画像ブロックを順次、前記N個のノイズ画像のうちの第二ノイズ画像乃至第Nノイズ画像にそれぞれ前記第一加算器及び前記第二加算器によって加算した後に、それぞれ、前記第二UNET符号化器及び前記第三UNET符号化器に入力し、
第一マスク画像ブロック乃至第N-1マスク画像ブロックを順次、前記第二ノイズ画像乃至前記第Nノイズ画像に前記第三加算器によって加算した後に、前記第四UNET符号化器に入力することで、順次、前記線画画像のN個の画像ブロックに対応するN個の出力画像ブロックを取得する
ことを実行するように構成され、
UNET符号化器から出力される第一出力画像ブロック乃至第N-1個の出力画像ブロックがそれぞれ前記線画画像の第二画像ブロック乃至第N画像ブロックとオーバーラップしている部分を抽出して第一乃至第N-1マスク画像ブロックの一部とし、かつ前記第一乃至第N-1マスク画像ブロックの他の部分に純色を充填することで、前記第一マスク画像ブロック乃至前記第N-1マスク画像ブロックを取得する、装置。
【請求項6】
請求項5に記載の装置であって、
前記UNET復号器から出力されるN個の出力画像ブロックを順次つなぎ合わせて完全な画像を成すように構成されるつなぎ合わせユニットをさらに含む、装置。
【請求項7】
請求項5に記載の装置であって、
前記テキスト符号化器及び前記時間符号化器は前記第一UNET符号化器、前記第二UNET符号化器、前記第三UNET符号化器、前記第四UNET符号化器及び前記UNET復号器に接続され、
前記テキスト符号化器に提示を入力し、かつ前記時間符号化器に時間ステップを入力することで、前記提示及び前記時間ステップのそれぞれのテンソルを取得し、
前記提示及び前記時間ステップのそれぞれのテンソルはそれぞれ、前記第一UNET符号化器、前記第二UNET符号化器、前記第三UNET符号化器、前記第四UNET符号化器及び前記UNET復号器に提供される、装置。
【請求項8】
請求項5乃至7のうちの任意の1項に記載の装置であって、
前記ニューラルネットワークはさらに、第一ゼロ畳み込みモジュール及び第二ゼロ畳み込みモジュールを含み、前記第一ゼロ畳み込みモジュールは前記第二加算器に接続され、前記第二ゼロ畳み込みモジュールは前記第三UNET符号化器の出力端と前記UNET復号器の第二入力端との間に接続され、
前記第一ゼロ畳み込みモジュール及び前記第二ゼロ畳み込みモジュールは前記ニューラルネットワークの推論期間でパラメータがゼロでない畳み込みを実行し、
前記線画画像のN個の画像ブロックは前記第一ゼロ畳み込みモジュールによって畳み込みが行われた後に前記第二加算器に提供される、装置。
【請求項9】
プログラムであって、
コンピュータに、ニューラルネットワークを訓練するための方法を実行させ、
前記ニューラルネットワークはテキスト符号化器、時間符号化器、第一UNET符号化器、第二UNET符号化器、第三UNET符号化器、第四UNET符号化器、UNET復号器、第一加算器、第二加算器及び第三加算器を含み、前記第一UNET符号化器の出力端は前記UNET復号器の第一入力端に接続され、前記第一加算器は前記第二UNET符号化器の入力端に接続され、前記第二加算器は前記第三UNET符号化器の入力端に接続され、前記第三加算器は前記第四UNET符号化器の入力端に接続され、かつ前記第二UNET符号化器の出力端、前記第三UNET符号化器の出力端及び前記第四UNET符号化器の出力端は前記UNET復号器の第二入力端に接続され、前記方法は、
オリジナル画像に異なるノイズを追加することでノイズ画像を取得し;
前記ノイズ画像を前記第一UNET符号化器に入力し;
前記オリジナル画像に対応する線画画像と前記ノイズ画像を前記第一加算器によって加算した後に前記第二UNET符号化器に入力し;
前記ノイズ画像と前記線画画像を前記第二加算器によって加算した後に前記第三UNET符号化器に入力し;
前記ノイズ画像と、前記オリジナル画像に対応する、一部がマスクされた画像とを前記第三加算器によって加算した後に前記第四UNET符号化器に入力し;及び
前記ニューラルネットワークを訓練することを含み、
前記ニューラルネットワークを訓練することは、
前記第三UNET符号化器及び前記第四UNET符号化器のパラメータを調整し、かつ前記UNET復号器、前記テキスト符号化器、前記時間符号化器、前記第一UNET符号化器及び前記第二UNET符号化器のそれぞれのパラメータを不変に維持することで、前記ニューラルネットワークが収束するようにさせ;又は
前記UNET復号器、前記第三UNET符号化器及び前記第四UNET符号化器のそれぞれのパラメータを調整し、かつ前記テキスト符号化器、前記時間符号化器、前記第一UNET符号化器及び前記第二UNET符号化器のそれぞれのパラメータを不変に維持することで、前記ニューラルネットワークが収束するようにさせる
ことによって実現される、プログラム。
【請求項10】
プログラムであって、
コンピュータに、事前訓練されたニューラルネットワークを用いて推論を行うための方法を実行させ、
前記ニューラルネットワークはテキスト符号化器、時間符号化器、第一UNET符号化器、第二UNET符号化器、第三UNET符号化器、第四UNET符号化器、UNET復号器、第一加算器、第二加算器及び第三加算器を含み、前記第一UNET符号化器の出力端は前記UNET復号器の第一入力端に接続され、前記第一加算器は前記第二UNET符号化器の入力端に接続され、前記第二加算器は前記第三UNET符号化器の入力端に接続され、前記第三加算器は前記第四UNET符号化器の入力端に接続され、かつ前記第二UNET符号化器の出力端、前記第三UNET符号化器の出力端及び前記第四UNET符号化器の出力端は前記UNET復号器の第二入力端に接続され、前記方法は、
線画画像をN個の画像ブロックに分割し、前記N個の画像ブロックのうちの隣接する画像ブロックの間には互いにオーバーラップしてる部分があり、Nは2以上の整数であり;
N個のノイズ画像のうちの第一ノイズ画像を前記第一UNET符号化器に入力し;
前記第一ノイズ画像と前記線画画像のN個の画像ブロックのうちの第一画像ブロックをそれぞれ前記第一加算器及び前記第二加算器によって加算した後に、それぞれ、前記第二UNET符号化器及び前記第三UNET符号化器に入力し;
前記第一ノイズ画像と純色画像を前記第三加算器によって加算した後に前記第四UNET符号化器に入力し;
前記UNET復号器から出力される、前記線画画像の第一画像ブロックに対応する第一出力画像ブロックに基づいて、第一マスク画像ブロックを取得し;
前記線画画像の第二画像ブロック乃至第N画像ブロックを順次、前記N個のノイズ画像のうちの第二ノイズ画像乃至第Nノイズ画像にそれぞれ前記第一加算器及び前記第二加算器によって加算した後に、それぞれ、前記第二UNET符号化器及び前記第三UNET符号化器に入力し;及び
第一マスク画像ブロック乃至第N-1マスク画像ブロックを順次、前記第二ノイズ画像乃至前記第Nノイズ画像に前記第三加算器によって加算した後に、前記第四UNET符号化器に入力することで、順次、前記線画画像のN個の画像ブロックに対応するN個の出力画像ブロックを取得することを含み、
UNET符号化器から出力される第一出力画像ブロック乃至第N-1個の出力画像ブロックがそれぞれ前記線画画像の第二画像ブロック乃至第N画像ブロックとオーバーラップしている部分を抽出して第一乃至第N-1マスク画像ブロックの一部とし、かつ前記第一乃至第N-1マスク画像ブロックの他の部分に純色を充填することで、前記第一マスク画像ブロック乃至前記第N-1マスク画像ブロックを取得する、プログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、ニューラルネットワークの技術分野に関し、特に、ニューラルネットワークを用いて線画画像をレンダリングする技術に関する。
続きを表示(約 2,100 文字)
【背景技術】
【0002】
線画に対しての着色はアニメ・漫画作成プロセスに必要不可欠な作業である。しかし、水平方向又は垂直方向に長い線画をレンダリングするときに、品質と連続性を同時に保証することが困難である。
【0003】
今のところ、レンダリング画像の品質を維持しながら、隣接する画像ブロックの間の連続性を向上させるために、2つの方法が提案されている。
【0004】
1番目の方法は、長い線画を複数のブロックに分割し、それぞれ、各ブロックをレンダリングし、その後に、レンダリング後の各ブロックをつなぎ合わせることを含む。このようにして、大規模なGPUメモリが必要になるという問題を解決できるが、隣接するブロックの間に明らかな継ぎ目が存在するので、つなぎ合わせ後の画像の連続性は低下してしまう。
【0005】
2番目の方法は、先に元(オリジナル)の長い線画の縮小バージョンをレンダリングし、次に、ControlNet Tileモデルを用いて縮小バージョンの線画のレンダリング画像の細部を改善することを含む。このようにして、画像の連続性を向上させることができるが、線画内の内容や細部は変わってしまう。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、ニューラルネットワークの訓練装置、推論装置及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0007】
本発明の1つの側面によれば、ニューラルネットワークを訓練する装置が提供される。ニューラルネットワークはテキスト符号化器(encoder)、時間符号化器、第一UNET(Unet)符号化器、第二UNET符号化器、第三UNET符号化器、第四UNET符号化器、UNET復号器(decoder)、第一加算器、第二加算器及び第三加算器を含み、第一UNET符号化器の出力端はUNET復号器の第一入力端に接続され、第一加算器は第二UNET符号化器の入力端に接続され、第二加算器は第三UNET符号化器の入力端に接続され、第三加算器は第四UNET符号化器の入力端に接続され、かつ第二UNET符号化器の出力端、第三UNET符号化器の出力端及び第四UNET符号化器の出力端はUNET復号器の第二入力端に接続され、かかる装置は、
オリジナル画像に異なるノイズを追加することでノイズ画像を得るように構成される取得ユニット;
ノイズ画像を第一UNET符号化器に入力し、オリジナル画像に対応する線画画像とノイズ画像を第一加算器によって加算した後に第二UNET符号化器を入力し、ノイズ画像と線画画像を第二加算器によって加算した後に第三UNET符号化器に入力し、かつノイズ画像と、オリジナル画像に対応する、一部がマスクされた(覆われた)画像(マスク画像)とを第三加算器によって加算した後に第四UNET符号化器に入力するように構成される入力ユニット;及び
訓練ユニットを含み
前記訓練ユニットは、次のような方式でニューラルネットワークを訓練するように構成され、即ち、
第三UNET符号化器及び第四UNET符号化器のパラメータを調整し、かつUNET復号器、テキスト符号化器、時間符号化器、第一UNET符号化器及び第二UNET符号化器のそれぞれのパラメータを不変に維持することで、ニューラルネットワークが収束するようにさせ;又は
UNET復号器、第三UNET符号化器及び第四UNET符号化器のそれぞれのパラメータを調整し、かつテキスト符号化器、時間符号化器、第一UNET符号化器及び第二UNET符号化器のそれぞれのパラメータを不変に維持することで、ニューラルネットワークが収束するようにさせる。
【0008】
好ましくは、テキスト符号化器及び時間符号化器は第一UNET符号化器、第二UNET符号化器、第三UNET符号化器、第四UNET符号化器及びUNET復号器に接続される。テキスト符号化器に提示(プロンプト)を入力し、かつ時間符号化器に時間ステップを入力することで、提示及び時間ステップのそれぞれのテンソルを取得する。提示及び時間ステップのそれぞれのテンソルはそれぞれ、第一UNET符号化器、第二UNET符号化器、第三UNET符号化器、第四UNET符号化器及びUNET復号器に提供される。
【0009】
好ましくは、ニューラルネットワークはさらに、第一ゼロ畳み込みモジュール及び第二ゼロ畳み込みモジュールを含み、第一ゼロ畳み込みモジュールは第二加算器に接続され、かつ第二ゼロ畳み込みモジュールは第三UNET符号化器の出力端とUNET復号器の第二入力端との間に接続される。線画画像は第一ゼロ畳み込みモジュールによってゼロ畳み込みが行われた後に第二加算器に提供される。
【0010】
好ましくは、訓練ユニットはさらに、訓練時に第一ゼロ畳み込みモジュールのパラメータ及び第二ゼロ畳み込みモジュールのパラメータを調整するように構成される。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
画像生成方法
5日前
富士通株式会社
冷却モジュール
7日前
富士通株式会社
無線アクセス・ネットワーク調整
9日前
富士通株式会社
評価プログラム、方法、及び装置
5日前
富士通株式会社
人体のキーポイントの検出方法及び装置
12日前
富士通株式会社
予測プログラム、予測方法及び情報処理装置
今日
富士通株式会社
方策学習装置、方策学習方法及び通信システム
今日
富士通株式会社
プログラム、情報処理方法および情報処理装置
5日前
富士通株式会社
プログラム、データ処理装置及びデータ処理方法
7日前
富士通株式会社
ハイブリッド古典‐量子教師なしマルチクラス分類
12日前
富士通株式会社
情報処理装置、手続きプログラムおよび手続き方法
6日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
6日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理システム
5日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
1日前
富士通株式会社
期待値算出システム、期待値算出装置、及び期待値算出方法
1日前
富士通株式会社
ニューロモルフィックコンピューティング回路、及び、制御方法
8日前
富士通株式会社
エレベータ管理プログラム、エレベータ管理方法、エレベータ管理装置
2日前
富士通株式会社
画像解析のための、コンピュータにより実施される方法、データ処理装置、及びコンピュータプログラム
8日前
キヤノン電子株式会社
通信システム
6日前
株式会社ザメディア
出席管理システム
今日
トヨタ自動車株式会社
作業評価装置
6日前
トヨタ自動車株式会社
作業判定方法
1日前
トヨタ自動車株式会社
工程計画装置
今日
株式会社NURSY
再就職の支援装置
7日前
ゼネラル株式会社
RFIDタグ付き物品
2日前
個人
公益寄付インタラクティブシステム
6日前
トヨタ自動車株式会社
情報処理システム
1日前
大王製紙株式会社
作業管理システム
7日前
トヨタ自動車株式会社
情報処理方法
1日前
株式会社インテック
触覚ディスプレイ装置
7日前
富士フイルム株式会社
タッチセンサ
6日前
株式会社国際電気
支援システム
2日前
株式会社デンソー
情報処理方法
6日前
ブラザー工業株式会社
ラベルプリンタ
1日前
富士通株式会社
画像生成方法
5日前
甍エンジニアリング株式会社
屋根材買い取りシステム
5日前
続きを見る
他の特許を見る