TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025009930
公報種別
公開特許公報(A)
公開日
2025-01-20
出願番号
2024099687
出願日
2024-06-20
発明の名称
口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス
出願人
ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
,
Beijing Baidu Netcom Science Technology Co., Ltd.
代理人
個人
,
個人
,
個人
,
個人
,
個人
主分類
G06T
13/20 20110101AFI20250109BHJP(計算;計数)
要約
【課題】 本開示は、口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイスを提供する。
【解決手段】 本開示は、人工知能の分野に関し、特にクラウドコンピューティング及びデジタルヒューマンの分野に関する。具体的な実現案は、認識対象オーディオデータ及び予め設定された顔画像を取得し、前記認識対象オーディオデータのオーディオ特徴を決定し、前記オーディオ特徴は、話速特徴及び意味特徴を含み、前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成する。オーディオデータの意味特徴及び話速特徴を組み合わせることにより、任意の話速で、顔画像における口型を正確に駆動することをサポートし、顔画像の決定精度を向上させる。
【選択図】図1
特許請求の範囲
【請求項1】
口型に基づく顔画像を生成する方法であって、
認識対象オーディオデータ及び予め設定された顔画像を取得することと、
前記認識対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することと、を含む、
口型に基づく顔画像を生成する方法。
続きを表示(約 2,500 文字)
【請求項2】
前記認識対象オーディオデータのオーディオ特徴を決定することは、
予め設定された第1の特徴抽出モデルに基づいて、前記認識対象オーディオデータの話速特徴を決定することであって、前記第1の特徴抽出モデルは、認識対象オーディオデータから話速特徴を抽出することに用いられる、ことと、
予め設定された第2の特徴抽出モデルに基づいて、前記認識対象オーディオデータの意味特徴を決定することであって、前記第2の特徴抽出モデルは、認識対象オーディオデータから意味特徴を抽出することに用いられる、ことと、を含む、
請求項1に記載の方法。
【請求項3】
予め設定された第1の特徴抽出モデルに基づいて、前記認識対象オーディオデータの話速特徴を決定することは、
前記認識対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの音声事後確率特徴を得ることであって、前記音声事後確率特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、
前記認識対象オーディオデータの音声事後確率特徴に基づいて、前記認識対象オーディオデータの話速特徴を決定することと、を含む、
請求項2に記載の方法。
【請求項4】
前記認識対象オーディオデータの音声事後確率特徴に基づいて、前記認識対象オーディオデータの話速特徴を決定することは、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記認識対象オーディオデータの話速特徴を得ることと、を含む、
請求項3に記載の方法。
【請求項5】
予め設定された第2の特徴抽出モデルに基づいて、前記認識対象オーディオデータの意味特徴を決定することは、
前記認識対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの意味特徴を出力して得ること、を含む、
請求項2~4のいずれか1項に記載の方法。
【請求項6】
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することは、
前記話速特徴及び前記意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び前記予め設定された顔画像に基づいて、口型を有する顔画像を生成すること、を含む、
請求項1~5のいずれか1項に記載の方法。
【請求項7】
前記話速特徴及び前記意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び前記予め設定された顔画像に基づいて、口型を有する顔画像を生成することは、
前記予め設定された顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記認識対象オーディオデータの結合特徴を得ることであって、前記結合特徴は、話速特徴及び意味特徴を表す、ことと、
前記予め設定された顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、ことと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む、
請求項6に記載の方法。
【請求項8】
前記顔駆動パラメータは混合変形の重みパラメータであり、前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することは、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む、
請求項7に記載の方法。
【請求項9】
前記認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値よりも小さいと決定した場合、前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成すること、をさらに含む、
請求項1~8のいずれか1項に記載の方法。
【請求項10】
顔口型決定モデルをトレーニングする方法であって、
トレーニング対象画像データ及び予め設定された顔画像を取得することであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、ことと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することと、を含む、
顔口型決定モデルをトレーニングする方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本開示は、人工知能の分野におけるクラウドコンピューティング及びデジタルヒューマンの分野に関し、特に口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイスに関する。
続きを表示(約 2,200 文字)
【背景技術】
【0002】
人工知能技術の急速な発展に伴い、デジタルヒューマン応用は現在の研究の主流となっている。デジタルヒューマンの顔は音声によって変化することができ、例えば、デジタルヒューマンの顔画像における表情や口型などは音声によって変化することができる。
【0003】
デジタルヒューマン応用における核心技術の1つは顔の口型をオーディオで駆動する技術であり、どのように顔画像における口型をオーディオデータに正確に一致させるかは早急に解決すべき技術的難題である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイスを提供する。
【課題を解決するための手段】
【0005】
本開示の第1の態様によれば、口型に基づく顔画像を生成する方法を提供し、この口型に基づく顔画像を生成する方法は、
認識対象オーディオデータ及び予め設定された顔画像を取得することと、
前記認識対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することと、を含む。
【0006】
本開示の第2の態様によれば、顔口型決定モデルをトレーニングする方法を提供し、この顔口型決定モデルをトレーニングする方法は、
トレーニング対象画像データ及び予め設定された顔画像を取得することであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、ことと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することと、を含む。
【0007】
本開示の第3の態様によれば、口型に基づく顔画像を生成する装置を提供し、この口型に基づく顔画像を生成する装置は、
認識対象オーディオデータ及び予め設定された顔画像を取得することに用いられるデータ取得ユニットと、
前記認識対象オーディオデータのオーディオ特徴を決定することに用いられる特徴決定ユニットであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、特徴決定ユニットと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することに用いられる画像生成ユニットと、を含む。
【0008】
本開示の第4の態様によれば、顔口型決定モデルをトレーニングする装置を提供し、この顔口型決定モデルをトレーニングする装置は、
トレーニング対象画像データ及び予め設定された顔画像を取得することに用いられる画像取得ユニットであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、画像取得ユニットと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することに用いられる特徴抽出ユニットであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、特徴抽出ユニットと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることに用いられるモデルトレーニングユニットと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することに用いられるモデル取得ユニットと、を含む。
【0009】
本開示の第5の態様によれば、電子機器を提供し、この電子機器は、
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサと通信的に接続されるメモリを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに、本開示の第1の態様及び第2の態様に記載の方法を実行させることができる。
【0010】
本開示の第6の態様によれば、コンピュータ命令を記憶している非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本開示の第1の態様及び第2の態様に記載の方法を実行させるためのものである。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
情報提示方法
10日前
個人
自動精算システム
18日前
個人
プログラム
2日前
個人
RFタグ読取装置
27日前
個人
アカウントマップ
3日前
個人
プログラム
9日前
個人
売買システム
24日前
個人
管理サーバ
1か月前
個人
発想支援方法及びシステム
13日前
個人
市場受発注システム
16日前
日本精機株式会社
車両用表示装置
26日前
個人
学習装置及び推論装置
2日前
個人
分類処理プログラム及び方法
13日前
日本精機株式会社
車両用表示装置
26日前
個人
VRによる人体各部位の立体化
1か月前
富士通株式会社
金融システム
10日前
井関農機株式会社
ロボット作業車両
18日前
キヤノン株式会社
情報処理装置
1か月前
株式会社プレニーズ
仲介システム
3日前
トヨタ自動車株式会社
情報通知方法
16日前
トヨタ自動車株式会社
記号識別方法
1か月前
トヨタ自動車株式会社
作業管理装置
16日前
トヨタ自動車株式会社
画像処理装置
1か月前
個人
情報処理装置およびプログラム
1か月前
ブラザー工業株式会社
無線通信装置
16日前
トヨタ自動車株式会社
作業評価装置
25日前
村田機械株式会社
人員配置システム
13日前
個人
販売支援システム
18日前
大王製紙株式会社
RFIDタグ
1か月前
NISSHA株式会社
入力装置
13日前
トヨタ自動車株式会社
習熟度判定装置
1か月前
AICRO株式会社
情報処理システム
16日前
トヨタ自動車株式会社
生成装置
10日前
グローリー株式会社
汎用制御基板
1か月前
富士通株式会社
排出の推定と異常
1か月前
富士通株式会社
排出の推定と異常
1か月前
続きを見る
他の特許を見る