TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024120098
公報種別公開特許公報(A)
公開日2024-09-03
出願番号2024104541,2022579288
出願日2024-06-28,2021-02-08
発明の名称音源分離方法、音源分離装置、およびプログラム
出願人日本電信電話株式会社
代理人個人,個人,個人
主分類G10L 21/028 20130101AFI20240827BHJP(楽器;音響)
要約【課題】音源分離の分離精度を向上させる。
【解決手段】複数の音源から発せられた音の混合音を表す混合音響信号と複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。このモデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。
【選択図】図1
特許請求の範囲【請求項1】
音源分離装置による音源分離方法であって、
複数の音源から発せられた音の混合音を表す混合音響信号と前記複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、前記複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する推定ステップを有し、
前記モデルは、少なくとも、前記混合音響信号の教師データである教師混合音響信号と前記音源映像信号の教師データである教師音源映像信号とを前記モデルに適用して得られる、前記分離信号の特徴と、前記教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである、音源分離方法。
続きを表示(約 1,100 文字)【請求項2】
請求項1の音源分離方法であって、
前記モデルは、少なくとも、前記複数の音源のうち第1音源に対応する前記教師音源映像信号の特徴を表す要素と前記第1音源と異なる第2音源に対応する前記分離信号の特徴を表す要素との間の類似度が小さくなり、前記第1音源に対応する前記教師音源映像信号の特徴を表す要素と前記第1音源に対応する前記分離信号の特徴を表す要素との間の類似度が大きくなるように学習によって得られたものである、音源分離方法。
【請求項3】
請求項1または2の音源分離方法であって、
前記モデルは、さらに、前記教師混合音響信号と前記教師音源映像信号とを前記モデルに適用して得られる前記分離信号と、前記教師混合音響信号と前記教師音源映像信号とに対応する前記分離信号の教師データである教師音源信号と、の違いに基づいた学習によって得られたものである、音源分離方法。
【請求項4】
請求項1から3のいずれかの音源分離方法であって、
前記音源映像信号は、前記複数の音源それぞれの映像を表す、音源分離方法。
【請求項5】
請求項1から4のいずれかの音源分離方法であって、
前記複数の音源は互いに異なる複数の話者を含み、前記混合音響信号は音声信号を含み、前記音源映像信号は前記話者の映像を表す、音源分離方法。
【請求項6】
請求項5の音源分離方法であって、
前記音源映像信号は前記話者の顔映像を含む映像を表す、音源分離方法。
【請求項7】
請求項1から6のいずれかの音源分離方法であって、
前記分離信号は、前記複数の音源のうち或る音源から発せられた対象音を表す信号と他の音源から発せられた音を表す信号とを含む、音源分離方法。
【請求項8】
複数の音源から発せられた音の混合音を表す混合音響信号と前記複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、前記複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する推定部を有し、
前記モデルは、少なくとも、前記混合音響信号の教師データである教師混合音響信号と前記音源映像信号の教師データである教師音源映像信号とを前記モデルに適用して得られる、前記分離信号の特徴と、前記教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである、音源分離装置。
【請求項9】
請求項1から7のいずれかの音源分離方法の処理をコンピュータに実行させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、音源分離技術に関し、特にマルチモーダル音源分離に関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
単一マイクロホンで観測した複数話者の音声の混合信号から混合前の各話者の音声信号を推定するシングルチャネル音源分離技術では、ニューラルネットワークを利用して混合信号に含まれる全ての音源信号を同時に推定することが一般的である。推定された音源信号を分離信号と呼ぶ。この枠組みでは、分離信号に含まれる各話者に対応する信号の出力順序が任意であるため、ある特定の話者の音声を取り出す際には話者識別など後段の処理が必要となる。また、ニューラルネットワークのモデルパラメータを学習する際には、話者毎に分離信号と混合前の音源信号との誤差を計算し、それらから全体の誤差を評価する必要がある。ここでも各話者について分離信号と音源信号の対応が取れていないと誤差が定まらないという問題がある。この問題はパーミュテーション問題と呼ばれている。
【0003】
これに対して、各話者に対応する音源信号と分離信号の要素全ての対応に関して誤差を計算し、それらに基づく全体の誤差が最小になるようにネットワークのモデルパラメータ最適化を行うpermutation invariant training(PIT)が提案されている(例えば、非特許文献1等参照)。また、音声の混合信号と同時に各話者の顔映像を入力とし、各話者の映像から分離信号に含まれる各話者に対応する信号の出力順序を一意に決定するマルチモーダル音声分離も提案されている(例えば、非特許文献2,3等参照)。マルチモーダル音源分離では、各話者の映像を利用することで、パーミュテーション問題を解決しながら発話タイミングや発話内容を分離時に考慮し、音のみを利用する音声分離よりも高い性能を示すことが確認されている。
【先行技術文献】
【非特許文献】
【0004】
D. Yu, M. Kolbak, Z. Tan, and J. Jensen, “Permutation invariant training of deep models for speaker-independent multitalker speech separation,” in Proc. ICASSP, 2017, pp. 241-245.
R. Lu, Z. Duan, and C. Zhang, “Audio-visual deep clustering for speech separation,” IEEE/ACM Trans. ASLP, vol. 27, no. 11, pp. 1697-1712, 2019.
A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Rubinstein, “Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation,” ACM Trans. Graph., vol. 37, no. 4, pp. 112:1-112:11, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、従来のPITやマルチモーダル音源分離では、音ドメインでの音源信号と分離信号との距離のみを考慮してモデルパラメータを学習する。このような学習方法では、分離信号に含まれる話者の特徴(例えば、話者性や音韻情報などの特徴)を直接考慮することができない。これは分離信号における他話者の音声の残留や音声の歪みにつながり、分離精度を劣化させてしまう。
【0006】
このような課題は音声の音源分離を行う場合に限定されるものではなく、任意の音の音源分離を行う場合に共通するものである。
【0007】
本発明はこのような点に鑑みてなされたものであり、音源分離の分離精度を向上させることを目的とする。
【課題を解決するための手段】
【0008】
複数の音源から発せられた音の混合音を表す混合音響信号と複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。このモデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。
【発明の効果】
【0009】
これにより、音源映像信号の特徴に表れる、分離信号に含まれる音源の特徴が音源分離に考慮され、音源分離の分離精度を向上させることができる。
【図面の簡単な説明】
【0010】
図1は実施形態の音源分離装置の機能構成を例示したブロック図である。
図2は実施形態の学習装置の機能構成を例示したブロック図である。
図3は装置のハードウェア構成を例示したブロック図である。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
グランドピアノの鍵盤支持構造
1か月前
個人
音鳴らし具
1か月前
NOK株式会社
吸音構造体
26日前
三井化学株式会社
遮音構造体
3日前
個人
弦楽器用押弦補助具及び弦楽器
3日前
三井化学株式会社
遮音構造体
10日前
三井化学株式会社
遮音構造体
3日前
林テレンプ株式会社
防音カバー
3日前
株式会社ドクター中松創研
歌及び歌の制作方法
13日前
株式会社ワコール
繊維構造体
25日前
個人
補助譜面台及び補助譜面台セット
1か月前
株式会社JVCケンウッド
車載装置
4日前
株式会社大同工業所
警報器及び警報システム
26日前
株式会社イノアックコーポレーション
防音材
1か月前
株式会社HOWA
遮音構造
10日前
個人
電気自動車等の「接近音」における最適な「音の種類」
6日前
トヨタ自動車株式会社
音声出力装置
1か月前
カシオ計算機株式会社
楽器
10日前
個人
電子管楽器
3日前
株式会社第一興商
カラオケ装置
27日前
ヤマハ株式会社
管楽器用部品及び管楽器
1か月前
TDK株式会社
振動デバイスおよびその振動方法
1か月前
川上産業株式会社
吸音シート
17日前
ヤマハ株式会社
発音制御装置
4日前
ヤマハ株式会社
鍵盤装置用の鍵
19日前
トヨタ自動車株式会社
電気自動車
5日前
AOBAENERGY株式会社
サービス提供機器
3日前
株式会社エクサウィザーズ
情報処理方法、プログラム及び情報処理システム
26日前
株式会社エクシング
携帯端末用プログラム、及び、カラオケシステム
25日前
トヨタ自動車株式会社
車両用ホーンシステム
1か月前
株式会社東芝
吸音装置及びパラメータ推定方法
1か月前
トヨタ自動車株式会社
音響式遮音材の製造方法
4日前
ヤマハ株式会社
表示方法およびプログラム
1か月前
株式会社パトライト
メール読み上げテキスト生成プログラム
17日前
ヤマハ株式会社
音響測定装置、音響測定方法および音響測定プログラム
4日前
カシオ計算機株式会社
音響処理装置、音響処理システム、音響処理方法及びプログラム
11日前
続きを見る