TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024120098
公報種別公開特許公報(A)
公開日2024-09-03
出願番号2024104541,2022579288
出願日2024-06-28,2021-02-08
発明の名称音源分離方法、音源分離装置、およびプログラム
出願人日本電信電話株式会社
代理人個人,個人,個人
主分類G10L 21/028 20130101AFI20240827BHJP(楽器;音響)
要約【課題】音源分離の分離精度を向上させる。
【解決手段】複数の音源から発せられた音の混合音を表す混合音響信号と複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。このモデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。
【選択図】図1
特許請求の範囲【請求項1】
音源分離装置による音源分離方法であって、
複数の音源から発せられた音の混合音を表す混合音響信号と前記複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、前記複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する推定ステップを有し、
前記モデルは、少なくとも、前記混合音響信号の教師データである教師混合音響信号と前記音源映像信号の教師データである教師音源映像信号とを前記モデルに適用して得られる、前記分離信号の特徴と、前記教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである、音源分離方法。
続きを表示(約 1,100 文字)【請求項2】
請求項1の音源分離方法であって、
前記モデルは、少なくとも、前記複数の音源のうち第1音源に対応する前記教師音源映像信号の特徴を表す要素と前記第1音源と異なる第2音源に対応する前記分離信号の特徴を表す要素との間の類似度が小さくなり、前記第1音源に対応する前記教師音源映像信号の特徴を表す要素と前記第1音源に対応する前記分離信号の特徴を表す要素との間の類似度が大きくなるように学習によって得られたものである、音源分離方法。
【請求項3】
請求項1または2の音源分離方法であって、
前記モデルは、さらに、前記教師混合音響信号と前記教師音源映像信号とを前記モデルに適用して得られる前記分離信号と、前記教師混合音響信号と前記教師音源映像信号とに対応する前記分離信号の教師データである教師音源信号と、の違いに基づいた学習によって得られたものである、音源分離方法。
【請求項4】
請求項1から3のいずれかの音源分離方法であって、
前記音源映像信号は、前記複数の音源それぞれの映像を表す、音源分離方法。
【請求項5】
請求項1から4のいずれかの音源分離方法であって、
前記複数の音源は互いに異なる複数の話者を含み、前記混合音響信号は音声信号を含み、前記音源映像信号は前記話者の映像を表す、音源分離方法。
【請求項6】
請求項5の音源分離方法であって、
前記音源映像信号は前記話者の顔映像を含む映像を表す、音源分離方法。
【請求項7】
請求項1から6のいずれかの音源分離方法であって、
前記分離信号は、前記複数の音源のうち或る音源から発せられた対象音を表す信号と他の音源から発せられた音を表す信号とを含む、音源分離方法。
【請求項8】
複数の音源から発せられた音の混合音を表す混合音響信号と前記複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、前記複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する推定部を有し、
前記モデルは、少なくとも、前記混合音響信号の教師データである教師混合音響信号と前記音源映像信号の教師データである教師音源映像信号とを前記モデルに適用して得られる、前記分離信号の特徴と、前記教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである、音源分離装置。
【請求項9】
請求項1から7のいずれかの音源分離方法の処理をコンピュータに実行させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、音源分離技術に関し、特にマルチモーダル音源分離に関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
単一マイクロホンで観測した複数話者の音声の混合信号から混合前の各話者の音声信号を推定するシングルチャネル音源分離技術では、ニューラルネットワークを利用して混合信号に含まれる全ての音源信号を同時に推定することが一般的である。推定された音源信号を分離信号と呼ぶ。この枠組みでは、分離信号に含まれる各話者に対応する信号の出力順序が任意であるため、ある特定の話者の音声を取り出す際には話者識別など後段の処理が必要となる。また、ニューラルネットワークのモデルパラメータを学習する際には、話者毎に分離信号と混合前の音源信号との誤差を計算し、それらから全体の誤差を評価する必要がある。ここでも各話者について分離信号と音源信号の対応が取れていないと誤差が定まらないという問題がある。この問題はパーミュテーション問題と呼ばれている。
【0003】
これに対して、各話者に対応する音源信号と分離信号の要素全ての対応に関して誤差を計算し、それらに基づく全体の誤差が最小になるようにネットワークのモデルパラメータ最適化を行うpermutation invariant training(PIT)が提案されている(例えば、非特許文献1等参照)。また、音声の混合信号と同時に各話者の顔映像を入力とし、各話者の映像から分離信号に含まれる各話者に対応する信号の出力順序を一意に決定するマルチモーダル音声分離も提案されている(例えば、非特許文献2,3等参照)。マルチモーダル音源分離では、各話者の映像を利用することで、パーミュテーション問題を解決しながら発話タイミングや発話内容を分離時に考慮し、音のみを利用する音声分離よりも高い性能を示すことが確認されている。
【先行技術文献】
【非特許文献】
【0004】
D. Yu, M. Kolbak, Z. Tan, and J. Jensen, “Permutation invariant training of deep models for speaker-independent multitalker speech separation,” in Proc. ICASSP, 2017, pp. 241-245.
R. Lu, Z. Duan, and C. Zhang, “Audio-visual deep clustering for speech separation,” IEEE/ACM Trans. ASLP, vol. 27, no. 11, pp. 1697-1712, 2019.
A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Rubinstein, “Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation,” ACM Trans. Graph., vol. 37, no. 4, pp. 112:1-112:11, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、従来のPITやマルチモーダル音源分離では、音ドメインでの音源信号と分離信号との距離のみを考慮してモデルパラメータを学習する。このような学習方法では、分離信号に含まれる話者の特徴(例えば、話者性や音韻情報などの特徴)を直接考慮することができない。これは分離信号における他話者の音声の残留や音声の歪みにつながり、分離精度を劣化させてしまう。
【0006】
このような課題は音声の音源分離を行う場合に限定されるものではなく、任意の音の音源分離を行う場合に共通するものである。
【0007】
本発明はこのような点に鑑みてなされたものであり、音源分離の分離精度を向上させることを目的とする。
【課題を解決するための手段】
【0008】
複数の音源から発せられた音の混合音を表す混合音響信号と複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。このモデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。
【発明の効果】
【0009】
これにより、音源映像信号の特徴に表れる、分離信号に含まれる音源の特徴が音源分離に考慮され、音源分離の分離精度を向上させることができる。
【図面の簡単な説明】
【0010】
図1は実施形態の音源分離装置の機能構成を例示したブロック図である。
図2は実施形態の学習装置の機能構成を例示したブロック図である。
図3は装置のハードウェア構成を例示したブロック図である。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

日本電信電話株式会社
光電変換素子
6日前
日本電信電話株式会社
振動提示装置、および振動提示方法
3日前
日本電信電話株式会社
認識システム、認識装置、認識方法、およびプログラム
3日前
日本電信電話株式会社
微生物燃料電池用の電極およびそれを含む微生物燃料電池システム
3日前
日本電信電話株式会社
カラー撮像素子および撮像装置
3日前
日本電信電話株式会社
複数のユーザ端末に対して通信を中継する方法、複数のユーザ端末に対する通信の中継を制御する装置、及びプログラム
3日前
個人
非電子的残響スピーカー
28日前
個人
ハリセン
6日前
個人
管部材の製造方法
6日前
個人
ギター演奏用ピック
15日前
ブラザー工業株式会社
カラオケ装置
3日前
ヤマハ株式会社
電子楽器
3日前
ブラザー工業株式会社
カラオケ装置
3日前
カシオ計算機株式会社
蓋部材および鍵盤楽器
8日前
ヤマハ株式会社
シンバルワッシャ
6日前
オンキヨー株式会社
音声認識システム、及び、音声認識方法
6日前
株式会社イノアックコーポレーション
遮音カバー
6日前
株式会社第一興商
カラオケ装置
6日前
株式会社第一興商
カラオケ装置
29日前
株式会社ファーストスター・ヘルスケア
音楽提供システム
28日前
株式会社エクシング
カラオケシステム、及び、カラオケ装置
6日前
トヨタ自動車株式会社
制御装置及び制御方法
3日前
ヤマハ株式会社
検出システムおよび楽器
6日前
京セラ株式会社
音出力装置、音出力方法、及びプログラム
29日前
ヤマハ株式会社
低音強調方法及び低音強調装置
29日前
ローランド株式会社
打楽器および張力の付与方法
6日前
株式会社SOKEN
遮音部
3日前
株式会社日立プラントコンストラクション
作業記録作成支援システム
28日前
ソフトバンクグループ株式会社
行動制御システム
15日前
ローランド株式会社
鍵盤装置および鍵のガイド方法
14日前
ローランド株式会社
鍵盤装置および鍵のガイド方法
14日前
ローランド株式会社
鍵盤装置および鍵のガイド方法
14日前
ローランド株式会社
打楽器およびロッドの締付方法
6日前
ローランド株式会社
楽音処理装置、及び楽音処理方法
14日前
カシオ計算機株式会社
電子楽器及び電子鍵盤楽器
8日前
カシオ計算機株式会社
電子楽器及び電子鍵盤楽器
8日前
続きを見る