発明の詳細な説明【技術分野】 【0001】 本発明は、音源分離技術に関し、特にマルチモーダル音源分離に関する。 続きを表示(約 2,200 文字)【背景技術】 【0002】 単一マイクロホンで観測した複数話者の音声の混合信号から混合前の各話者の音声信号を推定するシングルチャネル音源分離技術では、ニューラルネットワークを利用して混合信号に含まれる全ての音源信号を同時に推定することが一般的である。推定された音源信号を分離信号と呼ぶ。この枠組みでは、分離信号に含まれる各話者に対応する信号の出力順序が任意であるため、ある特定の話者の音声を取り出す際には話者識別など後段の処理が必要となる。また、ニューラルネットワークのモデルパラメータを学習する際には、話者毎に分離信号と混合前の音源信号との誤差を計算し、それらから全体の誤差を評価する必要がある。ここでも各話者について分離信号と音源信号の対応が取れていないと誤差が定まらないという問題がある。この問題はパーミュテーション問題と呼ばれている。 【0003】 これに対して、各話者に対応する音源信号と分離信号の要素全ての対応に関して誤差を計算し、それらに基づく全体の誤差が最小になるようにネットワークのモデルパラメータ最適化を行うpermutation invariant training(PIT)が提案されている(例えば、非特許文献1等参照)。また、音声の混合信号と同時に各話者の顔映像を入力とし、各話者の映像から分離信号に含まれる各話者に対応する信号の出力順序を一意に決定するマルチモーダル音声分離も提案されている(例えば、非特許文献2,3等参照)。マルチモーダル音源分離では、各話者の映像を利用することで、パーミュテーション問題を解決しながら発話タイミングや発話内容を分離時に考慮し、音のみを利用する音声分離よりも高い性能を示すことが確認されている。 【先行技術文献】 【非特許文献】 【0004】 D. Yu, M. Kolbak, Z. Tan, and J. Jensen, “Permutation invariant training of deep models for speaker-independent multitalker speech separation,” in Proc. ICASSP, 2017, pp. 241-245. R. Lu, Z. Duan, and C. Zhang, “Audio-visual deep clustering for speech separation,” IEEE/ACM Trans. ASLP, vol. 27, no. 11, pp. 1697-1712, 2019. A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Rubinstein, “Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation,” ACM Trans. Graph., vol. 37, no. 4, pp. 112:1-112:11, 2018. 【発明の概要】 【発明が解決しようとする課題】 【0005】 しかし、従来のPITやマルチモーダル音源分離では、音ドメインでの音源信号と分離信号との距離のみを考慮してモデルパラメータを学習する。このような学習方法では、分離信号に含まれる話者の特徴(例えば、話者性や音韻情報などの特徴)を直接考慮することができない。これは分離信号における他話者の音声の残留や音声の歪みにつながり、分離精度を劣化させてしまう。 【0006】 このような課題は音声の音源分離を行う場合に限定されるものではなく、任意の音の音源分離を行う場合に共通するものである。 【0007】 本発明はこのような点に鑑みてなされたものであり、音源分離の分離精度を向上させることを目的とする。 【課題を解決するための手段】 【0008】 複数の音源から発せられた音の混合音を表す混合音響信号と複数の音源の少なくとも一部の映像を表す音源映像信号とをモデルに適用し、複数の音源のうち或る音源から発せられた対象音を表す信号を含む分離信号を推定する。このモデルは、少なくとも、混合音響信号の教師データである教師混合音響信号と音源映像信号の教師データである教師音源映像信号とをモデルに適用して得られる、分離信号の特徴と、教師音源映像信号の特徴と、の違いに基づいた学習によって得られたものである。 【発明の効果】 【0009】 これにより、音源映像信号の特徴に表れる、分離信号に含まれる音源の特徴が音源分離に考慮され、音源分離の分離精度を向上させることができる。 【図面の簡単な説明】 【0010】 図1は実施形態の音源分離装置の機能構成を例示したブロック図である。 図2は実施形態の学習装置の機能構成を例示したブロック図である。 図3は装置のハードウェア構成を例示したブロック図である。 【発明を実施するための形態】 (【0011】以降は省略されています) この特許をJ-PlatPatで参照する