特許ウォッチ

公開番号2025035497
公報種別公開特許公報(A)
公開日2025-03-13
出願番号2023142578
出願日2023-09-01
発明の名称主話者音声区間判別装置
出願人中部電力株式会社,株式会社Human Dataware Lab.
代理人弁理士法人勇智国際特許事務所
主分類G10L 15/04 20130101AFI20250306BHJP(楽器;音響)
要約【課題】複数の話者それぞれに対応して配置されている複数のマイクロフォンのうちの1つのマイクロフォンから出力された音情報内の、当該1つのマイクロフォンに対応する主話者の音声情報が含まれている主話者音声区間を判別する技術を提供する。
【解決手段】話者(1)～話者(n)それぞれに対応してマイクロフォン310(1)～310(n)が配置されている。主話者音声区間判別手段200は、いずれか1つのマイクロフォンから出力された音情報を時間軸に沿って複数のフレームに分割し、そして、複数のフレームのうち、当該1つのマイクロフォンに対応する主話者の音声情報が含まれていると判別したフレームにより形成される主話者音声区間を示す主話者音声区間判別結果を出力する。主話者音声区間判別手段200は、特徴量抽出手段210、時系列特徴量変換手段220、第1判別手段230、第2判別手段240および統合手段250により構成されている。
【選択図】図1
特許請求の範囲【請求項１】
複数の話者それぞれに対応して配置されている複数のマイクロフォンのうちの１つのマイクロフォンから出力された音情報内の、前記１つのマイクロフォンに対応する主話者の音声区間を判別する主話者音声区間判別装置であって、
記憶手段と、特徴量抽出手段と、時系列特徴量変換手段と、第１判別手段と、第２判別手段と、統合手段と、を備え、
前記記憶手段には、前記複数のマイクロフォンのうちの少なくとも１つのマイクロフォンから出力された音情報が時間軸に沿って記憶され、
前記特徴量抽出手段は、前記記憶手段に記憶されている、前記少なくとも１つのマイクロフォンのうちのいずれか１つのマイクロフォンから出力された音情報を時間軸に沿って分割した複数のフレームそれぞれの特徴量を抽出し、
前記時系列特徴量変換手段は、前記特徴量抽出手段で抽出した複数のフレームの特徴量を時系列特徴量に変換して出力し、
前記第１判別手段は、前記時系列特徴量変換手段から出力された時系列特徴量の全体区間における特徴ベクトルを生成し、生成した全体区間における特徴ベクトルに基づいて、前記各フレームに前記いずれか１つのマイクロフォンに対応する主話者の音声情報が含まれているか否かを判別し、前記いずれか１つのマイクロフォンに対応する主話者の音声情報が含まれていると判別したフレームを示す第１判別結果を出力し、
前記第２判別手段は、前記時系列特徴量変換手段から出力された時系列特徴量の部分区間における特徴ベクトルを生成し、生成した部分区間における特徴ベクトルに基づいて、前記各フレームに前記いずれか１つのマイクロフォンに対応する主話者の音声情報が含まれているか否かを判別し、前記いずれか１つのマイクロフォンに対応する主話者の音声情報が含まれていると判別したフレームを示す第２判別結果を出力し、
前記統合手段は、前記第１判別手段から出力された第１判別結果と前記第２判別手段から出力された第２判別結果を重み付けして統合し、前記いずれか１つのマイクロフォンに対応する主話者の音声情報が含まれていると判別したフレームにより形成される主話者音声区間を示す主話者音声区間判別結果を出力することを特徴とする主話者音声区間判別装置。
続きを表示（約 1,000 文字）【請求項２】
請求項１に記載の主話者音声区間判別装置であって、
前記記憶手段には、前記複数のマイクロフォンのうちの少なくとも２つのマイクロフォンから出力された音情報が時間同期して記憶され、
前記特徴量抽出手段による特徴量の抽出処理、前記時系列特徴量変換手段による時系列特徴量の出力処理、前記第１判別手段による第１判別結果の出力処理、前記第２判別手段による第２判別結果の出力処理、前記統合手段による主話者音声区間判別結果の出力処理を、前記記憶手段に記憶されている、前記少なくとも２つのマイクロフォンから出力された音情報それぞれに対して行い、前記少なくとも２つのマイクロフォンそれぞれに対応する主話者の主話者音声区間判別結果を出力することを特徴とする主話者音声区間判別装置。
【請求項３】
請求項２に記載の主話者音声区間判別装置であって、
前記統合手段は、前記少なくとも２つのマイクロフォンのうちのいずれか１つのマイクロフォンに対応する主話者音声区間判別結果で示される主話者音声区間のいずれかと他の少なくとも１つのマイクロフォンに対応する主話者音声区間判別結果で示される主話者音声区間のいずれかが、時間軸に沿って重なっている場合には、重なっている２つの主話者音声区間の組それぞれに対して重なり度合いを判別し、重なり度合いのいずれかが所定条件を満足する場合には、前記重なっている主話者音声区間のうち、最も長い主話者音声区間を除く主話者音声区間を主話者音声区間判別結果から削除することを特徴とする主話者音声区間判別装置。
【請求項４】
請求項１に記載の主話者音声区間判別装置であって、
前記時系列特徴量変換手段、前記第１判別手段、前記第２判別手段および前記統合手段は、多層ニューラルネットワークで構成されていることを特徴とする主話者音声区間判別装置。
【請求項５】
コンピュータに、請求項１に記載されている、前記特徴量抽出手段による特徴量の抽出処理、前記時系列特徴量変換手段による時系列特徴量の出力処理、前記第１判別手段による第１判別結果の出力処理、前記第２判別手段による第２判別結果の出力処理および前記統合手段による主話者音声区間判別結果の出力処理を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。

発明の詳細な説明【技術分野】
【０００１】
本発明は、マイクロフォンで集音した複数の話者の音声から特定の話者の音声区間を判別する技術に関する。
続きを表示（約 5,800 文字）【背景技術】
【０００２】
会議等における複数の話者の発話内容を判別する手法として、マイクロフォンから出力された音情報に含まれる音声情報を音声認識し、テキスト情報に変換する手法が用いられている。通常、マイクロフォンから出力された音情報としては、アナログの音情報をデジタルに変換した音情報が用いられる。複数の話者が対話している場合には、音情報に、マイクロフォンの近くにいる複数の話者の音声情報が混在することがある。このため、音声認識の前処理として、「誰がいつ喋ったか」を判別する処理が必要である。複数の話者の音声情報が混在している音情報から、各話者の音声情報が含まれている話者音声区間と各話者を示す話者ラベルを判別する手法は、話者ダイアライゼーション（Speaker Diarization）と総称されている。
近年、話者ダイアライゼーションの一手法として、非特許文献１に開示されているような、エンドツーエンドのニューラルダイアライゼーション（End-to-End Neural Diarization：EEND）が提案されている。非特許文献１に開示されているEENDは、多層ニューラルネットワークで構成され、単一の判別モデルを用いて、入力された音情報から話者音声区間と話者ラベルを判別する。
【先行技術文献】
【非特許文献】
【０００３】
「END-TO-END NEURAL SPEAKER DIARIZATION WITH SELF-ATTENTION」，2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)，ISBN 978-1-7281-0306-8，Yusuke Fujita，Naoyuki Kanda，Shota Horiguchi，Yawen Xue，Kenji Nagamatsu，Shinji Watanabe）
【発明の概要】
【発明が解決しようとする課題】
【０００４】
非特許文献１に開示されているEENDを含め、従来提案されている話者ダイアライゼーションのアルゴリズムは、１つのマイクロフォン（モノラルマイクロフォン）から出力された音情報（シングルチャネルの音情報）に混在する複数の話者の音声情報を判別対象としている。
しかしながら、１つのマイクロフォンから出力された音情報から複数の話者の話者音声区間と話者ラベルを判別するのは、話者数が既知であっても容易ではない。
本発明は、このような問題点に鑑みて創案されたものであり、話者音声区間と話者ラベルを、容易に精度良く判別することができる技術を提供することを目的とする。具体的には、複数の話者それぞれに対応して複数のマイクロフォンを配置し、各マイクロフォンに対応する話者を「主話者」とする。そして、話者ダイアライゼーションに入力される、いずれか１つのマイクロフォンから出力された音情報（いずれか１つのシングルチャネルの音情報）から、当該１つのマイクロフォンに対応する主話者（話者ラベル）の音声情報のみを選択的に抽出して主話者音声区間を判別する。
【課題を解決するための手段】
【０００５】
第１発明は、複数の話者それぞれに対応して配置されている複数のマイクロフォンのうちの１つのマイクロフォンから出力された音情報内の、１つのマイクロフォンに対応する主話者の音声区間を判別する主話者音声区間判別装置に関する。
第１発明の主話者音声区間判別装置は、記憶手段と、特徴量抽出手段と、時系列特徴量変換手段と、第１判別手段と、第２判別手段と、統合手段と、を備えている。
記憶手段には、複数のマイクロフォンのうちの少なくとも１つのマイクロフォンから出力された音情報が時間軸に沿って記憶される。記憶手段に音情報を記憶させる方法としては適宜の方法を用いることができる。例えば、マイクロフォンから直接または通信回線を介して入力した音情報を記憶手段に記憶させる方法を用いることができる。あるいは、マイクロフォンから出力された音情報を記憶媒体に記憶し、記憶媒体に記憶されている音情報を読み取り手段を介して入力し、記憶手段に記憶させる方法を用いることができる。
特徴量抽出手段は、記憶手段に記憶されている、少なくとも１つのマイクロフォンのうちのいずれか１つのマイクロフォンから出力された音情報を時間軸に沿って分割した複数のフレームそれぞれの特徴量を抽出する。特徴量を抽出する方法としては、公知の種々の方法を用いることができる。
時系列特徴量変換手段は、特徴量抽出手段で抽出した複数のフレームの特徴量を時系列特徴量に変換して出力する。複数のフレームの特徴量を時系列特徴量に変換する方法としては、公知の種々の方法を用いることができる。
第１判別手段は、時系列特徴量変換手段から出力された時系列特徴量の全体区間における特徴ベクトルを生成する。生成した全体区間における特徴ベクトルに基づいて、各フレームにいずれか１つのマイクロフォンに対応する主話者の音声情報が含まれているか否かを判別する。そして、いずれか１つのマイクロフォンに対応する主話者の音声情報が含まれていると判別したフレームを示す第１判別結果を出力する。第１判別結果の形式としては、種々の形式を用いることができる。例えば、各フレームに主話者の音声情報が含まれている確率を示すスコアを含む第１判別結果を用いることができる。
第２判別手段は、時系列特徴量変換手段から出力された時系列特徴量の部分区間における特徴ベクトルを生成する。生成した部分区間における特徴ベクトルに基づいて、各フレームにいずれか１つのマイクロフォンに対応する主話者の音声情報が含まれているか否かを判別する。そして、いずれか１つのマイクロフォンに対応する主話者の音声情報が含まれていると判別したフレームを示す第２判別結果を出力する。第２判別結果の形式としては、第１判別結果と同様に、種々の形式を用いることができる。
統合手段は、第１判別手段から出力された第１判別結果と第２判別手段から出力された第２判別結果を重み付けして統合し、いずれか１つのマイクロフォンに対応する主話者の音声情報が含まれていると判別したフレームにより形成される主話者音声区間を示す主話者音声区間判別結果を出力する。
本発明の主話者音声区間判別装置では、マイクロフォンから出力された音情報から、マイクロフォンに１対１で対応する一人の主話者の音声情報が含まれている主話者音声区間を判別するため、主話者音声区間を容易に判別することができる。
第１発明の主話者音声区間判別装置の異なる形態では、記憶手段には、複数のマイクロフォンのうちの少なくとも２つのマイクロフォンから出力された音情報が時間同期して記憶される。
そして、特徴量抽出手段による特徴量の抽出処理、時系列特徴量変換手段による時系列特徴量の出力処理、第１判別手段による第１判別結果の出力処理、第２判別手段による第２判別結果の出力処理および統合手段による主話者音声区間判別結果の出力処理を、記憶手段に記憶されている、少なくとも２つのマイクロフォンから出力された音情報それぞれに対して行う。統合手段は、少なくとも２つのマイクロフォンそれぞれに対応する主話者の主話者音声区間判別結果を出力する。
本形態では、各マイクロフォンに対応する主話者全員の主話者音声区間を容易に判別することができる。
第１発明の主話者音声区間判別装置の異なる形態では、統合手段は、少なくとも２つのマイクロフォンのうちのいずれか１つのマイクロフォンに対応する主話者音声区間判別結果で示される主話者音声区間のいずれかと他の少なくとも１つのマイクロフォンに対応する主話者音声区間判別結果で示される主話者音声区間のいずれかが、時間軸に沿って重なっているか否かを判別する。
重なっている場合には、重なっている２つの主話者音声区間の組それぞれに対して重なり度合いを判別する。重なっている２つの主話者音声区間の重なり度合いを判別する方法としては、適宜の方法を用いることができる。
そして、重なり度合いのいずれかが所定条件を満足する場合には、重なっている主話者音声区間のうち、最も長い主話者音声区間を除く主話者音声区間を主話者音声区間判別結果から削除する。
１つのマイクロフォンに対応する主話者の発話が、他のマイクロフォンで集音され、他のマイクロフォンから出力された音情報（他のチャネルの音情報）に、当該１つのマイクロフォンに対応する主話者の音声情報が含まれる（湧き出す）ことがある。この場合、当該１つのマイクロフォンに対応する主話者の音声情報が、他のマイクロフォンに対応する主話者の音声情報として誤判別されるおそれがある。重なり度合いに対する所定条件としては、このような主話者音声区間の誤判別を防止することができる種々の条件が設定される。
本形態では、主話者音声区間を誤判別するのを防止することができる。
第１発明の主話者音声区間判別装置の異なる形態では、時系列特徴量変換手段、第１判別手段、第２判別手段および統合手段は、多層ニューラルネットワークで構成されている。
本形態では、主話者音声区間判別装置を簡単に構成することができる。
第２発明は、記憶媒体に関する。
第２発明の記憶媒体は、前述した、特徴量抽出手段による特徴量の抽出処理、時系列特徴量変換手段による時系列特徴量の出力処理、第１判別手段による第１判別結果の出力処理、第２判別手段による第２判別結果の出力処理および統合手段による主話者音声区間判別結果の出力処理を実行させるためのプログラムを記憶している。
第２発明の記憶媒体を用いることにより、主話者音声区間判別装置を簡単に構成することができる。
【発明の効果】
【０００６】
本発明の主話者音声区間判別装置および記憶媒体を用いることにより、マイクロフォンに対応する主話者の主話者音声区間を容易に判別することができる。
【図面の簡単な説明】
【０００７】
一実施形態の主話者音声区間判別装置の概略構成を示すブロック図である。
一実施形態の主話者音声区間判別装置を構成する主話者音声区間判別手段の一例の、推論モードにおけるブロック図である。
図２に示されているエンコーダの一例のブロック図である。
一実施形態の主話者音声区間判別装置を構成する主話者音声区間判別手段の一例の、学習モードにおけるブロック図である。
複数の話者の発話例を示す図である。
主話者音声区間が時間軸に沿って重なっている場合の動作を説明する図である。
主話者音声区間が時間軸に沿って重なっている場合の動作を説明する図である。
【発明を実施するための形態】
【０００８】
以下に、本発明の主話者音声区間判別装置の一実施形態を、図１～図４を参照して説明する。図１は、一実施形態の主話者音声区間判別装置１０の概略構成を示すブロック図である。図２、図４は、主話者音声区間判別手段２００の概略構成を示すブロック図であり、図３は、エンコーダ２３２の概略構成を示すブロック図である。なお、図２は、主話者音声区間判別時（推定時）の構成を示し、図４は、学習時の構成を示している。
【０００９】
本実施形態の主話者音声区間判別装置１０は、エンドツーエンドニューラルダイアライゼーション(EEND)アルゴリズムをベースとし、複数の話者それぞれに対応して配置されている複数のマイクロフォンのうちの１つのマイクロフォンから出力された音情報内の、当該１つのマイクロフォンに対応する話者（「主話者」という）の音声情報が含まれている話者音声区間（「主話者音声区間」という）を判別する。
すなわち、本実施形態の主話者音声区間判別装置１０では、１つのマイクロフォンから出力された音情報から話者音声区間（「主話者音声区間」）を判別する話者（「主話者」）の数は１名である。
【００１０】
EENDのアルゴリズムの概要は、以下のとおりである。
音声情報の、フレーム単位の時系列特徴量（特徴量系列）をＸとし、時系列の、フレームに対応する話者ラベル（話者ラベル系列）をＹとする。音声情報の特徴量系列Ｘは、短時間スペクトルの包絡線を示す対数メルフィルタバンク係数等を用いることができる。
音声情報の特徴量系列Ｘが観測された下での話者ラベル系列Ｙの推定値〈Ｙ〉は、特徴量系列Ｘが観測された条件の下で、事後確率最大化により（式１）で表される。
TIFF
2025035497000002.tif
49
170
推論モデルは、出力された推定話者ラベルと正解話者ラベル（教師データ）を用いて、話者の入れ替わり（パーミュテーション：permutation）による誤検出を評価する損失関数の評価値を最小化するように、誤差伝搬学習によって各パラメータを学習する。損失関数としては、例えば、（式２）で表されるＬが用いられている。
TIFF
2025035497000003.tif
34
170
BCEは、２値交差エントロピー関数（Binary Cross Entropy Function）である。
そして、学習した推論モデルを用いて、マイクロフォンから出力された音情報内の、話者の音声情報が含まれている話者ごとの話者音声区間を判別するとともに、話者音声区間に含まれている音声情報に対応する話者を示す話者ラベルを判別する。
（【００１１】以降は省略されています）

関連特許