特許ウォッチ

公開番号2024132588
公報種別公開特許公報(A)
公開日2024-10-01
出願番号2023043422
出願日2023-03-17
発明の名称音声合成装置、予測装置、音声合成システム、音声合成方法及びプログラム
出願人国立大学法人東京大学
代理人個人,個人,個人,個人
主分類G10L 13/08 20130101AFI20240920BHJP(楽器;音響)
要約【課題】非流暢性を含む合成音声の人間らしさを向上すること。
【解決手段】音声合成装置は、フィラー部分を含む第1のテキストに関する情報を取得する取得部と、前記第1のテキストに含まれる第1の言語部分に対応する音声と前記フィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第1のテキストに対応する音声を合成する音声合成部と、を備える。
【選択図】図5
特許請求の範囲【請求項１】
フィラー部分を含む第１のテキストに関する情報を取得する取得部と、
前記第１のテキストに含まれる第１の言語部分に対応する音声と前記フィラー部分を含まない第２のテキストに含まれる第２の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第１のテキストに対応する音声を合成する音声合成部と、
を備える音声合成装置。
続きを表示（約 1,600 文字）【請求項２】
前記第１の言語部分に対応する音声と、前記第２の言語部分に対応する音声との間の一貫性を保証する損失を用いて、前記音声合成モデルの学習を行う学習部、
を更に備える請求項１記載の音声合成装置。
【請求項３】
前記学習部は、真のフィラー部分を含む第３のテキストに含まれる第３の言語部分に関する第１の損失と、疑似フィラー部分を含む第４のテキストに含まれる第４の言語部分に関する第２の損失と、を算出し、前記第１の損失と前記第２の損失とに基づいて前記一貫性を保証する前記損失を算出する、
を更に備える請求項２記載の音声合成装置。
【請求項４】
前記音声合成モデルは、前記第３のテキストと前記第３のテキストに対応する音声とのペアを用いて事前学習されたモデルを教師モデルとする生徒モデルであり、
前記学習部は、前記真のフィラー部分と第３の言語部分とを含む前記第３のテキストに関する情報を前記生徒モデルに入力して得られる前記第３の言語部分の中間表現と、前記第３の言語部分に関する情報を前記教師モデルに入力して得られる中間表現と、の間の距離に基づいて、前記第１の損失を算出する、
請求項３記載の音声合成装置。
【請求項５】
前記学習部は、前記疑似フィラー部分と第４の言語部分とを含む前記第４のテキストに関する情報を前記生徒モデルに入力して得られる前記第４の言語部分の中間表現と、前記第４の言語部分に関する情報を前記教師モデルに入力して得られる中間表現と、の間の距離に基づいて、前記第２の損失を算出する、
請求項４記載の音声合成装置。
【請求項６】
話者又は前記話者が属するグループに依存する予測モデルを用いて、前記第４のテキスト内の前記疑似フィラー部分の位置及びワードを予測する予測部
を更に備える請求項５記載の音声合成装置。
【請求項７】
フィラー部分を含まない第２のテキストに関する情報を取得する取得部と、
話者又は前記話者が属するグループに依存する予測モデルに基づいて、前記第２のテキストに対して挿入される前記フィラー部分の位置及びワードを予測する予測部と、
予測された前記位置及び前記ワードのフィラー部分を含む第１のテキストに関する情報を出力する出力部と、
を備える予測装置。
【請求項８】
複数の話者の話者データに含まれる前記フィラー部分の位置及びワードの少なくとも一つに基づいて前記複数の話者を複数のグループにグループ化するグループ化部と、
前記複数のグループそれぞれに対応する複数の予測モデルを記憶する記憶部と、
前記複数の予測モデルの中から、前記フィラー部分の位置及びワードの少なくとも一つに関する前記話者の傾向に基づいて前記話者が属するグループの前記予測モデルを選択する選択部、
を更に備える請求項７に記載の予測装置。
【請求項９】
請求項１から請求項６のいずれか記載の音声合成装置と、請求項７又は請求項８記載の予測装置と、を含む音声合成システムであって、
前記音声合成装置の前記取得部は、前記予測装置の前記出力部から出力された前記フィラー部分を含む前記第１のテキストに関する情報を取得する、
音声合成システム。
【請求項１０】
音声合成装置が、
フィラー部分を含む第１のテキストに関する情報を取得する工程と、
前記第１のテキストに含まれる第１の言語部分に対応する音声と前記フィラー部分を含まない第２のテキストに含まれる第２の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第１のテキストに対応する音声を合成する工程と、
を有する音声合成方法。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、音声合成装置、予測装置、音声合成システム、音声合成方法及びプログラムに関する。
続きを表示（約 2,500 文字）【背景技術】
【０００２】
従来、テキストから人間のような自然な音声を人工的に合成するテキスト音声合成（ＴＴＳ）が知られている（例えば、非特許文献１）。深層学習を用いたＴＴＳの発展により、読み上げ音声については、人間に近い自然な音声の合成が可能となっている（例えば、非特許文献２）。また、非個人性化（Non-personalized）モデルを用いて、流暢なテキストから非流暢性（disfluency）（例えば、フィラー）を含むテキストを生成する技術も知られている（例えば、非特許文献３）。
【先行技術文献】
【非特許文献】
【０００３】
Y. Sagisaka, “Speech synthesis by rule using an optimal selection of non-uniform synthesis units,” in Proc. ICASSP, Apr. 1988, pp. 679-682.
J. Shen et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” in Proc. ICASSP, Apr. 2018, pp. 4779-4783.
Yamazaki et al., “Filter prediction based on bidirectional lstm for generation of natural response of spoken dialog” in Proc. GCCE, pages 360-361.
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、以上の従来技術では、非流暢性を含む合成音声（例えば、フィラーを含む自発音声等）の人間らしさを実現するには至っていない。例えば、上記非特許文献３により生成された非流暢性を含むテキストから音声を合成しても、非流暢性の個人性の欠如する結果、非流暢性を含む合成音声の人間らしさを十分に実現できない恐れがある。また、非流暢性を含むテキストから音声を合成する場合、当該テキスト内の言語部分の合成音声の品質が低下する結果、非流暢性を含む合成音声の人間らしさを十分に実現できない恐れがある。
【０００５】
そこで、本開示は、非流暢性を含む合成音声の人間らしさを向上可能な音声合成装置、予測装置、音声合成システム、音声合成方法及びプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【０００６】
本開示の一態様に係る音声合成装置は、フィラー部分を含む第１のテキストに関する情報を取得する取得部と、前記第１のテキストに含まれる第１の言語部分に対応する音声と前記フィラー部分を含まない第２のテキストに含まれる第２の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第１のテキストに対応する音声を合成する音声合成部と、を備える。
【０００７】
本開示の一態様に係る予測装置は、フィラー部分を含まない第２のテキストに関する情報を取得する取得部と、話者又は前記話者が属するグループに依存する予測モデルに基づいて、前記第２のテキストに対して挿入される前記フィラー部分の位置及びワードを予測する予測部と、予測された前記位置及び前記ワードのフィラー部分を含む第１のテキストに関する情報を出力する出力部と、を備える。
【０００８】
本開示の一態様に係る音声合成システムは、前記フィラー部分を含まない第２のテキストに関する情報を取得する取得部と、話者又は前記話者が属するグループに依存する予測モデルに基づいて、前記第２のテキストに対して挿入される前記フィラー部分の位置及びワードを予測する予測部と、予測された前記位置及び前記ワードのフィラー部分を含む前記第１のテキストに関する情報を出力する出力部と、を備える予測装置と、前記第１のテキストに関する情報を取得する取得部と、前記第１のテキストに含まれる第１の言語部分に対応する音声と前記フィラー部分を含まない第２のテキストに含まれる第２の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第１のテキストに対応する音声を合成する音声合成部と、を備える音声合成装置と、を備える。
【発明の効果】
【０００９】
本開示の一態様によれば、非流暢性を含む合成音声の人間らしさを向上できる。
【図面の簡単な説明】
【００１０】
本実施形態に係る自発音声合成モデルの概要を示す図である。
本実施形態に係る予測モデル１の概念図である。
本実施形態に係るグループに依存する予測モデル１の一例を示す図である。
本実施形態に係るグループ化の一例を示す図である。
本実施形態に係る音声合成モデル２の一例を示す図である。
本実施形態に係る音声合成モデル２の品質改善に向けた事前調査の一例を示す図である。
本実施形態に係る音声合成モデル２の一貫性保証学習の一例を示す図である。
本実施形態に係る音声合成システムを構成する装置の物理構成の一例を示す図である。
本実施形態に係る予測装置１０の機能構成の一例を示す図である。
本実施形態に係る音声合成装置２０の機能構成の一例を示す図である。
本実施形態に係るグループ依存の予測モデル１を用いた予測装置１０及び従来例に係る装置による予測精度の評価の結果を示す図である。
本実施形態に係る音声合成モデル２を用いた音声合成装置２０及び従来例に係る装置による合成音声の評価の結果を示す図である。
本実施形態に係る音声合成システムの動作の一例を示すフローチャートである。
【発明を実施するための形態】
（【００１１】以降は省略されています）

関連特許