TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025073546
公報種別公開特許公報(A)
公開日2025-05-13
出願番号2023184449
出願日2023-10-27
発明の名称音声合成学習装置、音声合成装置、音声合成学習方法、音声合成方法及びプログラム
出願人日本電信電話株式会社,国立大学法人 東京大学
代理人弁理士法人ITOH,個人,個人,個人
主分類G10L 13/10 20130101AFI20250502BHJP(楽器;音響)
要約【課題】音声合成時に推定された発話の表現をユーザに解釈可能な形式で表現する音声合成学習装置及び方法、音声合成装置及び方法並びにプログラムを提供する。
【解決手段】音声合成装置10は、発話の内容を示す第1のテキストを含む第2のテキストについて、発話表現に応じた複数のシンボルのうちの何れかを出力する発話表現推測部、発話に関する音声特徴量に基づく発話表現に応じたベクトルを何れかのシンボルに変換して発話表現に応じたベクトルである離散化発話表現ベクトルを生成する離散表現抽出部、第1のテキストを含む発話情報に基づく言語情報ベクトルと離散化発話表現ベクトルとに基づいて音声特徴量を生成する系列変換部及び教師音声特徴量と発話情報との組である学習データを用いて、系列変換部が生成する音声特徴量が当該教師音声特徴量に近付くように離散表現抽出部、系列変換部及び発話表現推測部のパラメータを更新する学習部を有する。
【選択図】図2
特許請求の範囲【請求項1】
発話の内容を示す第1のテキストを含む第2のテキストについて、発話表現に応じた複数のシンボルのうちのいずれかを出力するように構成されている発話表現推測部と、
前記発話に関する音声特徴量に基づく発話表現に応じたベクトルをいずれかの前記シンボルに変換し、当該シンボルから発話表現に応じたベクトルである離散化発話表現ベクトルを生成するように構成されている離散表現抽出部と、
前記第1のテキストを含む発話情報に基づく言語情報ベクトルと前記離散化発話表現ベクトルとに基づいて音声特徴量を生成するように構成されている系列変換部と、
教師音声特徴量と発話情報との組である学習データを用いて、当該教師音声特徴量について前記離散表現抽出部が生成した前記離散化発話表現ベクトルと当該発話情報とについて前記系列変換部が生成する音声特徴量が当該教師音声特徴量に近付くように前記離散表現抽出部及び前記系列変換部のパラメータを更新し、当該発話情報に係るテキストを一部に含むテキストについて学習済みの前記発話表現推測部が出力した前記シンボルから前記離散表現抽出部が生成した前記離散化発話表現ベクトルと当該発話情報とについて学習済みの前記系列変換部が生成する音声特徴量が当該教師音声特徴量に近付くように前記発話表現推測部のパラメータを更新するように構成されている学習部と、
を有することを特徴とする音声合成学習装置。
続きを表示(約 2,400 文字)【請求項2】
発話の内容を示す第1のテキストを含む第2のテキストについて、発話表現に応じた複数のシンボルのうちのいずれかを出力するように構成されている発話表現推測部と、
前記発話表現推測部が出力した前記シンボルから発話表現に応じたベクトルである離散化発話表現ベクトルを生成するように構成されている離散表現抽出部と、
前記第1のテキストを含む発話情報に基づく言語情報ベクトルと前記離散化発話表現ベクトルとに基づいて音声特徴量を生成するように構成されている系列変換部と、
を有し、
前記離散表現抽出部は、学習時においては、発話に関する音声特徴量に基づく発話表現に応じたベクトルをいずれかの前記シンボルに変換し、当該シンボルから前記離散化発話表現ベクトルを生成するように構成されており、
前記離散表現抽出部及び前記系列変換部のパラメータは、教師音声特徴量と発話情報との組である学習データを用いて、当該教師音声特徴量について前記離散表現抽出部が生成した前記離散化発話表現ベクトルと当該発話情報とについて前記系列変換部が生成する音声特徴量が当該教師音声特徴量に近付くように学習され、前記発話表現推測部のパラメータは、当該発話情報に係るテキストを一部に含むテキストについて学習済みの前記発話表現推測部が出力した前記シンボルから前記離散表現抽出部が生成した前記離散化発話表現ベクトルと当該発話情報とについて学習済みの前記系列変換部が生成する音声特徴量が当該教師音声特徴量に近付くように学習されている、
ことを特徴とする音声合成装置。
【請求項3】
いずれかの前記シンボルに対応する情報の入力をユーザから受け付けるように構成されている受付部を有し、
前記離散表現抽出部は、前記受付部が受け付けた情報に対応する前記シンボルから、発話表現に応じた離散化発話表現ベクトルを生成するように構成されている、
ことを特徴とする請求項2記載の音声合成装置。
【請求項4】
前記系列変換部が生成した音声特徴量に基づく合成音声を出力するように構成されている出力部、
を有し、
前記受付部は、前記合成音声が出力された後で、いずれかの前記シンボルに対応する情報をユーザから受け付けるように構成されている、
ことを特徴とする請求項3記載の音声合成装置。
【請求項5】
発話の内容を示す第1のテキストを含む第2のテキストについて、発話表現に応じた複数のシンボルのうちのいずれかを出力する発話表現推測手順と、
前記発話に関する音声特徴量に基づく発話表現に応じたベクトルをいずれかの前記シンボルに変換し、当該シンボルから発話表現に応じたベクトルである離散化発話表現ベクトルを生成する離散表現抽出手順と、
前記第1のテキストを含む発話情報に基づく言語情報ベクトルと前記離散化発話表現ベクトルとに基づいて音声特徴量を生成する系列変換手順と、
教師音声特徴量と発話情報との組である学習データを用いて、当該教師音声特徴量について前記離散表現抽出手順が生成した前記離散化発話表現ベクトルと当該発話情報とについて前記系列変換手順が生成する音声特徴量が当該教師音声特徴量に近付くように前記離散表現抽出手順及び前記系列変換手順のパラメータを更新し、当該発話情報に係るテキストを一部に含むテキストについて学習済みの前記発話表現推測手順が出力した前記シンボルから前記離散表現抽出手順が生成した前記離散化発話表現ベクトルと当該発話情報とについて学習済みの前記系列変換手順が生成する音声特徴量が当該教師音声特徴量に近付くように前記発話表現推測手順のパラメータを更新する学習手順と、
をコンピュータが実行することを特徴とする音声合成学習方法。
【請求項6】
発話の内容を示す第1のテキストを含む第2のテキストについて、発話表現に応じた複数のシンボルのうちのいずれかを出力する発話表現推測手順と、
前記発話表現推測手順が出力した前記シンボルから発話表現に応じたベクトルである離散化発話表現ベクトルを生成する離散表現抽出手順と、
前記第1のテキストを含む発話情報に基づく言語情報ベクトルと前記離散化発話表現ベクトルとに基づいて音声特徴量を生成する系列変換手順と、
をコンピュータが実行し、
前記離散表現抽出手順は、学習時においては、発話に関する音声特徴量に基づく発話表現に応じたベクトルをいずれかの前記シンボルに変換し、当該シンボルから前記離散化発話表現ベクトルを生成し、
前記離散表現抽出手順及び前記系列変換手順のパラメータは、教師音声特徴量と発話情報との組である学習データを用いて、当該教師音声特徴量について前記離散表現抽出手順が生成した前記離散化発話表現ベクトルと当該発話情報とについて前記系列変換手順が生成する音声特徴量が当該教師音声特徴量に近付くように学習され、前記発話表現推測手順のパラメータは、当該発話情報に係るテキストを一部に含むテキストについて学習済みの前記発話表現推測手順が出力した前記シンボルから前記離散表現抽出手順が生成した前記離散化発話表現ベクトルと当該発話情報とについて学習済みの前記系列変換手順が生成する音声特徴量が当該教師音声特徴量に近付くように学習されている、
ことを特徴とする音声合成方法。
【請求項7】
請求項5記載の音声合成学習方法をコンピュータに実行させることを特徴とするプログラム。
【請求項8】
請求項6記載の音声合成方法をコンピュータに実行させることを特徴とするプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、音声合成学習装置、音声合成装置、音声合成学習方法、音声合成方法及びプログラムに関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
音声合成の分野で、Deep Neural Network(DNN)に基づく音声合成技術が提案されている。この技術では、従来の手法に対し高品質な合成音声が生成可能であることが知られている。
【0003】
一方で、上記技術による合成音声とナレータ等による絵本等の読上げ音声とを比較すると、抑揚の自然性等に大きな差が存在する。この要因の一つとして、音声合成技術では、絵本等のテキストから得られる読みやアクセント等の言語的な情報のみから合成音声を生成している点が挙げられる。これに対し、ナレータ等が絵本等を読上げる場合は、テキストから得られる読みやアクセント等だけでなく、当該文章やその周辺の長期的な文脈等から推測されるキャラクタの話者性や感情等の情報を活用して発声が行われる。この目的のために、非特許文献1では学習データ(声優等が絵本等を読上げた音声データとそのテキスト)の音声中に含まれる話者性、感情をモデル化し、それをBERT等の大規模言語モデルを用いてテキスト情報から推測することで合成音声の表現力を向上させている。
【先行技術文献】
【非特許文献】
【0004】
LEI, Shun, et al.、"Towards Expressive Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech Synthesis"、arXiv preprint arXiv:2203.12201, 2022
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、モデル化される話者性や感情の情報は数十~数百次元の連続値のベクトルで表現されるため、音声合成時に推定された話者性、感情をユーザが解釈するのは困難である。
【0006】
本発明は、上記の点に鑑みてなされたものであって、音声合成時に推定された発話の表現をユーザに解釈可能な形式で表現可能とすることを目的とする。
【課題を解決するための手段】
【0007】
そこで上記課題を解決するため、音声合成学習装置は、発話の内容を示す第1のテキストを含む第2のテキストについて、発話表現に応じた複数のシンボルのうちのいずれかを出力するように構成されている発話表現推測部と、前記発話に関する音声特徴量に基づく発話表現に応じたベクトルをいずれかの前記シンボルに変換し、当該シンボルから発話表現に応じたベクトルである離散化発話表現ベクトルを生成するように構成されている離散表現抽出部と、前記第1のテキストを含む発話情報に基づく言語情報ベクトルと前記離散化発話表現ベクトルとに基づいて音声特徴量を生成するように構成されている系列変換部と、教師音声特徴量と発話情報との組である学習データを用いて、当該教師音声特徴量について前記離散表現抽出部が生成した前記離散化発話表現ベクトルと当該発話情報とについて前記系列変換部が生成する音声特徴量が当該教師音声特徴量に近付くように前記離散表現抽出部及び前記系列変換部のパラメータを更新し、当該発話情報に係るテキストを一部に含むテキストについて学習済みの前記発話表現推測部が出力した前記シンボルから前記離散表現抽出部が生成した前記離散化発話表現ベクトルと当該発話情報とについて学習済みの前記系列変換部が生成する音声特徴量が当該教師音声特徴量に近付くように前記発話表現推測部のパラメータを更新するように構成されている学習部と、を有する。
【発明の効果】
【0008】
音声合成時に推定された発話の表現をユーザに解釈可能な形式で表現可能とすることができる。
【図面の簡単な説明】
【0009】
本発明の実施の形態における音声合成装置10のハードウェア構成例を示す図である。
本発明の実施の形態の学習フェーズにおける音声合成装置10の機能構成例を示す図である。
学習フェーズにおいて音声合成装置10が実行する第1の処理手順の一例を説明するためのフローチャートである。
学習フェーズの第1の処理手順における離散表現抽出部133を説明するための図である。
学習フェーズにおいて音声合成装置10が実行する第2の処理手順の一例を説明するためのフローチャートである。
学習フェーズの第2の処理手順における離散表現抽出部133を説明するための図である。
本発明の実施の形態の推定フェーズにおける音声合成装置10の機能構成例を示す図である。
推定フェーズにおいて音声合成装置10が実行する処理手順の一例を説明するためのフローチャートである。
発話表現シンボルの選択をユーザから受け付けるための画面例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における音声合成装置10のハードウェア構成例を示す図である。図1の音声合成装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、及びインタフェース装置105等を有する。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

日本電信電話株式会社
三次元形状計測方法
3日前
個人
メガホン
17日前
個人
リアルタイム翻訳システム
1か月前
個人
音鳴らし具
7日前
個人
グランドピアノの鍵盤支持構造
3日前
個人
10デジタルサラウンドラジオ
1か月前
三井化学株式会社
遮音構造体
22日前
合同会社Bootstrap
弦楽器
14日前
三井化学株式会社
遮音構造体
1か月前
個人
補助譜面台及び補助譜面台セット
6日前
株式会社イノアックコーポレーション
防音材
8日前
三菱電機株式会社
吸音体
16日前
旭化成株式会社
内装吸音材
17日前
トヨタ自動車株式会社
音声制御装置
1か月前
矢崎総業株式会社
車両用対話システム
28日前
矢崎総業株式会社
車両用対話システム
28日前
矢崎総業株式会社
車両用対話システム
28日前
ヤマハ株式会社
情報処理方法
15日前
トヨタ自動車株式会社
音声出力装置
3日前
矢崎総業株式会社
車両用対話システム
28日前
矢崎総業株式会社
車両用対話システム
28日前
矢崎総業株式会社
車両用対話システム
28日前
ヤマハ株式会社
情報処理方法
15日前
株式会社第一興商
カラオケ装置
24日前
ヤマハ株式会社
鍵盤楽器
1か月前
ヤマハ株式会社
鍵盤装置
23日前
ヤマハ株式会社
管楽器用部品及び管楽器
2日前
トヨタ自動車株式会社
車両
16日前
株式会社しくみ
音声翻訳プログラム
1か月前
株式会社Gottsu
サキソフォーン向けねじ込み式スクリュー
1か月前
学校法人 工学院大学
音響拡散パネル
23日前
日本放送協会
音声認識装置およびプログラム
28日前
国立研究開発法人産業技術総合研究所
実況音声生成システム
20日前
個人
メガホン
17日前
株式会社エクシング
携帯端末用プログラム、及び、カラオケシステム
28日前
トヨタ自動車株式会社
車両用ホーンシステム
今日
続きを見る