TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025108262
公報種別公開特許公報(A)
公開日2025-07-23
出願番号2024002076
出願日2024-01-10
発明の名称音声波形生成システム、音声波形生成方法、および、音声波形生成プログラム
出願人国立研究開発法人情報通信研究機構
代理人弁理士法人深見特許事務所
主分類G10L 13/10 20130101AFI20250715BHJP(楽器;音響)
要約【課題】音声波形生成をより高速化するとともに、品質をより改善することができる系列変換型End-to-endモデルを提供する。
【解決手段】音声波形生成システムは、入力される第1の特徴量から第2の特徴量を予測する音響モデルと、第2の特徴量から音声波形を予測する波形生成モデルとを含む。音響モデルは、第1の特徴量を連続表現に変換するためのデコーダと、連続表現から各音素の継続長を予測するバリアンスアダプタと、バリアンスアダプタの出力から第2の特徴量を予測するエンコーダとを含む。エンコーダおよびデコーダの各々は、深さ単位畳み込み層と、層正規化ブロックと、点単位畳み込み層と、ガウス誤差線形ユニットとを含む。
【選択図】図4
特許請求の範囲【請求項1】
入力される第1の特徴量から第2の特徴量を予測する音響モデルと、
前記第2の特徴量から音声波形を予測する波形生成モデルとを備え、
前記音響モデルは、前記第1の特徴量を連続表現に変換するためのエンコーダと、前記連続表現から各音素の継続長を予測するバリアンスアダプタと、前記バリアンスアダプタの出力から前記第2の特徴量を予測するデコーダとを含み、
前記エンコーダおよび前記デコーダの各々は、深さ単位畳み込み層と、層正規化ブロックと、点単位畳み込み層と、ガウス誤差線形ユニットとを含む、音声波形生成システム。
続きを表示(約 1,000 文字)【請求項2】
前記第1の特徴量は、テキストから生成される言語特徴量、および、メルスペクトログラムから生成される音響特徴量のうち少なくとも一方を含む、請求項1に記載の音声波形生成システム。
【請求項3】
前記波形生成モデルは、1次元畳み込み層と、層正規化ブロックと、ConvNeXtブロックと、線形化層と、リシェイプ層とを含み、
ConvNeXtブロックの各々は、前記エンコーダおよび前記デコーダと同じネットワーク構造を有している、請求項1または2に記載の音声波形生成システム。
【請求項4】
前記波形生成モデルは、第1の1次元畳み込み層と、第2の1次元畳み込み層と、前記第1の1次元畳み込み層と前記第2の1次元畳み込み層との間に配置された複数段の転置畳み込み層とを含む、請求項1または2に記載の音声波形生成システム。
【請求項5】
音響モデルを用いて、入力される第1の特徴量から第2の特徴量を予測するステップと、
波形生成モデルを用いて、前記第2の特徴量から音声波形を予測するステップとを備え、
前記第2の特徴量を予測するステップは、
深さ単位畳み込み層と、層正規化ブロックと、点単位畳み込み層と、ガウス誤差線形ユニットとを含むエンコーダにより、前記第1の特徴量を連続表現に変換するステップと、
前記連続表現から各音素の継続長を予測するステップと、
深さ単位畳み込み層と、層正規化ブロックと、点単位畳み込み層と、ガウス誤差線形ユニットとを含むデコーダにより、前記予測された継続長から前記第2の特徴量を予測するステップとを含む、音声波形生成方法。
【請求項6】
音声波形生成プログラムであって、コンピュータに、
音響モデルを用いて、入力される第1の特徴量から第2の特徴量を予測するステップと、
波形生成モデルを用いて、前記第2の特徴量から音声波形を予測するステップとを実行させ、
前記音響モデルは、前記第1の特徴量を連続表現に変換するためのエンコーダと、前記連続表現から各音素の継続長を予測するバリアンスアダプタと、前記バリアンスアダプタの出力から前記第2の特徴量を予測するデコーダとを含み、
前記エンコーダおよび前記デコーダの各々は、深さ単位畳み込み層と、層正規化ブロックと、点単位畳み込み層と、ガウス誤差線形ユニットとを含む、音声波形生成プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、音声波形生成システム、音声波形生成方法、および、音声波形生成プログラムに関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
ここ数年で、ニューラルネットワークを用いた音声合成・声質変換技術は大きく進展している。その結果、実験条件によっては、自然音声とほぼ変わらない高品質な合成が可能となっている。
【0003】
さらに、単一のニューラルネットワークを用いて、テキストから音声波形を直接生成する系列変換型End-to-endテキスト音声合成モデル、および、単一のニューラルネットワークを用いて、変換元音声から変換先音声波形を直接生成する系列変換型End-to-end声質変換モデルが提案されている。
【0004】
より具体的には、系列変換型のテキスト音声合成モデルおよび/または声質変換モデルのエンコーダおよび/またはデコーダには、機械翻訳タスクにおいて提案されたTransformer型ニューラルネットワークが広く用いられている(非特許文献1および2など参照)。Transformer型ニューラルネットワークを用いたモデルは、自己回帰モデルであるため、より多くの生成時間が必要となるが、入出力のアライメントを別モデルで習得することにより、非自己回帰型の高速モデルを実現できる(非特許文献3および4など参照)。非自己回帰型の高速モデルとニューラル波形生成モデルとを同時学習することにより、単一のニューラルネットワークを用いた、系列変換型End-to-endテキスト音声合成モデルおよび/または系列変換型End-to-end声質変換モデルを構築できる。このようなモデルは、従来モデルを凌ぐ性能を達成している(非特許文献5および6など参照)。
【先行技術文献】
【非特許文献】
【0005】
N. Li, S. Liu, Y. Liu, S. Zhao, M. Liu, and M. Zhou, "Neural speech synthesis with Transformer network," in Proc. AAAI, Jan. 2019, pp. 6706-6713.
R. Liu, X. Chen, and X. Wen, "Voice conversion with transformer network," in Proc. ICASSP, May 2020, pp. 7759-7763
Y. Ren, Y. Ruan, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu, "FastSpeech: Fast, robust and controllable text to speech," in Proc. NeurIPS, Dec. 2019, pp. 3165-3174.
T. Hayashi, W.-C. Huang, K. Kobayashi, and T. Toda, "Non-autoregressive sequence-to-sequence voice conversion," in Proc. ICASSP, June 2021, pp. 7068-7072.
D. Lim, S. Jung, and E. Kim, "JETS: Jointly training Fast-Speech2 and HiFi-GAN for end to end text to speech," in Proc. Interspeech, Sept. 2022, pp. 21-25.
T. Okamoto, T. Toda, and H. Kawai, "E2E-S2S-VC: End-to-end sequence-to-sequence voice conversion," in Proc. Interspeech, Aug. 2023, pp. 2043-2047
【発明の概要】
【発明が解決しようとする課題】
【0006】
系列変換型End-to-endテキスト音声合成モデルおよび系列変換型End-to-end声質変換モデル(以下、「系列変換型End-to-endモデル」とも総称する。)を用いることにより、従来モデルを凌ぐ性能を達成しているが、自然音声の品質までは到達していない。
【0007】
また、提案されている系列変換型End-to-endモデルにおいても、CPUの1コアの処理リソースであっても、リアルタイムに音声波形生成が可能であるが、モバイル端末でのリアルタイムの音声波形生成などを考慮すると、処理速度のさらなる高速化も必要になる。
【0008】
本発明は、音声波形生成をより高速化するとともに、品質をより改善することができる系列変換型End-to-endモデルを提供することを目的とする。
【課題を解決するための手段】
【0009】
ある実施の形態に従う音声波形生成システムは、入力される第1の特徴量から第2の特徴量を予測する音響モデルと、第2の特徴量から音声波形を予測する波形生成モデルとを含む。音響モデルは、第1の特徴量を連続表現に変換するためのエンコーダと、連続表現から各音素の継続長を予測するバリアンスアダプタと、バリアンスアダプタの出力から第2の特徴量を予測するデコーダとを含む。エンコーダおよびデコーダの各々は、深さ単位畳み込み層と、層正規化ブロックと、点単位畳み込み層と、ガウス誤差線形ユニットとを含む。
【0010】
第1の特徴量は、テキストから生成される言語特徴量、および、メルスペクトログラムから生成される音響特徴量のうち少なくとも一方を含んでいてもよい。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

三井化学株式会社
遮音構造体
1か月前
三井化学株式会社
遮音構造体
1か月前
富士フイルム株式会社
消音器
2日前
個人
弦楽器用押弦補助具及び弦楽器
1か月前
三井化学株式会社
吸音構造体
26日前
三井化学株式会社
遮音構造体
1か月前
林テレンプ株式会社
防音カバー
1か月前
株式会社ドクター中松創研
歌及び歌の制作方法
1か月前
ヤマハ株式会社
弦楽器用の支持装置
2日前
富士フイルム株式会社
消音器付き風路
2日前
株式会社総合車両製作所
吸音パネル
25日前
株式会社JVCケンウッド
車載装置
1か月前
株式会社HOWA
遮音構造
1か月前
個人
電気自動車等の「接近音」における最適な「音の種類」
1か月前
株式会社レゾナック
吸音材及び車両部材
18日前
カシオ計算機株式会社
楽器
1か月前
株式会社JVCケンウッド
情報処理装置及び情報処理方法
26日前
株式会社第一興商
カラオケ装置
11日前
株式会社第一興商
カラオケ装置
26日前
個人
電子管楽器
1か月前
株式会社第一興商
カラオケ装置
25日前
株式会社コルグ
電子楽器用アナログエフェクタ
24日前
ヤマハ株式会社
鍵盤装置
3日前
有限会社舞システム企画
介護情報生成システム
2日前
ヤマハ株式会社
連打判定装置および方法、プログラム
12日前
シャープ株式会社
制御装置、電気機器、およびシステム
5日前
川上産業株式会社
吸音シート
1か月前
トヨタ自動車株式会社
制御装置
6日前
ヤマハ株式会社
発音制御装置
1か月前
トヨタ自動車株式会社
電気自動車
1か月前
AOBAENERGY株式会社
サービス提供機器
1か月前
トヨタ自動車株式会社
音響式遮音材の製造方法
1か月前
本田技研工業株式会社
音声認識方法および音声認識装置
4日前
井関農機株式会社
作業車の操縦者用騒音低減装置
25日前
日本電波工業株式会社
音声再生装置及び音声再生方法
25日前
ローランド株式会社
鍵盤装置および鍵の揺動の規制方法
26日前
続きを見る