TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025097122
公報種別公開特許公報(A)
公開日2025-06-30
出願番号2023213233
出願日2023-12-18
発明の名称音声波形生成システム、音声波形生成方法、および、音声波形予測プログラム
出願人国立研究開発法人情報通信研究機構
代理人弁理士法人深見特許事務所
主分類G10L 13/047 20130101AFI20250623BHJP(楽器;音響)
要約【課題】ニューラルボコーダの音声品質を維持しつつ、信号処理型ボコーダと同程度の処理速度および基本周波数の制御性を有する音声波形生成技術を提供することを目的とする。
【解決手段】音声波形生成システム1は、入力された音響特徴量に基づいて予測音声波形を出力する音声波形予測部100を含む。音声波形予測部は、基本周波数に同期する成分を含む音源信号を生成する音源信号生成部102と、音響特徴量の少なくとも一部に基づいて、少なくとも1つの有限インパルス応答を予測する有限インパルス応答予測部110、112と、音源信号に少なくとも1つの有限インパルス応答を重畳する有限インパルス応答重畳部114、116と、を含む。
【選択図】図1
特許請求の範囲【請求項1】
入力された音響特徴量に基づいて予測音声波形を出力する音声波形予測部を備え、
前記音声波形予測部は、
基本周波数に同期する成分を含む音源信号を生成する音源信号生成部と、
前記音響特徴量の少なくとも一部に基づいて、少なくとも1つの有限インパルス応答を予測する有限インパルス応答予測部と、
前記音源信号に前記少なくとも1つの有限インパルス応答を重畳する有限インパルス応答重畳部とを備える、音声波形生成システム。
続きを表示(約 630 文字)【請求項2】
前記有限インパルス応答予測部は、前記音源信号に前記少なくとも1つの有限インパルス応答を畳み込む、請求項1に記載の音声波形生成システム。
【請求項3】
前記音源信号は、前記基本周波数とは独立したノイズ成分を含む、請求項1に記載の音声波形生成システム。
【請求項4】
前記少なくとも1つの有限インパルス応答は、共振特性を表す有限インパルス応答を含む、請求項1に記載の音声波形生成システム。
【請求項5】
入力された音響特徴量に基づいて予測音声波形を出力する音声波形生成方法であって、
基本周波数に同期する成分を含む音源信号を生成するステップと、
前記音響特徴量の少なくとも一部に基づいて、少なくとも1つの有限インパルス応答を予測するステップと、
前記音源信号に前記少なくとも1つの有限インパルス応答を重畳するステップとを備える、音声波形生成方法。
【請求項6】
入力された音響特徴量に基づいて予測音声波形を出力する音声波形予測プログラムであって、コンピュータに、
基本周波数に同期する成分を含む音源信号を生成するステップと、
前記音響特徴量の少なくとも一部に基づいて、少なくとも1つの有限インパルス応答を予測するステップと、
前記音源信号に前記少なくとも1つの有限インパルス応答を重畳するステップとを実行させる、音声波形予測プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、入力された音響特徴量に基づいて予測音声波形を出力する音声波形生成システム、音声波形生成方法および音声波形予測プログラム、ならびに、音声波形予測モデルを学習するための学習システム、音声波形予測モデルの学習方法および音声波形予測モデルを学習するための学習プログラムに関する。
続きを表示(約 2,600 文字)【背景技術】
【0002】
近年、深層学習を用いた音声技術の性能は飛躍的に向上している。これに伴って、深層学習を用いた音声技術の普及も急速に広がっている。特に、テキスト音声合成(Text-to-speech synthesis:TTS)技術においては、ニューラルボコーダを採用することで、出力される音声品質は、人の発話とほぼ同様のレベルに達している。
【0003】
一方で、ニューラルボコーダは、従来のテキスト音声合成製品(例えば、非特許文献1に示す信号処理型ボコーダ)と比較して処理速度が遅いという課題も存在する。また、ニューラルボコーダは、従来のテキスト音声合成製品が有していた機能、特に、音高を表す基本周波数(F0)の制御性に制約が存在しており、実用上の課題となっている。
【0004】
例えば、基本周波数依存型拡張畳み込みネットワークの導入により基本周波数を制御することが提案されている(非特許文献2)。
【0005】
また、人の音源と声道情報とが独立であると仮定している発声機構を、モデル化したソースフィルタモデルに基づいた手法により基本周波数を制御することも提案されている(非特許文献3)。
【0006】
さらに、上述の2つの技術を組み合わせることで、処理を高速化する手法が提案されている(非特許文献4)。
【先行技術文献】
【非特許文献】
【0007】
Morise, M., Yokomori, F., and Ozawa, K., "WORLD: A Vocoder-Based High-Quality Speech Synthesis System for Real-Time Applications", IEICE Transactions on Information and Systems, vol. 99, no. 7, pp. 1877-1884, 2016. doi:10.1587/transinf.2015EDP7457.
Y. -C. Wu, T. Hayashi, P. L. Tobing, K. Kobayashi and T. Toda, "Quasi-Periodic WaveNet: An Autoregressive Raw Waveform Generative Model With Pitch-Dependent Dilated Convolution Neural Network", in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 1134-1148, 2021, doi: 10.1109/TASLP.2021.3061245.
X. Wang, S. Takaki and J. Yamagishi, "Neural Source-Filter Waveform Models for Statistical Parametric Speech Synthesis", in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 402-415, 2020, doi: 10.1109/TASLP.2019.2956145.
Yoneyama, Reo et al. "Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural Vocoder", ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022): 1-5.
S. Woo, S. Debnath, R. Hu, X. Chen, Z. Liu, I.-S. Kweon, and S. Xie, "ConvNeXt V2: Co-designing and scaling convnets with masked autoencoders", Proc. CVPR, pp. 16133-16142,2023.
【発明の概要】
【発明が解決しようとする課題】
【0008】
ニューラルボコーダでは、上述したような様々な工夫により基本周波数の制御を実現しているが、従来の信号処理型ボコーダと比較すると、十分な基本周波数の制御性は得られない。例えば、基本周波数の制御範囲について見ると、信号処理型ボコーダの制御範囲には制限がない一方で、ニューラルボコーダの制御範囲は0.5~2倍程度と狭い。また、処理速度について見ると、高速なニューラルボコーダであっても、信号処理型ボコーダの1/5倍以下と遅い。十分な処理速度が得られない理由として、既存のニューラルボコーダにおいては、音声波形のベースとなる音源信号に対して、深いニューラルネットワークを直接適用していることが考えられる。また、既存のニューラルボコーダにおいては、ネットワーク構造が基本周波数に依存しているため、制御可能な範囲も基本周波数に依存することになる。
【0009】
本発明は、ニューラルボコーダの音声品質を維持しつつ、信号処理型ボコーダと同程度の処理速度および基本周波数の制御性を有する音声波形生成技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
ある実施の形態に従う音声波形生成システムは、入力された音響特徴量に基づいて予測音声波形を出力する音声波形予測部を含む。音声波形予測部は、基本周波数に同期する成分を含む音源信号を生成する音源信号生成部と、音響特徴量の少なくとも一部に基づいて、少なくとも1つの有限インパルス応答を予測する有限インパルス応答予測部と、音源信号に少なくとも1つの有限インパルス応答を重畳する有限インパルス応答重畳部とを含む。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

NOK株式会社
吸音構造体
28日前
三井化学株式会社
遮音構造体
5日前
三井化学株式会社
遮音構造体
12日前
三井化学株式会社
吸音構造体
今日
個人
弦楽器用押弦補助具及び弦楽器
5日前
三井化学株式会社
遮音構造体
5日前
林テレンプ株式会社
防音カバー
5日前
株式会社ドクター中松創研
歌及び歌の制作方法
15日前
株式会社ワコール
繊維構造体
27日前
株式会社JVCケンウッド
車載装置
6日前
株式会社大同工業所
警報器及び警報システム
28日前
株式会社HOWA
遮音構造
12日前
個人
電気自動車等の「接近音」における最適な「音の種類」
8日前
カシオ計算機株式会社
楽器
12日前
株式会社第一興商
カラオケ装置
29日前
株式会社第一興商
カラオケ装置
今日
個人
電子管楽器
5日前
株式会社JVCケンウッド
情報処理装置及び情報処理方法
今日
ヤマハ株式会社
発音制御装置
6日前
川上産業株式会社
吸音シート
19日前
ヤマハ株式会社
鍵盤装置用の鍵
21日前
AOBAENERGY株式会社
サービス提供機器
5日前
トヨタ自動車株式会社
電気自動車
7日前
株式会社エクシング
携帯端末用プログラム、及び、カラオケシステム
27日前
株式会社エクサウィザーズ
情報処理方法、プログラム及び情報処理システム
28日前
トヨタ自動車株式会社
音響式遮音材の製造方法
6日前
ローランド株式会社
鍵盤装置および鍵の揺動の規制方法
今日
ローランド株式会社
鍵盤装置および押鍵情報の検出方法
今日
ローランド株式会社
鍵盤装置および押鍵情報の検出方法
今日
株式会社パトライト
メール読み上げテキスト生成プログラム
19日前
ヤマハ株式会社
音響測定装置、音響測定方法および音響測定プログラム
6日前
ブラザー工業株式会社
カラオケシステム、及び、カラオケ装置
今日
カシオ計算機株式会社
音響処理装置、音響処理システム、音響処理方法及びプログラム
13日前
ソニーグループ株式会社
情報処理装置、情報処理方法、およびプログラム
21日前
ピクシーダストテクノロジーズ株式会社
遮音システムおよび区画設備
21日前
株式会社丸高工業
防音板及びその附属品
今日
続きを見る