TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025053973
公報種別
公開特許公報(A)
公開日
2025-04-07
出願番号
2023163118
出願日
2023-09-26
発明の名称
音声合成装置および音声合成方法
出願人
株式会社JVCケンウッド
代理人
弁理士法人酒井国際特許事務所
主分類
G10L
21/007 20130101AFI20250331BHJP(楽器;音響)
要約
【課題】表現力のある合成音声で会話を実現すること。
【解決手段】音声合成装置は、話者の発する音声を取得する音声取得部と、取得した音声を音素列に変換する音声認識部と、音素列を合成音声に変換して出力する音声合成部と、話者の画像を取得する画像取得部と、取得した画像から口唇の動きのパターンを認識する画像認識部と、認識した口唇の動きパターンに基づいたフィルタで合成音声を補正する音声補正部と、を備える。
【選択図】図1
特許請求の範囲
【請求項1】
話者の発する音声を取得する音声取得部と、
前記取得した音声を音素列に変換する音声認識部と、
前記音素列を合成音声に変換して出力する音声合成部と、
前記話者の画像を取得する画像取得部と、
取得した前記画像から口唇の動きのパターンを認識する画像認識部と、
認識した前記口唇の動きパターンに基づいたフィルタで前記合成音声を補正する音声補正部と、
を備える、音声合成装置。
続きを表示(約 550 文字)
【請求項2】
前記音声補正部は、学習済みモデルを用いて、前記フィルタを推論し、
前記学習済みモデルは、前記話者の発する音素と、口唇の動きパターンとの組み合わせを入力とし、前記音素に対応する前記合成音声を補正する前記フィルタを出力するように生成されている、
請求項1に記載の音声合成装置。
【請求項3】
前記学習済みモデルは、前記話者ごとに生成されている、
請求項2に記載の音声合成装置。
【請求項4】
前記画像認識部は、取得した前記画像から前記話者の表情を認識し、
前記音声補正部は、認識した前記話者の表情に基づいた前記フィルタで前記合成音声を補正する、
請求項1に記載の音声合成装置。
【請求項5】
話者の発する音声を取得するステップと、
前記取得した音声を音素列に変換するステップと、
前記音素列を合成音声に変換して出力するステップと、
前記話者の画像を取得するステップと、
取得した前記画像から口唇の動きのパターンを認識するステップと、
認識した前記口唇の動きパターンに基づいたフィルタで前記合成音声を補正するステップと、
を含む、音声合成方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は、音声合成装置および音声合成方法に関する。
続きを表示(約 1,400 文字)
【背景技術】
【0002】
話者の音声を合成する技術が知られている。特許文献1には、唇の動きや手話を表現した映像を音声情報に合成する技術が知られている。特許文献2には、アニメーションのような多重媒体と、合成音との自然な連動を具現することのできる技術が知られている。
【先行技術文献】
【特許文献】
【0003】
特開平11-226050号公報
特開平10-320170号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年の声質変換・音声合成技術は、対象の話者らしい声質を保ったまま、自由に文章を読み上げることができる。しかしながら、従来の技術では、話者らしい声質の再現に重点を置いているため、抑揚に乏しい、または話速が均一になるなど、実際の会話に含まれる揺らぎを表現できないため、表現力に欠けることも多い。
【0005】
本発明は、表現力のある合成音声で会話を実現することのできる音声合成装置および音声合成方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の音声合成装置は、話者の発する音声を取得する音声取得部と、前記取得した音声を音素列に変換する音声認識部と、前記音素列を合成音声に変換して出力する音声合成部と、前記話者の画像を取得する画像取得部と、取得した前記画像から口唇の動きのパターンを認識する画像認識部と、認識した前記口唇の動きパターンに基づいたフィルタで前記合成音声を補正する音声補正部と、を備える。
【0007】
本発明の音声合成方法は、話者の発する音声を取得するステップと、前記取得した音声を音素列に変換するステップと、前記音素列を合成音声に変換して出力するステップと、前記話者の画像を取得するステップと、取得した前記画像から口唇の動きのパターンを認識するステップと、認識した前記口唇の動きパターンに基づいたフィルタで前記合成音声を補正するステップと、を含む。
【発明の効果】
【0008】
本発明によれば、表現力のある合成音声で会話を実現することができる。
【図面の簡単な説明】
【0009】
図1は、第1実施形態に係る音声合成システムの構成例を示すブロック図である。
図2は、第1実施形態に係る音素の推定結果の一例を示す図である。
図3は、第1実施形態に係る補正テーブルの第1の例を示す図である。
図4は、第1実施形態に係る補正テーブルの第2の例を示す図である。
図5は、第1実施形態に係る音声合成方法の流れを示すフローチャートである。
図6は、第2実施形態に係る学習装置の構成例を示すブロック図である。
図7は、第2実施形態に係る音声合成システムの構成例を示すブロック図である。
図8は、第2実施形態に係る音声合成方法の流れを示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して、本発明に係る実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではなく、また、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
10デジタルサラウンドラジオ
4日前
三井化学株式会社
遮音構造体
13日前
トヨタ自動車株式会社
音声制御装置
12日前
ヤマハ株式会社
鍵盤楽器
12日前
株式会社しくみ
音声翻訳プログラム
14日前
株式会社Gottsu
サキソフォーン向けねじ込み式スクリュー
6日前
株式会社田中
防音材を充填した金属パイプ
19日前
カシオ計算機株式会社
電子楽器、方法およびプログラム
6日前
カシオ計算機株式会社
楽音処理装置、方法およびプログラム
6日前
日本放送協会
演奏箇所追跡装置及びそのプログラム
4日前
ビーサイズ株式会社
情報処理装置、情報処理端末、情報処理方法、情報処理プログラム
4日前
カシオ計算機株式会社
センサ装置、電子機器、および電子楽器
12日前
Wovn Technologies株式会社
動画編集装置及びプログラム
4日前
カシオ計算機株式会社
情報処理装置、電子楽器、発音制御方法及びプログラム
6日前
株式会社博報堂
音声データ分析装置、音声データ分析方法およびコンピュータプログラム
14日前
ヤマハ株式会社
音声処理方法、音声処理システム、プログラムおよび音声処理ソフトウェア
5日前
ヤマハ株式会社
信号処理装置、弦楽器、及びプログラム
12日前
ヤマハ株式会社
スピーカ付きパーティションシステム
6日前
国立大学法人 東京大学
楽器用樹脂構造体および楽器用樹脂構造体の製造方法
14日前
ギャラクシー・ネット株式会社
楽曲制作支援プログラム、楽曲制作支援装置、楽曲制作支援方法、及び音楽再生装置
12日前
ドルビー・インターナショナル・アーベー
後処理遅延低減との高周波再構成技術の統合
14日前
ヒシャブ シンガポール プライベート リミテッド
対話型音声応答システム内でのユーザ対話セッションを最適化するシステム及び方法
15日前
ドルビー・インターナショナル・アーベー
後処理遅延低減との高周波再構成技術の統合
14日前
ドルビー・インターナショナル・アーベー
後処理遅延低減との高周波再構成技術の統合
14日前
ドルビー・インターナショナル・アーベー
後処理遅延低減との高周波再構成技術の統合
14日前
ドルビー・インターナショナル・アーベー
後処理遅延低減との高周波再構成技術の統合
14日前
グーグル エルエルシー
選択されたサジェスチョンによる自動アシスタントへのボイス入力の補足
6日前
ピンドロップ セキュリティー、インコーポレイテッド
ディープニューラルネットワークを使用する端末間話者認識
19日前
ドルビー ラボラトリーズ ライセンシング コーポレイション
変更されたビットストリームを生成および処理する方法およびデバイス
6日前
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
マルチチャンネル信号を符号化又は復号化するための装置と方法
13日前
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
情報処理方法及び情報処理装置
6日前
ナンチン リーズ バイオラブス カンパニー,リミティド
4-1BBに結合する抗体およびその用途
6日前
他の特許を見る