特許ウォッチ

公開番号2024057180
公報種別公開特許公報(A)
公開日2024-04-24
出願番号2022163721
出願日2022-10-12
発明の名称プログラム、音響処理方法および音響処理システム
出願人ヤマハ株式会社
代理人弁理士法人旺知国際特許事務所
主分類G10L 13/033 20130101AFI20240417BHJP(楽器;音響)
要約【課題】利用者による指示の負荷を軽減しながら、利用者からの指示が反映された目標音を生成する。
【解決手段】音響処理システムは、合成されるべき目標音について第1発音スタイルに対応する音響特性の時系列を表す第1時系列データのうちの第1部分を、利用者からの指示に応じて変更する特性編集部33と、目標音について第1発音スタイルとは異なる第2発音スタイルが指定された場合に、第1部分について利用者からの指示に応じた変更後の音響特性を表し、かつ、第1部分以外の第2部分について第2発音スタイルに対応する音響特性を表す第2時系列データを生成する音響処理部40とを具備する。
【選択図】図2
特許請求の範囲【請求項１】
合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部、および、
前記時系列データを利用者からの指示に応じて変更する特性編集部、
としてコンピュータシステムを機能させるプログラムであって、
前記音響処理部は、前記目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データを生成し、
前記特性編集部は、前記第１時系列データのうちの第１部分を、前記利用者からの指示に応じて変更し、
前記音響処理部は、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する
プログラム。
続きを表示（約 1,300 文字）【請求項２】
前記目標音は、時間軸上の複数の音単位で構成される音声であり、
前記音響特性は、前記複数の音単位の各々の端点の位置を含み、
前記第１部分は、前記第１時系列データが指定する複数の端点のうち前記利用者が位置を変更した端点である
請求項１のプログラム。
【請求項３】
前記音響処理部は、
前記目標音の合成条件を指定する制御データと、前記第１発音スタイルを示す第１スタイルデータとを含む第１入力データを、第１入力データと時系列データとの関係を機械学習により学習した第１推定モデルにより処理することで、前記第１時系列データを生成し、
前記制御データと、前記第２発音スタイルを示す第２スタイルデータとを含む第１入力データを、前記第１推定モデルにより処理することで、前記第２時系列データの前記第２部分を生成する
請求項２のプログラム。
【請求項４】
前記音響処理部は、前記第１推定モデルにより生成された時系列データの一部における音響特性を、前記第１部分における変更後の音響特性に変更することで、前記第２時系列データを生成する
請求項３のプログラム。
【請求項５】
前記音響処理部は、
前記制御データと前記第１時系列データまたは前記第２時系列データとを含む第２入力データを、第２入力データとピッチデータとの関係を機械学習により学習した第２推定モデルにより処理することで、前記目標音のピッチの時系列を表すピッチデータを生成し、
前記第１時系列データまたは前記第２時系列データと、前記ピッチデータとを利用して、前記目標音を表す音響信号を生成する
請求項４のプログラム。
【請求項６】
前記音響処理部は、
前記第１時系列データまたは前記第２時系列データと前記ピッチデータとを含む第３入力データを、第３入力データと音響信号との関係を機械学習により学習した第３推定モデルにより処理することで、前記音響信号を生成する
請求項５のプログラム。
【請求項７】
前記音響特性は、前記目標音のピッチであり、
前記第１部分は、前記第１時系列データが表すピッチの時系列のうち前記利用者が変更を指示した部分である
請求項１のプログラム。
【請求項８】
前記音響特性は、前記目標音の振幅および音色であり、
前記第１部分は、前記第１時系列データが表す振幅および音色の時系列のうち前記利用者が変更を指示した部分である
請求項１のプログラム。
【請求項９】
前記第１発音スタイルおよび前記第２発音スタイルの各々は、相異なる複数の発音スタイルのうち前記利用者からの指示に応じて選択された発音スタイルである
請求項１のプログラム。
【請求項１０】
前記特性編集部は、前記利用者からの指示が適正であるか否かを判定し、前記指示が適正でない場合には、前記第１部分の変更を実行しない
請求項１のプログラム。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本開示は、音を合成する技術に関する。
続きを表示（約 2,500 文字）【背景技術】
【０００２】
例えば歌唱音等の所望の音（以下「目標音」という）を合成する音合成技術が従来から提案されている。例えば特許文献１には、相異なる複数の発音スタイルのうち利用者が選択した発音スタイルのもとで発音されるべき目標音を合成する技術が開示されている。
【先行技術文献】
【特許文献】
【０００３】
特許第６７４７４８９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ところで、目標音の編集の場面においては、例えば発音スタイルまたは合成条件（例えば目標音の音高）等の各種の事項が、利用者からの指示に応じて随時に変更される。例えば、利用者が、発音スタイルを試行錯誤的に変更しながら、目標音の音響特性の変更を指示する状況が想定される。以上の状況において、発音スタイルの変更毎に、利用者が目標音の音響特性の変更を指示する必要がある形態では、利用者による指示の負荷が大きいという課題がある。以上の事情を考慮して、本開示のひとつの態様は、利用者による指示の負荷を軽減しながら、利用者からの指示が反映された目標音を生成することを目的とする。
【課題を解決するための手段】
【０００５】
以上の課題を解決するために、本開示のひとつの態様に係るプログラムは、合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部、および、前記時系列データを利用者からの指示に応じて変更する特性編集部、としてコンピュータシステムを機能させるプログラムであって、前記音響処理部は、前記目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データを生成し、前記特性編集部は、前記第１時系列データのうちの第１部分を、前記利用者からの指示に応じて変更し、前記音響処理部は、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する。
【０００６】
本開示のひとつの態様に係る音響処理方法は、合成されるべき目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データのうちの第１部分を、利用者からの指示に応じて変更し、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する。
【０００７】
本開示のひとつの態様に係る音響処理システムは、合成されるべき目標音について音響特性の時系列を表す時系列データを生成する音響処理部と、前記時系列データを利用者からの指示に応じて変更する特性編集部とを具備し、前記音響処理部は、前記目標音について第１発音スタイルに対応する音響特性の時系列を表す第１時系列データを生成し、前記特性編集部は、前記第１時系列データのうちの第１部分を、前記利用者からの指示に応じて変更し、前記音響処理部は、前記目標音について前記第１発音スタイルとは異なる第２発音スタイルが指定された場合に、前記第１部分について前記利用者からの指示に応じた変更後の音響特性を表し、かつ、前記第１部分以外の第２部分について前記第２発音スタイルに対応する音響特性を表す第２時系列データを生成する。
【図面の簡単な説明】
【０００８】
第１実施形態における音響処理システムの構成を例示するブロック図である。
音響処理システムの機能的な構成を例示するブロック図である。
編集画面の模式図である。
編集画面のうち操作領域の模式図である。
編集画面の模式図である。
編集領域の部分的な模式図である。
音声合成処理のフローチャートである。
第１実施形態における音素列データの更新に関する説明図である。
第２音素列データを生成する処理のフローチャートである。
第１音素列データおよび第２音素列データの具体例である。
第２実施形態における編集画面の模式図である。
第３実施形態におけるピッチデータの更新に関する説明図である。
第２ピッチデータを生成する処理のフローチャートである。
第４実施形態における音響信号の更新に関する説明図である。
第２音響信号を生成する処理のフローチャートである。
変形例における編集画面の模式図である。
変形例において第２音響信号を生成する処理のフローチャートである。
変形例における編集データの模式図である。
【発明を実施するための形態】
【０００９】
Ａ：第１実施形態
図１は、第１実施形態に係る音響処理システム１００の構成を例示するブロック図である。音響処理システム１００は、利用者の所望の音（以下「目標音」という）を合成するためのコンピュータシステムである。目標音は、音響処理システム１００により合成されるべき音である。第１実施形態の目標音は、歌唱者が特定の楽曲（以下「目標楽曲」という）を特定の発音スタイルで仮想的に歌唱したときに発音されるべき歌唱音である。音響処理システム１００は、目標音の波形を表す音響信号Ｚを生成する。
【００１０】
発音スタイルは、目標音の音色または調子等、目標音の聴感的な印象に影響する性質である。例えば、歌唱時の癖または歌い回し等、発音の特徴的な傾向が発音スタイルとして例示される。歌唱時の癖は、例えば、歌詞を構成する各音素の始点が音符の始点に対して先行または遅延する傾向、または、各音素の終点が音符の終点に対して先行または遅延する傾向である。
（【００１１】以降は省略されています）

関連特許