TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024062724
公報種別公開特許公報(A)
公開日2024-05-10
出願番号2022170758
出願日2022-10-25
発明の名称楽音合成方法、楽音合成システムおよびプログラム
出願人ヤマハ株式会社
代理人弁理士法人旺知国際特許事務所
主分類G10L 13/00 20060101AFI20240501BHJP(楽器;音響)
要約【課題】利用者からの指示に応じた多様な部分音色を有する楽音を生成する。
【解決手段】楽音合成システム100は、目標楽音の条件を表す制御データの時系列Xを取得する制御データ取得部21と、音色の時間的な変化の特徴を表す制御ベクトルVを利用者からの指示に応じて生成する制御ベクトル生成部24と、制御ベクトルVから第1パラメータセットPnを生成する制御ベクトル処理部25と、複数の基本層と1以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の第1生成モデル30により、制御データの時系列Xを処理することで、目標楽音の音響特徴量を表す音響データの時系列Zを生成する楽音合成部22と、を具備し、1以上の中間層のうちの第1中間層は、第1中間層に入力されるデータに対して第1パラメータセットPnを適用した処理を実行し、適用後のデータを次層に出力する。
【選択図】図2
特許請求の範囲【請求項1】
目標楽音の条件を表す制御データの時系列を取得し、
複数の基本層と1以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する、
コンピュータシステムにより実現される楽音合成方法であって、
音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成し、
前記制御ベクトルから第1パラメータセットを生成し、
前記1以上の中間層のうちの第1中間層は、前記第1中間層に入力されるデータに対して前記第1パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する
楽音合成方法。
続きを表示(約 1,300 文字)【請求項2】
前記制御ベクトルの生成においては、前記利用者からの指示に応じて前記制御ベクトルの時系列を生成し、
前記第1パラメータセットの生成においては、前記制御ベクトルの時系列から前記第1パラメータセットの時系列を生成する
請求項1の楽音合成方法。
【請求項3】
さらに、前記制御ベクトルから第2パラメータセットを生成し、
前記1以上の中間層のうちの第2中間層は、前記第2中間層に入力されるデータに対して前記第2パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する
請求項1の楽音合成方法。
【請求項4】
前記1以上の中間層は、複数の中間層であり、
前記生成モデルは、
前記複数の中間層のうち複数の符号中間層を含む第1符号化器と、
前記複数の中間層のうち複数の復号中間層を含む復号化器とを含み、
前記音響データの時系列の生成においては、
前記制御データの時系列を前記第1符号化器により処理することで、前記制御データの時系列の特徴を表す中間データを生成し、
前記中間データを前記復号化器により処理することで、前記音響データの時系列を生成する
請求項1の楽音合成方法。
【請求項5】
前記第1符号化器において、時間軸上におけるデータの圧縮が実行され、
前記復号化器において、時間軸上におけるデータの伸長が実行される
請求項4の楽音合成方法。
【請求項6】
前記制御ベクトルの生成においては、
参照楽音における特定区間を前記利用者からの第1指示に応じて設定し、
前記特定区間における前記参照楽音の音響特徴量を表す参照データの時系列を第2符号化器により処理することで、前記参照楽音のうち前記特定区間における音色の時間的な変化の特徴を表す前記制御ベクトルを生成する
請求項1の楽音合成方法。
【請求項7】
さらに、
前記第1指示に応じて時間軸上における前記特定区間の位置を変更する
請求項6の楽音合成方法。
【請求項8】
前記制御ベクトルは、複数の要素を含み、
前記制御ベクトルの生成においては、
前記利用者からの第2指示に応じて前記複数の要素のうち1以上の要素を変更する
請求項1の楽音合成方法。
【請求項9】
前記第2指示は、前記複数の要素にそれぞれ対応する複数の操作子に対する操作であり、
前記1以上の要素の変更においては、前記複数の操作子のうち前記1以上の要素に対応する1以上の操作子に対する操作に応じて、前記1以上の要素を設定する
請求項8の楽音合成方法。
【請求項10】
前記第1中間層は、当該第1中間層に入力されるデータに対して、前記第1パラメータセットを適用した変換処理を実行する
請求項1の楽音合成方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、音を合成する技術に関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
例えばニューラルネットワーク等の生成モデルを利用して所望の楽音を生成する技術が従来から提案されている。例えば特許文献1には、音声に関する多次元の楽譜特徴量の時系列を畳込ニューラルネットワークにより処理することで、音声波形の音響特徴量の時系列を生成する構成が開示されている。
【先行技術文献】
【特許文献】
【0003】
特許第6552146号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
生成モデルを利用する近年の音声合成においては、楽譜特徴量の時系列から画一的な楽音を合成するだけでなく、特定の楽音の一部の区間における音色の時間的な変化(以下「部分音色」という)を、利用者からの指示に応じて楽音に付与することが要求される。以上の事情を考慮して、本開示のひとつの態様は、利用者からの指示に応じた多様な部分音色を有する楽音を生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本開示のひとつの態様に係る楽音合成方法は、目標楽音の条件を表す制御データの時系列を取得し、複数の基本層と1以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する、コンピュータシステムにより実現される楽音合成方法であって、音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成し、前記制御ベクトルから第1パラメータセットを生成し、前記1以上の中間層のうちの第1中間層は、前記第1中間層に入力されるデータに対して前記第1パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する。
【0006】
本開示のひとつの態様に係る楽音合成システムは、目標楽音の条件を表す制御データの時系列を取得する制御データ取得部と、音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成する制御ベクトル生成部と、前記制御ベクトルから第1パラメータセットを生成する制御ベクトル処理部と、複数の基本層と1以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する楽音合成部と、を具備し、前記1以上の中間層のうちの第1中間層は、前記第1中間層に入力されるデータに対して前記第1パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する。
【0007】
本開示のひとつの態様に係るプログラムは、目標楽音の条件を表す制御データの時系列を取得する制御データ取得部、音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成する制御ベクトル生成部、前記制御ベクトルから第1パラメータセットを生成する制御ベクトル処理部、および、複数の基本層と1以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する楽音合成部、としてコンピュータシステムを機能させるプログラムであって、前記1以上の中間層のうちの第1中間層は、前記第1中間層に入力されるデータに対して前記第1パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する。
【図面の簡単な説明】
【0008】
第1実施形態における楽音合成システムの構成を例示するブロック図である。
楽音合成システムの機能的な構成を例示するブロック図である。
第1生成モデルの具体的な構成を例示するブロック図である。
変換処理の説明図である。
設定画面の模式図である。
第2生成モデルの具体的な構成を例示するブロック図である。
楽音合成処理のフローチャートである。
機械学習の説明図である。
訓練処理のフローチャートである。
第2実施形態における制御ベクトル生成部のブロック図である。
第2実施形態における設定画面の模式図である。
第2実施形態における楽音合成処理のフローチャートである。
各中間層Lが実行する変換処理の説明図である。
第4実施形態における第1生成モデルのブロック図である。
第4実施形態における単位処理部のブロック図である。
変形例における処理期間の説明図である。
【発明を実施するための形態】
【0009】
A:第1実施形態
図1は、第1実施形態に係る楽音合成システム100の構成を例示するブロック図である。楽音合成システム100は、所望の楽音(以下「目標楽音」という)を合成するコンピュータシステムである。目標楽音は、楽音合成システム100により合成されるべき音楽的な音である。第1実施形態においては、特定の楽曲(以下「目標楽曲」という)の歌唱により発音されるべき歌唱音を目標楽音として例示する。
【0010】
楽音合成システム100は、制御装置11と記憶装置12と表示装置13と操作装置14と放音装置15とを具備する。楽音合成システム100は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置で実現される。なお、楽音合成システム100は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許