TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025008853
公報種別公開特許公報(A)
公開日2025-01-20
出願番号2023111421
出願日2023-07-06
発明の名称音声認識システム、音声認識方法およびプログラム
出願人国立研究開発法人情報通信研究機構
代理人弁理士法人深見特許事務所
主分類G10L 15/16 20060101AFI20250109BHJP(楽器;音響)
要約【課題】大規模言語モデルを利用して、より推論精度の高い音声認識システムを提供する。
【解決手段】音声認識システムは、音声信号に含まれる単語に対応するトークンをトークン単位で出力することのできる第1の学習済み推論モデル(SSLモデル20)と、1または複数のトークンの入力に基づく推論によって、対応する1または複数のトークンを出力する第2の学習済み推論モデル(大規模言語モデル30)と、第1の学習済み推論モデルの第1推論出力22と、第2の学習済み推論モデルの出力であって、第1推論出力に対応する第2推論出力32とを単語単位で乗算する乗算器26と、を含む。乗算器の出力である新たな確率分布に基づき選択した単語が、第2の学習済み推論モデルに入力される。
【選択図】図3
特許請求の範囲【請求項1】
音声信号に含まれる単語に対応するトークンをトークン単位で出力することのできる第1の学習済み推論モデルと、
1または複数のトークンの入力に基づく推論によって、対応する1または複数のトークンを出力する第2の学習済み推論モデルと、
前記第1の学習済み推論モデルの第1推論出力と、前記第2の学習済み推論モデルの出力であって、前記第1推論出力に対応する第2推論出力とを単語単位で乗算する乗算器とを備え、
前記乗算器の出力である新たな確率分布に基づき選択した単語が、前記第2の学習済み推論モデルに入力される、音声認識システム。
続きを表示(約 910 文字)【請求項2】
前記乗算器の出力は、音声認識システムの認識出力として利用される、請求項1に記載の音声認識システム。
【請求項3】
前記第2の学習済み推論モデルは、音声認識の対象言語のコーパスを用いて、少なくとも入力シーケンスに対する次の単語を予測するタスクを事前学習済みである、請求項1または2に記載の音声認識システム。
【請求項4】
前記第2の学習済み推論モデルは、前記対象言語の方言データを用いてファインチューニングされている、請求項3に記載の音声認識システム。
【請求項5】
コンピュータが実行する音声認識方法であって、
第1の学習済み推論モデルを用いて、音声信号に含まれる単語に対応するトークンをトークン単位で出力するステップと、
第2の学習済み推論モデルを用いて、1または複数のトークンの入力に基づく推論によって、対応する1または複数のトークンを出力するステップと、
前記第1の学習済み推論モデルの第1推論出力と、前記第2の学習済み推論モデルの出力であって、前記第1推論出力に対応する第2推論出力とを単語単位で乗算するステップと、
前記乗算の結果得られる新たな確率分布に基づき選択した単語を前記第2の学習済み推論モデルに入力するステップとを備える、音声認識方法。
【請求項6】
音声認識を行うためのプログラムであって、コンピュータに、
第1の学習済み推論モデルを用いて、音声信号に含まれる単語に対応するトークンをトークン単位で出力するステップと、
第2の学習済み推論モデルを用いて、1または複数のトークンの入力に基づく推論によって、対応する1または複数のトークンを出力するステップと、
前記第1の学習済み推論モデルの第1推論出力と、前記第2の学習済み推論モデルの出力であって、前記第1推論出力に対応する第2推論出力とを単語単位で乗算するステップと、
前記乗算の結果得られる新たな確率分布に基づき選択した単語を前記第2の学習済み推論モデルに入力するステップとを実行させる、プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、音声認識システム、音声認識方法およびプログラムに関する。
続きを表示(約 1,700 文字)【背景技術】
【0002】
ASR(Automatic Speech Recognition)のアプリケーションの一例として、大規模に学習された大規模言語モデルを含む音声認識を行うシステムが公知である。大規模言語モデルとして、代表的には、エンコーダベースのモデルと、デコーダベースのモデルとが存在する。
【0003】
エンコーダベースのモデルとして、例えば、BERT(非特許文献1など参照)やTransformerの双方向エンコーダ(非特許文献2など参照)などが知られている。デコーダベースのモデルとして、例えば、GPT-2(非特許文献3など参照)や、一方向性Transformerデコーダ)などが知られている。
【0004】
大規模言語モデルは、主として、エラー訂正、モデル圧縮、再スコアリング、マルチモーダルアプリケーションなどに用いることもできる。
【先行技術文献】
【非特許文献】
【0005】
J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, "Bert: Pre-training of deep bidirectional transformers for language understanding," arXiv preprint arXiv:1810.04805, 2018.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin, Attention is all you need, Proc. NeurlPS 30 (2017).
A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever et al., "Language models are unsupervised multitask learners," OpenAI blog, vol. 1, no. 8, p. 9, 2019.
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述したような大規模言語モデルは、ベクトルのシーケンスの入力に対して対応するベクトルのシーケンスを出力するように設計されている。このようなシーケンス・トゥ・シーケンスの設計を前提として、センテンス単位(文単位)で処理する、大規模言語モデルを含む音声認識システムが提案されている。
【0007】
本発明は、大規模言語モデルを利用して、より推論精度の高い音声認識システムを提供することを目的とする。
【課題を解決するための手段】
【0008】
ある実施の形態に従う音声認識システムは、音声信号に含まれる単語に対応するトークンをトークン単位で出力することのできる第1の学習済み推論モデルと、1または複数のトークンの入力に基づく推論によって、対応する1または複数のトークンを出力する第2の学習済み推論モデルと、第1の学習済み推論モデルの第1推論出力と、第2の学習済み推論モデルの出力であって、第1推論出力に対応する第2推論出力とを単語単位で乗算する乗算器とを含む。乗算器の出力である新たな確率分布に基づき選択した単語が、第2の学習済み推論モデルに入力される。
【0009】
乗算器の出力は、音声認識システムの認識出力として利用されてもよい。
第2の学習済み推論モデルは、音声認識の対象言語のコーパスを用いて、少なくとも入力シーケンスに対する次の単語を予測するタスクを事前学習済みであってもよい。
【0010】
第2の学習済み推論モデルは、対象言語の方言データを用いてファインチューニングされていてもよい。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

JIN株式会社
断熱吸音材
1日前
ヤマハ株式会社
成形体、楽器および楽器部品
1日前
ヤマハ株式会社
楽音発生指示装置およびその製造方法
1日前
ヤマハ株式会社
ノイズ低減装置および楽器
1日前
カシオ計算機株式会社
無線通信装置
1日前
ヤマハ株式会社
入力装置およびその制御方法、プログラム
2日前
ブラザー工業株式会社
カラオケ装置、及び、カラオケ用プログラム
1日前
ブラザー工業株式会社
カラオケ装置、及び、カラオケ用プログラム
1日前
株式会社JVCケンウッド
情報処理装置、情報処理方法及びプログラム
1日前
ローランド株式会社
打楽器および楽音の生成方法
1日前
カシオ計算機株式会社
電子楽器、方法およびプログラム
1日前
カシオ計算機株式会社
電子楽器、方法およびプログラム
1日前
カシオ計算機株式会社
電子楽器、方法およびプログラム
1日前
ヤマハ株式会社
聴取音取得方法および聴取音取得装置
2日前
ヤマハ株式会社
聴取音取得方法および聴取音取得装置
2日前
株式会社バンダイナムコ研究所
処理システム、プログラム及び処理方法
1日前
川崎重工業株式会社
音響構造材及び構造体
2日前
株式会社レゾナック
吸音材
3日前
MPLUSPLUS株式会社
演奏差異検出方法、プログラム及びシステム並びに演奏誤り箇所通知方法
7日前
学校法人幾徳学園
学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置
1日前
株式会社東芝
推定装置、推定方法及びプログラム
2日前
中部電力株式会社
主話者音声区間判別装置
1日前
日東電工株式会社
アクティブノイズコントロールシステム及びアクティブノイズコントロール方法
1日前
株式会社東芝
音声合成支援装置、音声合成支援方法、および音声合成支援プログラム
1日前
株式会社東芝
音声加工支援装置、音声加工支援方法、および音声加工支援プログラム
1日前
ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー
音響測定を実行する方法
7日前
メドリズムス,インコーポレイテッド
神経学的リハビリテーションのためのシステムおよび方法
3日前
コーニンクレッカ フィリップス エヌ ヴェ
環境内の音声を表すビットストリーム
7日前
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオデコーダ、方法及びコンピュータプログラム
3日前
株式会社三共
遊技機
3日前