特許ウォッチ

公開番号2025008853
公報種別公開特許公報(A)
公開日2025-01-20
出願番号2023111421
出願日2023-07-06
発明の名称音声認識システム、音声認識方法およびプログラム
出願人国立研究開発法人情報通信研究機構
代理人弁理士法人深見特許事務所
主分類G10L 15/16 20060101AFI20250109BHJP(楽器;音響)
要約【課題】大規模言語モデルを利用して、より推論精度の高い音声認識システムを提供する。
【解決手段】音声認識システムは、音声信号に含まれる単語に対応するトークンをトークン単位で出力することのできる第1の学習済み推論モデル(SSLモデル20)と、1または複数のトークンの入力に基づく推論によって、対応する1または複数のトークンを出力する第2の学習済み推論モデル(大規模言語モデル30)と、第1の学習済み推論モデルの第1推論出力22と、第2の学習済み推論モデルの出力であって、第1推論出力に対応する第2推論出力32とを単語単位で乗算する乗算器26と、を含む。乗算器の出力である新たな確率分布に基づき選択した単語が、第2の学習済み推論モデルに入力される。
【選択図】図3
特許請求の範囲【請求項１】
音声信号に含まれる単語に対応するトークンをトークン単位で出力することのできる第１の学習済み推論モデルと、
１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力する第２の学習済み推論モデルと、
前記第１の学習済み推論モデルの第１推論出力と、前記第２の学習済み推論モデルの出力であって、前記第１推論出力に対応する第２推論出力とを単語単位で乗算する乗算器とを備え、
前記乗算器の出力である新たな確率分布に基づき選択した単語が、前記第２の学習済み推論モデルに入力される、音声認識システム。
続きを表示（約 910 文字）【請求項２】
前記乗算器の出力は、音声認識システムの認識出力として利用される、請求項１に記載の音声認識システム。
【請求項３】
前記第２の学習済み推論モデルは、音声認識の対象言語のコーパスを用いて、少なくとも入力シーケンスに対する次の単語を予測するタスクを事前学習済みである、請求項１または２に記載の音声認識システム。
【請求項４】
前記第２の学習済み推論モデルは、前記対象言語の方言データを用いてファインチューニングされている、請求項３に記載の音声認識システム。
【請求項５】
コンピュータが実行する音声認識方法であって、
第１の学習済み推論モデルを用いて、音声信号に含まれる単語に対応するトークンをトークン単位で出力するステップと、
第２の学習済み推論モデルを用いて、１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力するステップと、
前記第１の学習済み推論モデルの第１推論出力と、前記第２の学習済み推論モデルの出力であって、前記第１推論出力に対応する第２推論出力とを単語単位で乗算するステップと、
前記乗算の結果得られる新たな確率分布に基づき選択した単語を前記第２の学習済み推論モデルに入力するステップとを備える、音声認識方法。
【請求項６】
音声認識を行うためのプログラムであって、コンピュータに、
第１の学習済み推論モデルを用いて、音声信号に含まれる単語に対応するトークンをトークン単位で出力するステップと、
第２の学習済み推論モデルを用いて、１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力するステップと、
前記第１の学習済み推論モデルの第１推論出力と、前記第２の学習済み推論モデルの出力であって、前記第１推論出力に対応する第２推論出力とを単語単位で乗算するステップと、
前記乗算の結果得られる新たな確率分布に基づき選択した単語を前記第２の学習済み推論モデルに入力するステップとを実行させる、プログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、音声認識システム、音声認識方法およびプログラムに関する。
続きを表示（約 1,700 文字）【背景技術】
【０００２】
ＡＳＲ（Automatic Speech Recognition）のアプリケーションの一例として、大規模に学習された大規模言語モデルを含む音声認識を行うシステムが公知である。大規模言語モデルとして、代表的には、エンコーダベースのモデルと、デコーダベースのモデルとが存在する。
【０００３】
エンコーダベースのモデルとして、例えば、ＢＥＲＴ（非特許文献１など参照）やＴｒａｎｓｆｏｒｍｅｒの双方向エンコーダ（非特許文献２など参照）などが知られている。デコーダベースのモデルとして、例えば、ＧＰＴ－２（非特許文献３など参照）や、一方向性Ｔｒａｎｓｆｏｒｍｅｒデコーダ）などが知られている。
【０００４】
大規模言語モデルは、主として、エラー訂正、モデル圧縮、再スコアリング、マルチモーダルアプリケーションなどに用いることもできる。
【先行技術文献】
【非特許文献】
【０００５】
J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, "Bert: Pre-training of deep bidirectional transformers for language understanding," arXiv preprint arXiv:1810.04805, 2018.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin, Attention is all you need, Proc. NeurlPS 30 (2017).
A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever et al., "Language models are unsupervised multitask learners," OpenAI blog, vol. 1, no. 8, p. 9, 2019.
【発明の概要】
【発明が解決しようとする課題】
【０００６】
上述したような大規模言語モデルは、ベクトルのシーケンスの入力に対して対応するベクトルのシーケンスを出力するように設計されている。このようなシーケンス・トゥ・シーケンスの設計を前提として、センテンス単位（文単位）で処理する、大規模言語モデルを含む音声認識システムが提案されている。
【０００７】
本発明は、大規模言語モデルを利用して、より推論精度の高い音声認識システムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
ある実施の形態に従う音声認識システムは、音声信号に含まれる単語に対応するトークンをトークン単位で出力することのできる第１の学習済み推論モデルと、１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力する第２の学習済み推論モデルと、第１の学習済み推論モデルの第１推論出力と、第２の学習済み推論モデルの出力であって、第１推論出力に対応する第２推論出力とを単語単位で乗算する乗算器とを含む。乗算器の出力である新たな確率分布に基づき選択した単語が、第２の学習済み推論モデルに入力される。
【０００９】
乗算器の出力は、音声認識システムの認識出力として利用されてもよい。
第２の学習済み推論モデルは、音声認識の対象言語のコーパスを用いて、少なくとも入力シーケンスに対する次の単語を予測するタスクを事前学習済みであってもよい。
【００１０】
第２の学習済み推論モデルは、対象言語の方言データを用いてファインチューニングされていてもよい。
（【００１１】以降は省略されています）

関連特許