特許ウォッチ

公開番号2025111300
公報種別公開特許公報(A)
公開日2025-07-30
出願番号2024005639
出願日2024-01-17
発明の名称音声認識方法および音声認識装置
出願人本田技研工業株式会社
代理人個人,個人,個人,個人
主分類G10L 15/183 20130101AFI20250723BHJP(楽器;音響)
要約【課題】本書は、編集可能な用語リスト(バイアスリストと呼ぶ)を用いてカスタマイズ可能なアテンションベースのコンテキストバイアス方法を提案する。
【解決手段】提案方法は、バイアスフレーズ指数損失と特殊トークンとを組み合わせることで、入力された発話データにおけるバイアスフレーズを検出するように、効率的に学習されることが可能である。
【選択図】図1
特許請求の範囲【請求項１】
編集可能な用語リストを用いてカスタマイズ可能なアテンションベースコンテキストバイアス方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は、編集可能な用語リストを用いてカスタマイズ可能なアテンションベースのコンテキストバイアス方法に関する。
続きを表示（約 3,500 文字）【背景技術】
【０００２】
エンドツーエンド（Ｅ２Ｅ）の自動音声認識（ＡＳＲ）方法は、優れた性能を示す。しかしながら、このような方法の性能は、学習データに存在するコンテキストと本質的に関連があるため、Ｅ２Ｅ－ＡＳＲ方法は、未知のユーザコンテキスト（例えば、技術用語、個人名、およびプレイリスト）に対しては要求どおりに動作しない。このため、Ｅ２Ｅ－ＡＳＲ方法は、ユーザまたは開発者によって容易にコンテキスト化されなければならない。
【発明の概要】
【発明が解決しようとする課題】
【０００３】
本書は、編集可能な用語リスト（バイアスリストと呼ぶ）を用いてカスタマイズ可能なアテンションベースのコンテキストバイアス方法を提案する。
【課題を解決するための手段】
【０００４】
提案方法は、バイアスフレーズ指数損失と特殊トークンとを組み合わせることで、入力された発話データにおけるバイアスフレーズを検出するように、効率的に学習されることが可能である。また、推論の間におけるコンテキスト化性能をさらに改善するために、我々は、バイアスフレーズ指数確率に基づくバイアスフレーズブースト（ＢＰＢ）ビーム探索アルゴリズムを提案する。実験結果は、提案方法が、Ｌｉｂｒｉｓｐｅｅｃｈ－９６０（英語）および我々の社内の（日本語）データセットの各々について、バイアスリストにおける対象用語の単語誤り率および文字誤り率を確実に改善することを証明する。
【図面の簡単な説明】
【０００５】
図１：提案方法における、音響エンコーダ、バイアスエンコーダ、およびバイアスデコーダを含む全体構造。ＢＰＢビーム探索アルゴリズムは、推論の間に使用される。
図１Ａ：バイアスフレーズ確率を利用するバイアスフレーズブースト（ＢＰＢ）ビーム探索アルゴリズム。
図１Ｂ：表１：Ｌｉｂｒｉｓｐｅｅｃｈ－１００ｔｅｓｔ－ｃｌｅａｎの予備的解析。
図２：バイアスフレーズ指数損失の効果。横軸および縦軸は、各々、Ｂにおけるトークン指標ｓおよびバイアスフレーズを示す。
図２Ａ：表２：Ｌｉｂｒｉｓｐｅｅｃｈ－９６０データにおいて得られた主要なＷＥＲ結果（Ｕ－ＷＥＲ／Ｂ－ＷＥＲ）。太字の値は、提案方法がベースラインよりも優れている場合を示し、下線の値は、最良の結果を示す。
図３：Ｌｉｂｒｉｓｐｅｅｃｈ－９６０に対するＢＰＢビーム探索のデコーディング重みα
bonus
の効果。
図４：代表例。太字の書体、赤および青の書体は、各々、バイアスフレーズ、不正確な認識および正確な認識を示す。
図５：表３：我々の社内の日本語データセットに対する実験結果。
【発明を実施するための形態】
【０００６】
１．イントロダクション
エンドツーエンド（Ｅ２Ｅ）自動音声認識（ＡＳＲ）［１，２］方法は、音響モデル（ＡＭ）や言語モデル（ＬＭ）などの、従来のＡＳＲシステムにおいて使用されていた多数のコンポーネントを必要とすることなく、音響特徴列を、トークン列に直接的に変換する。これまで、コネクショニスト時系列分類法（ＣＴＣ）［３］、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）［４］、アテンション機構［５，６］、およびそれらの様々なハイブリッドシステム［７－９］を含む、様々なＥ２Ｅ－ＡＳＲ方法が提案されている。Ｅ２Ｅ－ＡＳＲ方法の有効性は、本質的に、学習データのコンテキストに関連するため、性能予測は、所定のユーザコンテキストに対して常には満足されない場合がある。例えば、異なるコンテキストにおいて個人名および技術用語は重要なキーワードとなる傾向があるが、このような用語は利用可能な学習データには頻繁には登場せず、結果として認識精度が悪くなってしまう。学習の間に、全てのコンテキストに対してモデルを学習させることは現実的ではないため、ユーザまたは開発者は、学習なしでモデルを容易にコンテキスト化することを可能にすべきである。
【０００７】
この課題に対する典型的なアプローチは、外部のＬＭ［１０－１４］を用いたＳｈａｌｌｏｗｆｕｓｉｏｎである。例えば、［１０－１２］は、重み付き有限状態トランスデューサ（ＷＦＳＴ）を使用し、ｉｎ－ｃｌａｓｓＬＭを構築し、対象の固有エンティティに対するコンテキスト化を促進している。ニューラルＬＭフュージョン方法も提案されている［１３，１４］。ＬＭフュージョン技術は、Ｅ２Ｅ－ＡＳＲモデルと外部のニューラルＬＭとを組み合わせ、次に、Ｅ２Ｅ－ＡＳＲモデルによって生成された仮定を再度スコアリングすることにより、精度向上を試みている。しかしながら、ＷＦＳＴまたはニューラルＬＭのいずれを用いるにせよ、外部のＬＭを学習することは、追加の学習ステップを必要とすることとなる。
【０００８】
このため、再学習を必要としないいくつかの方法が提案されている。これらの方法は、辞書にない固有エンティティを認識するナレッジグラフモデリング［１５］、編集可能な用語リストを用いるコンテキストスペリング訂正［１５］、および音素類似性に基づく特定の固有エンティティを認識する固有エンティティを考慮したＡＳＲモデル［１６］を含む。しかしながら、これらの方法は、学習のための音声合成（ＴＴＳ）モデルを必要とすることや、所定の対象の固有エンティティ以外の言葉を扱うことができないこと等の制限がある。
【０００９】
ディープバイアス方法［１７－２０］は、再学習プロセスやＴＴＳモデルを必要としない有効なコンテキスト化を実現するための代替のアプローチを提供する。このような方法では、Ｅ２Ｅ－ＡＳＲモデルが、本書においてバイアスリストと呼ばれる編集可能な用語リストを用いてコンテキスト化されることが可能である。多くのディープバイアス方法は、バイアスリストと入力列との間にクロスアテンション層を実装し、バイアスフレーズを正しく認識する。しかしながら、バイアスリストに対してクロスアテンション層を単に追加することは、有効ではないことが分かっている［２１］。このため、［２１，２２］は、補助損失によるクロスアテンション層のパラメータの更新に間接的に役立つ、バイアスフレーズを検出するために設計された追加のブランチを導入した。これに対して、［２３，２４］は、バイアスフレーズ指数を検出するクロスアテンション層に直接的に補助損失関数（バイアスフレーズ指数損失と呼ばれ、３．２節で説明される）を導入した。このアプローチはクロスアテンション層の直接のパラメータ更新を可能にするが、出力されるトークンがバイアスリストから生じたものであるのか否かを区別することができない。また、［２３］は、時間のかかる、予め学習されたＡＳＲモデルを用いる二段階の学習を必要とする。
【００１０】
本書は、より効果的なバイアスフレーズ検出を実現するために、バイアスフレーズ指標損失と呼ばれるクロスアテンション層に直接的な補助損失と、バイアスフレーズに対する特殊トークンとの両方を用いるディープバイアス方法を提案する。従来の間接的な方法［２１，２２］とは異なり、我々の方法は、バイアスフレーズ指標損失によるクロスアテンション層の効果的な学習を容易にする。さらに、我々の技術は、バイアスフレーズに対して特殊トークンを導入することにより、現在の方法［２３］とは異なっている。これは、モデルがバイアスフレーズにより効率的に着目することを可能にし、２段階の学習プロセスを不要とする。さらに、我々は、推論の間のバイアスフレーズ指標確率を統合するバイアスフレーズブースト（ＢＰＢ）ビーム探索アルゴリズムを提案し、バイアスフレーズ認識の性能を増大させる。この研究の主要な貢献は以下の通りである：
・我々は、バイアスフレーズ指標損失と、バイアスフレーズに対する特殊トークンとの両方を用いるディープバイアスモデルを提案する。
・我々は、対象用語に対する性能をさらに改善するバイアスフレーズブースト（ＢＰＢ）ビーム探索アルゴリズムを提案する。
・我々は、提案方法が、Ｌｉｂｒｉｓｐｅｅｃｈ－９６０と我々の社内の日本語データセットとの両方に有効であることを証明する。
（【００１１】以降は省略されています）

関連特許