TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025111300
公報種別
公開特許公報(A)
公開日
2025-07-30
出願番号
2024005639
出願日
2024-01-17
発明の名称
音声認識方法および音声認識装置
出願人
本田技研工業株式会社
代理人
個人
,
個人
,
個人
,
個人
主分類
G10L
15/183 20130101AFI20250723BHJP(楽器;音響)
要約
【課題】本書は、編集可能な用語リスト(バイアスリストと呼ぶ)を用いてカスタマイズ可能なアテンションベースのコンテキストバイアス方法を提案する。
【解決手段】提案方法は、バイアスフレーズ指数損失と特殊トークンとを組み合わせることで、入力された発話データにおけるバイアスフレーズを検出するように、効率的に学習されることが可能である。
【選択図】図1
特許請求の範囲
【請求項1】
編集可能な用語リストを用いてカスタマイズ可能なアテンションベースコンテキストバイアス方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は、編集可能な用語リストを用いてカスタマイズ可能なアテンションベースのコンテキストバイアス方法に関する。
続きを表示(約 3,500 文字)
【背景技術】
【0002】
エンドツーエンド(E2E)の自動音声認識(ASR)方法は、優れた性能を示す。しかしながら、このような方法の性能は、学習データに存在するコンテキストと本質的に関連があるため、E2E-ASR方法は、未知のユーザコンテキスト(例えば、技術用語、個人名、およびプレイリスト)に対しては要求どおりに動作しない。このため、E2E-ASR方法は、ユーザまたは開発者によって容易にコンテキスト化されなければならない。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本書は、編集可能な用語リスト(バイアスリストと呼ぶ)を用いてカスタマイズ可能なアテンションベースのコンテキストバイアス方法を提案する。
【課題を解決するための手段】
【0004】
提案方法は、バイアスフレーズ指数損失と特殊トークンとを組み合わせることで、入力された発話データにおけるバイアスフレーズを検出するように、効率的に学習されることが可能である。また、推論の間におけるコンテキスト化性能をさらに改善するために、我々は、バイアスフレーズ指数確率に基づくバイアスフレーズブースト(BPB)ビーム探索アルゴリズムを提案する。実験結果は、提案方法が、Librispeech-960(英語)および我々の社内の(日本語)データセットの各々について、バイアスリストにおける対象用語の単語誤り率および文字誤り率を確実に改善することを証明する。
【図面の簡単な説明】
【0005】
図1:提案方法における、音響エンコーダ、バイアスエンコーダ、およびバイアスデコーダを含む全体構造。BPBビーム探索アルゴリズムは、推論の間に使用される。
図1A:バイアスフレーズ確率を利用するバイアスフレーズブースト(BPB)ビーム探索アルゴリズム。
図1B:表1:Librispeech-100 test-cleanの予備的解析。
図2:バイアスフレーズ指数損失の効果。横軸および縦軸は、各々、Bにおけるトークン指標sおよびバイアスフレーズを示す。
図2A:表2:Librispeech-960データにおいて得られた主要なWER結果(U-WER/B-WER)。太字の値は、提案方法がベースラインよりも優れている場合を示し、下線の値は、最良の結果を示す。
図3:Librispeech-960に対するBPBビーム探索のデコーディング重みα
bonus
の効果。
図4:代表例。太字の書体、赤および青の書体は、各々、バイアスフレーズ、不正確な認識および正確な認識を示す。
図5:表3:我々の社内の日本語データセットに対する実験結果。
【発明を実施するための形態】
【0006】
1.イントロダクション
エンドツーエンド(E2E)自動音声認識(ASR)[1,2]方法は、音響モデル(AM)や言語モデル(LM)などの、従来のASRシステムにおいて使用されていた多数のコンポーネントを必要とすることなく、音響特徴列を、トークン列に直接的に変換する。これまで、コネクショニスト時系列分類法(CTC)[3]、リカレントニューラルネットワークトランスデューサ(RNN-T)[4]、アテンション機構[5,6]、およびそれらの様々なハイブリッドシステム[7-9]を含む、様々なE2E-ASR方法が提案されている。E2E-ASR方法の有効性は、本質的に、学習データのコンテキストに関連するため、性能予測は、所定のユーザコンテキストに対して常には満足されない場合がある。例えば、異なるコンテキストにおいて個人名および技術用語は重要なキーワードとなる傾向があるが、このような用語は利用可能な学習データには頻繁には登場せず、結果として認識精度が悪くなってしまう。学習の間に、全てのコンテキストに対してモデルを学習させることは現実的ではないため、ユーザまたは開発者は、学習なしでモデルを容易にコンテキスト化することを可能にすべきである。
【0007】
この課題に対する典型的なアプローチは、外部のLM[10-14]を用いたShallow fusionである。例えば、[10-12]は、重み付き有限状態トランスデューサ(WFST)を使用し、in-class LMを構築し、対象の固有エンティティに対するコンテキスト化を促進している。ニューラルLMフュージョン方法も提案されている[13,14]。LMフュージョン技術は、E2E-ASRモデルと外部のニューラルLMとを組み合わせ、次に、E2E-ASRモデルによって生成された仮定を再度スコアリングすることにより、精度向上を試みている。しかしながら、WFSTまたはニューラルLMのいずれを用いるにせよ、外部のLMを学習することは、追加の学習ステップを必要とすることとなる。
【0008】
このため、再学習を必要としないいくつかの方法が提案されている。これらの方法は、辞書にない固有エンティティを認識するナレッジグラフモデリング[15]、編集可能な用語リストを用いるコンテキストスペリング訂正[15]、および音素類似性に基づく特定の固有エンティティを認識する固有エンティティを考慮したASRモデル[16]を含む。しかしながら、これらの方法は、学習のための音声合成(TTS)モデルを必要とすることや、所定の対象の固有エンティティ以外の言葉を扱うことができないこと等の制限がある。
【0009】
ディープバイアス方法[17-20]は、再学習プロセスやTTSモデルを必要としない有効なコンテキスト化を実現するための代替のアプローチを提供する。このような方法では、E2E-ASRモデルが、本書においてバイアスリストと呼ばれる編集可能な用語リストを用いてコンテキスト化されることが可能である。多くのディープバイアス方法は、バイアスリストと入力列との間にクロスアテンション層を実装し、バイアスフレーズを正しく認識する。しかしながら、バイアスリストに対してクロスアテンション層を単に追加することは、有効ではないことが分かっている[21]。このため、[21,22]は、補助損失によるクロスアテンション層のパラメータの更新に間接的に役立つ、バイアスフレーズを検出するために設計された追加のブランチを導入した。これに対して、[23,24]は、バイアスフレーズ指数を検出するクロスアテンション層に直接的に補助損失関数(バイアスフレーズ指数損失と呼ばれ、3.2節で説明される)を導入した。このアプローチはクロスアテンション層の直接のパラメータ更新を可能にするが、出力されるトークンがバイアスリストから生じたものであるのか否かを区別することができない。また、[23]は、時間のかかる、予め学習されたASRモデルを用いる二段階の学習を必要とする。
【0010】
本書は、より効果的なバイアスフレーズ検出を実現するために、バイアスフレーズ指標損失と呼ばれるクロスアテンション層に直接的な補助損失と、バイアスフレーズに対する特殊トークンとの両方を用いるディープバイアス方法を提案する。従来の間接的な方法[21,22]とは異なり、我々の方法は、バイアスフレーズ指標損失によるクロスアテンション層の効果的な学習を容易にする。さらに、我々の技術は、バイアスフレーズに対して特殊トークンを導入することにより、現在の方法[23]とは異なっている。これは、モデルがバイアスフレーズにより効率的に着目することを可能にし、2段階の学習プロセスを不要とする。さらに、我々は、推論の間のバイアスフレーズ指標確率を統合するバイアスフレーズブースト(BPB)ビーム探索アルゴリズムを提案し、バイアスフレーズ認識の性能を増大させる。この研究の主要な貢献は以下の通りである:
・我々は、バイアスフレーズ指標損失と、バイアスフレーズに対する特殊トークンとの両方を用いるディープバイアスモデルを提案する。
・我々は、対象用語に対する性能をさらに改善するバイアスフレーズブースト(BPB)ビーム探索アルゴリズムを提案する。
・我々は、提案方法が、Librispeech-960と我々の社内の日本語データセットとの両方に有効であることを証明する。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士フイルム株式会社
消音器
17日前
三井化学株式会社
吸音構造体
1か月前
積水化学工業株式会社
吸音構造体
13日前
ヤマハ株式会社
弦楽器用の支持装置
17日前
株式会社イシダ
商品処理装置
4日前
富士フイルム株式会社
消音器付き風路
17日前
株式会社総合車両製作所
吸音パネル
1か月前
ヤマハ株式会社
リード
11日前
株式会社レゾナック
吸音材及び車両部材
1か月前
NOK株式会社
吸音構造体
3日前
株式会社第一興商
カラオケ装置
1か月前
株式会社JVCケンウッド
情報処理装置及び情報処理方法
1か月前
個人
電子管楽器
1か月前
株式会社第一興商
カラオケ装置
5日前
株式会社第一興商
カラオケ装置
26日前
株式会社第一興商
カラオケ装置
1か月前
株式会社コルグ
電子楽器用アナログエフェクタ
1か月前
有限会社舞システム企画
介護情報生成システム
17日前
ヤマハ株式会社
鍵盤装置
18日前
株式会社エクシング
端末装置、及び、端末装置用プログラム
11日前
シャープ株式会社
電子機器および電子機器の制御方法
6日前
トヨタ自動車株式会社
防音カバー
5日前
ヤマハ株式会社
連打判定装置および方法、プログラム
27日前
シャープ株式会社
制御装置、電気機器、およびシステム
20日前
トヨタ自動車株式会社
制御装置
21日前
株式会社麗光
防音積層体とその製造に用いる遮音膜、および遮音膜シート
10日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
6日前
本田技研工業株式会社
音声認識方法および音声認識装置
19日前
井関農機株式会社
作業車の操縦者用騒音低減装置
1か月前
コニカミノルタ株式会社
音声変換装置、音声変換方法および音声変換プログラム
25日前
ローランド株式会社
鍵盤装置および鍵の揺動の規制方法
1か月前
日本電波工業株式会社
音声再生装置及び音声再生方法
1か月前
ローランド株式会社
鍵盤装置および押鍵情報の検出方法
1か月前
ローランド株式会社
鍵盤装置および押鍵情報の検出方法
1か月前
本田技研工業株式会社
能動型効果音発生装置及び能動型効果音生成方法
今日
ブラザー工業株式会社
カラオケシステム、及び、カラオケ装置
1か月前
続きを見る
他の特許を見る