TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024098143
公報種別公開特許公報(A)
公開日2024-07-22
出願番号2023208671
出願日2023-12-11
発明の名称音声処理のためのシステムおよび方法
出願人株式会社東芝
代理人弁理士法人鈴榮特許綜合事務所
主分類G10L 15/22 20060101AFI20240712BHJP(楽器;音響)
要約【課題】音声処理のため、特に、音声認識および音声言語理解を改良するコンピュータ実施方法を提供する。
【解決手段】音声処理システムを訓練する方法は、ユーザによる発話をキャプチャしたオーディオ信号を受信することと、非自己回帰型エンコーダニューラルネットワークを備えるエンコーダによって、オーディオ信号の埋め込みと発話の初期書き起こしとを生成することと、しきい値信頼度レベルを下回る信頼度スコアを有する初期書き起こし内のトークンをマスクしマスクされたトークン列を生成することと、非自己回帰型双方向デコーダニューラルネットワークを備える出力デコーダによってオーディオ信号の埋め込みとマスクされたトークン列とを処理して、初期書き起こしを修正した音声処理出力を生成することと、を含む。
【選択図】図10
特許請求の範囲【請求項1】
音声処理のためのコンピュータ実施方法であって、
ユーザによる発話をキャプチャしたオーディオ信号を受信することと、
非自己回帰型エンコーダニューラルネットワークを備えるエンコーダによって前記オーディオ信号を処理して、前記オーディオ信号の埋め込みと、前記発話の初期書き起こしとを生成することと、ここにおいて、前記初期書き起こしは、1つまたは複数のトークンを備え、前記1つまたは複数のトークンの各々は、前記初期書き起こし内での位置に対する正しいトークンであることの第1の信頼度スコアに関連付けられており、
前記初期書き起こしを修正して、マスクされたトークン列を生成することと、ここにおいて、前記初期書き起こしを修正することは、しきい値信頼度レベルを下回る第1の信頼度スコアを有する前記初期書き起こし内の前記1つまたは複数のトークンをマスクすることを備え、
非自己回帰型双方向デコーダニューラルネットワークを備える出力デコーダによって、前記オーディオ信号の前記埋め込みと、前記マスクされたトークン列とを処理して、音声処理出力を生成することと、
を備え、前記音声処理出力は、
前記発話の出力書き起こしを生成する前記マスクされたトークン列内の複数のマスクされたトークンの各々についての予測されたトークンと、
前記発話の分類を示すラベルと、
前記出力書き起こし内の複数のそれぞれの第1の単語に関連付けられた複数のパラメータタイプを示す1つまたは複数のラベルと、ここで、前記複数のパラメータタイプは、前記発話の前記分類に関連付けられている、
を備える、方法。
続きを表示(約 2,900 文字)【請求項2】
前記出力デコーダの前記デコーダニューラルネットワークは、
前記マスクされたトークン列内の前記複数のマスクされたトークンの各々についての前記予測されたトークンを生成するための第1の出力ヘッドと、
前記出力書き起こし内の前記複数のそれぞれの第1の単語に関連付けられた複数のパラメータタイプを示す前記1つまたは複数のラベルを生成するための第2の出力ヘッドと、
を備え、
前記第1の出力ヘッドと前記第2の出力ヘッドは異なる出力ヘッドである、
請求項1に記載の方法。
【請求項3】
前記発話の前記出力書き起こしを生成することは、前記マスクされたトークン列内の前記複数のマスクされたトークンについての複数のトークン予測を反復改良することを備え、反復改良処理は、
前記マスクされたトークン列内の前記複数のマスクされたトークンの各々についての前記予測されたトークンを生成することと、ここにおいて、各予測されたトークンは、前記正しいトークンであることの前記第1の信頼度スコアに関連付けられており、
各予測されたトークンについて、前記第1の信頼度スコアが前記しきい値信頼度レベルを上回るときは、前記マスクされたトークン列内の対応するマスクされたトークンを前記予測されたトークンに置き換え、前記第1の信頼度スコアが前記しきい値信頼度レベル以下であるときは、前記マスクされたトークン列内の前記対応するマスクされたトークンを維持することと、
を備える、請求項1に記載の方法。
【請求項4】
前記エンコーダによって処理することは、前記エンコーダニューラルネットワークの1つまたは複数の中間層において、
前記オーディオ信号の中間層埋め込みと、前記発話の中間層書き起こしとを生成することと、ここにおいて、前記中間層書き起こしは、1つまたは複数のトークンを備え、前記1つまたは複数のトークンの各々は、前記中間層書き起こし内でのその位置に対する正しいトークンであることの第2の信頼度スコアに関連付けられており、
前記中間層書き起こしを修正して、中間層のマスクされたトークン列を生成することと、ここにおいて、前記中間層書き起こしを修正することは、中間層しきい値信頼度レベルを下回る第2の信頼度スコアを有する前記中間層書き起こし内の前記1つまたは複数のトークンをマスクすることを備え、
非自己回帰型双方向デコーダニューラルネットワークを備える中間層デコーダによって、前記オーディオ信号の前記中間層埋め込みと、前記中間層のマスクされたトークン列とを処理して、中間層復号出力を生成することと、
前記オーディオ信号の前記中間層埋め込みと、前記中間層復号出力とを組み合わせて、前記エンコーダニューラルネットワークのそれぞれの中間層に続く前記エンコーダニューラルネットワークの1つまたは複数の後続のニューラルネットワーク層のための入力を提供することと、
前記1つまたは複数の後続のニューラルネットワーク層によって前記入力を処理して、前記オーディオ信号の前記埋め込みと、前記発話の前記初期書き起こしとを生成することと、
を備える、請求項1に記載の方法。
【請求項5】
前記中間層復号出力は、
前記中間層のマスクされたトークン列内の複数のマスクされたトークンの各々についてのトークンを予測するための複数の候補トークンにわたる確率分布を備えるマスクされたトークンの確率分布と、
前記発話の分類を示す複数のラベルにわたる確率分布を備える発話分類確率分布と、
前記中間層書き起こし内の前記複数のそれぞれの第2の単語についてのパラメータタイプを示す複数のラベルにわたる確率分布を備えるパラメータタイプ確率分布と、
を備える、請求項4に記載の方法。
【請求項6】
前記オーディオ信号の前記中間層埋め込みと前記中間層復号出力とを組み合わせることは、
前記マスクされたトークンの確率分布、前記発話分類確率分布、および前記パラメータタイプ確率分布を組み合わせることと、
次元が前記オーディオ信号の前記中間層埋め込みと一致するように、複数の組み合わされた確率分布の線形投影を行うことと、
線形投影された組み合わされた確率分布と、前記オーディオ信号の前記中間層埋め込みとを合計することと、
を備える、請求項5に記載の方法。
【請求項7】
前記オーディオ信号は、複数のオーディオセグメントを備え、前記発話の前記中間層書き起こしを生成することは、各オーディオセグメントを書き起こすための複数の候補トークンにわたる確率分布を生成することと、各オーディオセグメントについての前記複数の組み合わされた確率分布に基づいて前記中間層書き起こしを生成することとを備え、
前記オーディオ信号の前記中間層埋め込みと前記中間層復号出力とを組み合わせることは、
前記中間層書き起こし内の各トークンに対応するオーディオセグメント位置を決定することと、
前記中間層書き起こし内の複数の対応するトークンに基づいて、前記マスクされたトークンの確率分布と、前記パラメータタイプ確率分布とを複数のオーディオセグメント位置にマッピングすることと、
前記発話分類確率分布を前記マッピングにおける前記複数のオーディオセグメント位置の各々に関連付けることと、
を備え、
前記マスクされたトークンの確率分布、前記発話分類確率分布、および前記パラメータタイプ確率分布を組み合わせることは、
前記マッピングにしたがう複数の対応するオーディオセグメント位置を有する、複数の候補トークンにわたる前記確率分布、前記マスクされたトークンの確率分布、前記発話分類確率分布、および前記パラメータタイプ確率分布を組み合わせることを備える、
請求項6に記載の方法。
【請求項8】
前記発話の前記初期書き起こしおよび/または前記中間層書き起こしは、CTCアルゴリズムに基づいて生成される、請求項4に記載の方法。
【請求項9】
前記出力デコーダによる前記発話の分類を示す前記ラベルを生成するための処理の前に、前記マスクされたトークン列の先頭にプレフィックストークンを付加すること、および/または、
前記中間層デコーダによる前記発話分類確率分布を生成するための処理の前に、前記中間層のマスクされたトークン列の先頭にプレフィックストークンを付加すること、
をさらに備える、請求項5に記載の方法。
【請求項10】
前記出力デコーダおよび/または前記中間層デコーダの前記デコーダニューラルネットワークは、トランスフォーマアーキテクチャに基づく、請求項4に記載の方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本明細書に記載の実施形態は、音声処理のため、特に、音声認識および音声言語理解(spoken language understanding)のためのシステムおよび方法に関する。
続きを表示(約 3,400 文字)【背景技術】
【0002】
音声認識方法およびシステムは、音声オーディオを受信し、そのような音声オーディオの内容、例えばそのような音声オーディオのテキスト内容を認識する。音声認識システムは、ハイブリッドシステムを含み、例えば音声を復号するためなど、音声オーディオの内容を決定するために、音響モデル(AM)と、発音辞書と、言語モデル(LM)とを含み得る。初期のハイブリッドシステムは、音響モデルおよび/または言語モデルに隠れマルコフモデル(HMM)または同様の統計的方法を利用していた。後のハイブリッドシステムは、音響モデルおよび/または言語モデルのうちの少なくとも1つにニューラルネットワークを利用している。これらのシステムは、ディープ音声認識システムと呼ばれることもある。
【0003】
エンドツーエンドアーキテクチャを有する音声認識システムも導入されている。これらのシステムでは、単一のニューラルネットワークが使用され、それに音響モデルと、発音辞書と、言語モデルとが暗黙的に一体化されているとみなすことができる。単一のニューラルネットワークは、再帰型ニューラルネットワークであり得る。最近になると、トランスフォーマモデルが音声認識システムに使用されている。トランスフォーマモデルは、依存関係がその距離にかかわらず捉えられるセルフアテンション機構を使用して音声認識を行い得る。トランスフォーマモデルは、エンコーダ・デコーダフレームワークを利用し得る。
【0004】
次に、非限定的な例によるシステムおよび方法について、添付図面を参照して説明する。
【図面の簡単な説明】
【0005】
図1Aは、例示的な実施形態によるボイスアシスタントシステムを例示する図である。
図1Bは、例示的な実施形態による音声書き起こしシステム(speech transcription system)を例示する図である。
図1Cは、例示的な実施形態によるボイスアシスタントを行うための方法のフロー図である。
図1Dは、例示的な実施形態による音声書き起こしを行うための方法のフロー図である。
図2は、例示的な実施形態による音声処理のための方法のフロー図である。
図3は、例示的な音声処理出力を例示する図である。
図4は、書き起こしを生成するための反復改良プロセスを例示する図である。
図5は、例示的な実施形態による音声処理システムの概略図である。
図6は、例示的なデコーダブロックの概略図である。
図7は、例示的なエンコーダブロックの概略図である。
図8は、例示的な実施形態によるエンコーダニューラルネットワークの概略図である。
図9は、エンコーダニューラルネットワークの中間層における処理の概略図である。
図10は、例示的な実施形態による音声処理システムを訓練するための方法のフロー図である。
図11は、訓練中のエンコーダニューラルネットワークの中間層において実施される処理のフロー図である。
図12は、例示的な実施形態による方法およびシステムを実装するためのハードウェアの概略図である。
【発明を実施するための形態】
【0006】
図において、同様の参照番号は同様の要素を指す。
【0007】
一態様によれば、音声処理のためのコンピュータ実施方法が提供される。本方法は、ユーザによる発話をキャプチャしたオーディオ信号を受信することを備える。本方法はさらに、非自己回帰型エンコーダニューラルネットワークを備えるエンコーダによって、オーディオ信号を処理して、オーディオ信号の埋め込みと発話の初期書き起こしとを生成することを備え、初期書き起こしは、1つまたは複数のトークンを備え、1つまたは複数のトークンの各々は、初期書き起こし内でのその位置に対する正しいトークンであることの第1の信頼度スコアに関連付けられている。本方法はさらに、初期書き起こしを修正して、マスクされたトークン列を生成することを備え、初期書き起こしを修正することは、しきい値信頼度レベルを下回る第1の信頼度スコアを有する初期書き起こし内の1つまたは複数のトークンをマスクすることを備える。本方法はさらに、非自己回帰型双方向デコーダニューラルネットワークを備える出力デコーダによって、オーディオ信号の埋め込みと、マスクされたトークン列とを処理して、音声処理出力を生成することを備え、音声処理出力は、発話の出力書き起こしを生成するマスクされたトークン列内の複数のマスクされたトークンの各々についての予測されたトークンと、発話の分類を示すラベルと、出力書き起こし内の複数のそれぞれの第1の単語に関連付けられた複数のパラメータタイプを示す1つまたは複数のラベルであって複数のパラメータタイプが発話の分類に関連付けられている1つまたは複数のラベルとを備える。
【0008】
開示される方法は、入力されたオーディオ信号(またはオーディオ信号の音響特徴)に対して音声認識と音声言語理解を合同して行う。特に、音声処理出力の予測されたトークンおよび出力書き起こし要素が音声認識に関連し、発話の分類を示すラベルおよびパラメータタイプを示す1つまたは複数のラベルが音声言語理解に関連する。例えば、発話の分類を示すラベルは、適切なデバイスまたはシステムによって発話に応答して行われるべきアクションに対応し得る。このタイプの音声処理出力は、「意図分類」として知られているときもある。パラメータタイプラベルに関しては、アクションは、アクションを完全に形成し実行するために特定のパラメータ値を決定することを必要とし得る。出力書き起こし内の単語(またはサブワード単位)には、必要なパラメータを埋めるための対応するパラメータタイプがラベル付けられ得る。このタイプの音声処理出力は、「スロットフィリング」(“slot filling”)として知られているときもある。次いで、本方法はさらに、例えば、適切なコマンドを送信することによって、デバイスまたはシステムにアクションを実施させることを備え得る。
【0009】
本方法は、非自己回帰型ニューラルネットワークを使用する。複数の時間ステップにわたって出力を生成する、典型的には、それまでに生成された出力が入力としてフィードバックされて一度に1つの要素を生成する自己回帰型ニューラルネットワークと比較して、非自己回帰型ニューラルネットワークは、そのすべての出力を同時に1つの時間ステップで生成する。非自己回帰的手法は、典型的には、それらの出力を自己回帰的手法よりも速く生成し、モバイルデバイスもしくは組込みシステムなどの計算リソースがより限られている計算システムにおいて、または低レイテンシが望まれる場合に使用され得る。例えば、音声言語理解システムの推論速度は、実行時間と入力された発話の長さとの比であるリアルタイムファクタ(RTF)を使用して測定され得る。本明細書に記載の方法による非自己回帰型システムを使用すると、同等の自己回帰型ベースラインと比較してRTFを6分の1減少させることを達成することができる。
【0010】
デコーダニューラルネットワークは双方向である。すなわち、入力列の特定の要素を処理するとき、双方向デコーダニューラルネットワークは、入力列においてその特定の要素に先行する要素と、列においてその特定の要素に続く後続要素との両方に基づいて、特定の要素を処理する。比較すると、単方向デコーダニューラルネットワークは、典型的には、特定の要素に先行する要素しか考慮しない。このようにして、デコーダニューラルネットワークは、入力の全体を考慮することによって出力を生成することができる。これは、デコーダによって行われるタスク、すなわちマスクされたトークンの予測および音声言語理解のためのラベルの生成が、デコーダへの入力の全体を条件とすることができることにより恩恵を受けるので、特に好適である。エンコーダニューラルネットワークも双方向であってもよい。
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する

関連特許

株式会社東芝
配電盤
10日前
株式会社東芝
制御回路
5日前
株式会社東芝
端子構造
19日前
株式会社東芝
吸音装置
24日前
株式会社東芝
駆動回路
24日前
株式会社東芝
半導体装置
13日前
株式会社東芝
偏向電磁石
9日前
株式会社東芝
半導体装置
2日前
株式会社東芝
半導体装置
20日前
株式会社東芝
軸流ファン
12日前
株式会社東芝
スイッチギヤ
1か月前
株式会社東芝
電力変換装置
18日前
株式会社東芝
集積回路装置
25日前
株式会社東芝
蓄熱システム
16日前
株式会社東芝
電力変換装置
23日前
株式会社東芝
粒子噴射ノズル
17日前
株式会社東芝
チャンネルベース
17日前
株式会社東芝
半導体モジュール
25日前
株式会社東芝
X線厚み測定装置
6日前
株式会社東芝
鉄道車両用空調装置
6日前
株式会社東芝
乾燥装置及び乾燥方法
17日前
株式会社東芝
検査装置及び検査方法
16日前
株式会社東芝
電力分配制御システム
24日前
株式会社東芝
測定方法及び測定装置
11日前
株式会社東芝
タービンおよび遮熱装置
3日前
株式会社東芝
制御演算装置及び制御装置
16日前
株式会社東芝
区分システム及び区分方法
19日前
株式会社東芝
プラント運転訓練システム
10日前
株式会社東芝
測距装置及び測距システム
11日前
株式会社東芝
半導体装置及びその製造方法
13日前
株式会社東芝
発電システムおよび制御装置
10日前
株式会社東芝
処理装置及びレーダシステム
6日前
株式会社東芝
情報処理装置及びプログラム
6日前
株式会社東芝
情報処理装置及びプログラム
6日前
株式会社東芝
半導体装置及びその製造方法
24日前
株式会社東芝
超電導線材および超電導コイル
20日前
続きを見る