特許ウォッチ

公開番号2025161551
公報種別公開特許公報(A)
公開日2025-10-24
出願番号2024064842
出願日2024-04-12
発明の名称エンコーダー・デコーダー装置、推論装置、およびプログラム
出願人日本放送協会
代理人個人,個人,個人,個人
主分類G10L 15/16 20060101AFI20251017BHJP(楽器;音響)
要約【課題】ストリーミング用途に対応することのできるクロスアテンション機構を備えたエンコーダー・デコーダー(AED)を提供する。
【解決手段】複製部は、第1入力特徴量の列を複数のマスクパターン用に複製する。マスク処理部は、複製された列ごとに異なるマスクパターンを用いて、上記第1入力特徴量の列をマスクする。エンコーダー部は、マスクされた上記第1入力特徴量の列をエンコードする。デコーダー部は、エンコーダー部から渡される情報に基づきクロスアテンションの処理を行って、デコード結果を出力する。線形変換部は、デコード結果を線形変換する。出力選択器は、バイナリーマスクを生成する。乗算部は、線形変換結果とバイナリーマスクとを乗じる。出力判定器は、線形変換結果の行列に対応する確率値の行列を生成して出力する。3種類の損失に基づき、各部の内部パラメーターを更新できるように構成する。
【選択図】図1
特許請求の範囲【請求項１】
入力される第１入力特徴量の列を複数のマスクパターン用に複製する複製部と、
前記列に含まれる一部の第１入力特徴量をマスクするマスク処理部であって、複製された前記列ごとに異なるマスクパターンを用いることによって、複製された前記列ごとにマスク対象とする第１入力特徴量の集合を異ならせるマスク処理部と、
マスクされた複数の前記列を入力し、マスクされた複数の前記列と、第１内部パラメーターとを用いて、複数の前記列それぞれに対応するエンコード結果の複数の列を生成するエンコーダー部と、
入力される第２入力特徴量の列と、前記エンコーダー部から渡される前記エンコード結果の複数の列と、に基づいて、第２内部パラメーターを用いて、クロスアテンションの処理を行うことによって、前記第２入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成されるデコード結果の行列を出力するデコーダー部と、
前記デコーダー部からの出力である前記デコード結果の行列を基に、第３内部パラメーターを用いて線形変換処理を行い、前記第２入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成される線形変換結果データの行列を出力する線形変換部と、
前記線形変換結果データの行列に基づいて、１または略１の値あるいは０または略０の値を要素とする行列であるバイナリーマスクを生成する出力選択器と、
前記線形変換結果データの行列が持つ各要素に、前記バイナリーマスクが持つ対応する要素を乗じて出力する乗算部と、
前記線形変換結果データの行列が持つ各要素を基に、前記線形変換結果データの行列に対応する確率値の行列を生成して出力する出力判定器と、
前記乗算部からの出力と、前記第１入力特徴量に対応する正解トークン列との間の誤差である第１損失（Ｌ）を算出する第１損失算出部と、
前記バイナリーマスクと、前記バイナリーマスクの正解との間の誤差である第２損失（Ｌ
ｍ
）を算出する第２損失算出部と、
前記出力判定器が出力する前記確率値の行列と、前記線形変換結果データの行列に対応する正解の確率値の行列との間の誤差である第３損失（Ｌ
ｄ
）を算出する第３損失算出部と、
を備え、
前記第２入力特徴量は、前記乗算部からの過去の出力に対応するトークン列の特徴量であり、
前記第１損失（Ｌ）と前記第２損失（Ｌ
ｍ
）と第３損失（Ｌ
ｄ
）とを総合する総合損失に基づいて、誤差逆伝搬法により、前記第３内部パラメーターの値と前記第２内部パラメーターの値と前記第１内部パラメーターの値とを更新するように構成した、
エンコーダー・デコーダー装置。
続きを表示（約 2,900 文字）【請求項２】
前記出力選択器は、前記線形変換結果データの行列が持つ各要素に、ガンベルソフトマックス関数を適用することによって、前記バイナリーマスクを生成する、
請求項１に記載のエンコーダー・デコーダー装置。
【請求項３】
前記バイナリーマスクの正解は、前記第２入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成される行列であり、当該行列の対角線近傍の要素を非零として、当該行列のその他の要素を０または略０とした行列である、
請求項１に記載のエンコーダー・デコーダー装置。
【請求項４】
前記線形変換結果データが持つ各要素にソフトマックス関数を適用して確率値行列を生成する確率算出部と、
前記確率算出部が算出した前記確率値行列を基に、前記確率値行列の第ｕ行の第１列目から第ｍ列目までの値の総和を、前記正解の確率値の行列の第ｕ行第ｍ列の要素とするように、前記正解の確率値の行列を生成する累積分布変換部と、
をさらに備える請求項１に記載のエンコーダー・デコーダー装置。
【請求項５】
入力される第１入力特徴量の列を入力し、前記列と、第１内部パラメーターとを用いて、前記列に対応するエンコード結果の列を生成するエンコーダー部と、
入力される第２入力特徴量の列と、前記エンコーダー部から渡される前記エンコード結果の列と、に基づいて、第２内部パラメーターを用いて、クロスアテンションの処理を行うことによって、前記第２入力特徴量の列に対応するデコード結果の列を出力するデコーダー部と、
前記デコーダー部からの出力である前記デコード結果の列を基に、第３内部パラメーターを用いて、線形変換処理を行い、線形変換結果データを出力する線形変換部と、
前記線形変換結果データを基に、前記線形変換結果データに対応する確率値を生成して出力する出力判定器と、
前記出力判定器からの出力が所定の閾値以上である場合に、前記線形変換部からの出力に基づくトークンを出力する出力制御部と、
を備え、
前記第２入力特徴量は、前記出力制御部からの過去の出力に対応するトークン列の特徴量であり、
前記第１内部パラメーターの値と前記第２内部パラメーターの値と前記第３内部パラメーターの値とは、請求項１から４までのいずれかに記載のエンコーダー・デコーダー装置による機械学習の結果として得られた値である、
推論装置。
【請求項６】
入力される第１入力特徴量の列を複数のマスクパターン用に複製する複製部と、
前記列に含まれる一部の第１入力特徴量をマスクするマスク処理部であって、複製された前記列ごとに異なるマスクパターンを用いることによって、複製された前記列ごとにマスク対象とする第１入力特徴量の集合を異ならせるマスク処理部と、
マスクされた複数の前記列を入力し、マスクされた複数の前記列と、第１内部パラメーターとを用いて、複数の前記列それぞれに対応するエンコード結果の複数の列を生成するエンコーダー部と、
入力される第２入力特徴量の列と、前記エンコーダー部から渡される前記エンコード結果の複数の列と、に基づいて、第２内部パラメーターを用いて、クロスアテンションの処理を行うことによって、前記第２入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成されるデコード結果の行列を出力するデコーダー部と、
前記デコーダー部からの出力である前記デコード結果の行列を基に、第３内部パラメーターを用いて線形変換処理を行い、前記第２入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成される線形変換結果データの行列を出力する線形変換部と、
前記線形変換結果データの行列に基づいて、１または略１の値あるいは０または略０の値を要素とする行列であるバイナリーマスクを生成する出力選択器と、
前記線形変換結果データの行列が持つ各要素に、前記バイナリーマスクが持つ対応する要素を乗じて出力する乗算部と、
前記線形変換結果データの行列が持つ各要素を基に、前記線形変換結果データの行列に対応する確率値の行列を生成して出力する出力判定器と、
前記乗算部からの出力と、前記第１入力特徴量に対応する正解トークン列との間の誤差である第１損失（Ｌ）を算出する第１損失算出部と、
前記バイナリーマスクと、前記バイナリーマスクの正解との間の誤差である第２損失（Ｌ
ｍ
）を算出する第２損失算出部と、
前記出力判定器が出力する前記確率値の行列と、前記線形変換結果データの行列に対応する正解の確率値の行列との間の誤差である第３損失（Ｌ
ｄ
）を算出する第３損失算出部と、
を備え、
前記第２入力特徴量は、前記乗算部からの過去の出力に対応するトークン列の特徴量であり、
前記第１損失（Ｌ）と前記第２損失（Ｌ
ｍ
）と第３損失（Ｌ
ｄ
）とを総合する総合損失に基づいて、誤差逆伝搬法により、前記第３内部パラメーターの値と前記第２内部パラメーターの値と前記第１内部パラメーターの値とを更新するように構成した、
エンコーダー・デコーダー装置、としてコンピューターを機能させるためのプログラム。
【請求項７】
入力される第１入力特徴量の列を入力し、前記列と、第１内部パラメーターとを用いて、前記列に対応するエンコード結果の列を生成するエンコーダー部と、
入力される第２入力特徴量の列と、前記エンコーダー部から渡される前記エンコード結果の列と、に基づいて、第２内部パラメーターを用いて、クロスアテンションの処理を行うことによって、前記第２入力特徴量の列に対応するデコード結果の列を出力するデコーダー部と、
前記デコーダー部からの出力である前記デコード結果の列を基に、第３内部パラメーターを用いて、線形変換処理を行い、線形変換結果データを出力する線形変換部と、
前記線形変換結果データを基に、前記線形変換結果データに対応する確率値を生成して出力する出力判定器と、
前記出力判定器からの出力が所定の閾値以上である場合に、前記線形変換部からの出力に基づくトークンを出力する出力制御部と、
を備え、
前記第２入力特徴量は、前記出力制御部からの過去の出力に対応するトークン列の特徴量であり、
前記第１内部パラメーターの値と前記第２内部パラメーターの値と前記第３内部パラメーターの値とは、請求項１から４までのいずれかに記載のエンコーダー・デコーダー装置による機械学習の結果として得られた値である、
推論装置、としてコンピューターを機能させるためのプログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、エンコーダー・デコーダー装置、推論装置、およびプログラムに関する。
続きを表示（約 2,400 文字）【背景技術】
【０００２】
クロスアテンション機構を備えたエンコーダー・デコーダー（attention encoder - decoder，略称：ＡＥＤ）型の音声認識モデルが研究され、高い認識精度を達成している。
【０００３】
非特許文献１には、クロスアテンションを用いているモデルにおいて、クロスアテンションのスコアを利用して出力するか否かを判定する技術が記載されている。
【先行技術文献】
【非特許文献】
【０００４】
Mohan Li，Shucong Zhang，Catalin Zorila，Rama Doddipatla，“Transformer-based Streaming ASR with Cumulative Attention“，arXiv:2203.05736，https://arxiv.org/pdf/2203.05736.pdf，ICASSP 2022，2022年．
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、従来技術には、次のような課題が存在する。即ち、ＡＥＤ型のモデルは、基本的にオフラインでの音声認識に用いられる。ＡＥＤ型の音声認識モデルをストリーミング用途に対応可能にする技術が求められる。
【０００６】
第１の課題として、従来技術によるＡＥＤ型モデルを仮にそのままストリーミング入力用に用いる場合には、次のような問題が生じ得る。つまり、そのような場合には、ＡＥＤ型モデルの学習時と、学習済みのＡＥＤ型モデルを用いた推論時とで、入力データ（音声認識の場合には、音響特徴量を参照する範囲が異なってしまう。この違いが、ＡＥＤ型モデルの推論精度（音声認識の場合には、音声認識精度）に悪影響を及ぼし得る。このような問題を解消しながらＡＥＤ型音声認識モデルをストリーミング入力に対応させることが望まれる。
【０００７】
第２の課題として、入力データにノイズが含まれる場合に、ＡＥＤ型モデルが、誤った推論結果を出力する場合がある。音声認識処理場合には、入力データのノイズとは、背景音等によるノイズや不明瞭な発話である。つまり、このようなノイズにより、音声認識結果に誤りが生じ得る。
【０００８】
本発明は、上記の課題認識に基づいて行なわれたものであり、ストリーミング用途に対応することのできるクロスアテンション機構を備えたエンコーダー・デコーダー（ＡＥＤ）型モデルを用いたエンコーダー・デコーダー装置、推論装置、およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【０００９】
［１］上記の課題を解決するため、本発明の一態様によるエンコーダー・デコーダー装置は、入力される第１入力特徴量の列を複数のマスクパターン用に複製する複製部と、前記列に含まれる一部の第１入力特徴量をマスクするマスク処理部であって、複製された前記列ごとに異なるマスクパターンを用いることによって、複製された前記列ごとにマスク対象とする第１入力特徴量の集合を異ならせるマスク処理部と、マスクされた複数の前記列を入力し、マスクされた複数の前記列と、第１内部パラメーターとを用いて、複数の前記列それぞれに対応するエンコード結果の複数の列を生成するエンコーダー部と、入力される第２入力特徴量の列と、前記エンコーダー部から渡される前記エンコード結果の複数の列と、に基づいて、第２内部パラメーターを用いて、クロスアテンションの処理を行うことによって、前記第２入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成されるデコード結果の行列を出力するデコーダー部と、前記デコーダー部からの出力である前記デコード結果の行列を基に、第３内部パラメーターを用いて線形変換処理を行い、前記第２入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成される線形変換結果データの行列を出力する線形変換部と、前記線形変換結果データの行列に基づいて、１または略１の値あるいは０または略０の値を要素とする行列であるバイナリーマスクを生成する出力選択器と、前記線形変換結果データの行列が持つ各要素に、前記バイナリーマスクが持つ対応する要素を乗じて出力する乗算部と、前記線形変換結果データの行列が持つ各要素を基に、前記線形変換結果データの行列に対応する確率値の行列を生成して出力する出力判定器と、前記乗算部からの出力と、前記第１入力特徴量に対応する正解トークン列との間の誤差である第１損失（Ｌ）を算出する第１損失算出部と、前記バイナリーマスクと、前記バイナリーマスクの正解との間の誤差である第２損失（Ｌ
ｍ
）を算出する第２損失算出部と、前記出力判定器が出力する前記確率値の行列と、前記線形変換結果データの行列に対応する正解の確率値の行列との間の誤差である第３損失（Ｌ
ｄ
）を算出する第３損失算出部と、を備え、前記第２入力特徴量は、前記乗算部からの過去の出力に対応するトークン列の特徴量であり、前記第１損失（Ｌ）と前記第２損失（Ｌ
ｍ
）と第３損失（Ｌ
ｄ
）とを総合する総合損失に基づいて、誤差逆伝搬法により、前記第３内部パラメーターの値と前記第２内部パラメーターの値と前記第１内部パラメーターの値とを更新するように構成した、ものである。
【００１０】
［２］また、本発明の一態様は、上記［１］のエンコーダー・デコーダー装置において、前記出力選択器は、前記線形変換結果データの行列が持つ各要素に、ガンベルソフトマックス関数を適用することによって、前記バイナリーマスクを生成する、ものである。
（【００１１】以降は省略されています）

関連特許