TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025161551
公報種別
公開特許公報(A)
公開日
2025-10-24
出願番号
2024064842
出願日
2024-04-12
発明の名称
エンコーダー・デコーダー装置、推論装置、およびプログラム
出願人
日本放送協会
代理人
個人
,
個人
,
個人
,
個人
主分類
G10L
15/16 20060101AFI20251017BHJP(楽器;音響)
要約
【課題】ストリーミング用途に対応することのできるクロスアテンション機構を備えたエンコーダー・デコーダー(AED)を提供する。
【解決手段】複製部は、第1入力特徴量の列を複数のマスクパターン用に複製する。マスク処理部は、複製された列ごとに異なるマスクパターンを用いて、上記第1入力特徴量の列をマスクする。エンコーダー部は、マスクされた上記第1入力特徴量の列をエンコードする。デコーダー部は、エンコーダー部から渡される情報に基づきクロスアテンションの処理を行って、デコード結果を出力する。線形変換部は、デコード結果を線形変換する。出力選択器は、バイナリーマスクを生成する。乗算部は、線形変換結果とバイナリーマスクとを乗じる。出力判定器は、線形変換結果の行列に対応する確率値の行列を生成して出力する。3種類の損失に基づき、各部の内部パラメーターを更新できるように構成する。
【選択図】図1
特許請求の範囲
【請求項1】
入力される第1入力特徴量の列を複数のマスクパターン用に複製する複製部と、
前記列に含まれる一部の第1入力特徴量をマスクするマスク処理部であって、複製された前記列ごとに異なるマスクパターンを用いることによって、複製された前記列ごとにマスク対象とする第1入力特徴量の集合を異ならせるマスク処理部と、
マスクされた複数の前記列を入力し、マスクされた複数の前記列と、第1内部パラメーターとを用いて、複数の前記列それぞれに対応するエンコード結果の複数の列を生成するエンコーダー部と、
入力される第2入力特徴量の列と、前記エンコーダー部から渡される前記エンコード結果の複数の列と、に基づいて、第2内部パラメーターを用いて、クロスアテンションの処理を行うことによって、前記第2入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成されるデコード結果の行列を出力するデコーダー部と、
前記デコーダー部からの出力である前記デコード結果の行列を基に、第3内部パラメーターを用いて線形変換処理を行い、前記第2入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成される線形変換結果データの行列を出力する線形変換部と、
前記線形変換結果データの行列に基づいて、1または略1の値あるいは0または略0の値を要素とする行列であるバイナリーマスクを生成する出力選択器と、
前記線形変換結果データの行列が持つ各要素に、前記バイナリーマスクが持つ対応する要素を乗じて出力する乗算部と、
前記線形変換結果データの行列が持つ各要素を基に、前記線形変換結果データの行列に対応する確率値の行列を生成して出力する出力判定器と、
前記乗算部からの出力と、前記第1入力特徴量に対応する正解トークン列との間の誤差である第1損失(L)を算出する第1損失算出部と、
前記バイナリーマスクと、前記バイナリーマスクの正解との間の誤差である第2損失(L
m
)を算出する第2損失算出部と、
前記出力判定器が出力する前記確率値の行列と、前記線形変換結果データの行列に対応する正解の確率値の行列との間の誤差である第3損失(L
d
)を算出する第3損失算出部と、
を備え、
前記第2入力特徴量は、前記乗算部からの過去の出力に対応するトークン列の特徴量であり、
前記第1損失(L)と前記第2損失(L
m
)と第3損失(L
d
)とを総合する総合損失に基づいて、誤差逆伝搬法により、前記第3内部パラメーターの値と前記第2内部パラメーターの値と前記第1内部パラメーターの値とを更新するように構成した、
エンコーダー・デコーダー装置。
続きを表示(約 2,900 文字)
【請求項2】
前記出力選択器は、前記線形変換結果データの行列が持つ各要素に、ガンベルソフトマックス関数を適用することによって、前記バイナリーマスクを生成する、
請求項1に記載のエンコーダー・デコーダー装置。
【請求項3】
前記バイナリーマスクの正解は、前記第2入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成される行列であり、当該行列の対角線近傍の要素を非零として、当該行列のその他の要素を0または略0とした行列である、
請求項1に記載のエンコーダー・デコーダー装置。
【請求項4】
前記線形変換結果データが持つ各要素にソフトマックス関数を適用して確率値行列を生成する確率算出部と、
前記確率算出部が算出した前記確率値行列を基に、前記確率値行列の第u行の第1列目から第m列目までの値の総和を、前記正解の確率値の行列の第u行第m列の要素とするように、前記正解の確率値の行列を生成する累積分布変換部と、
をさらに備える請求項1に記載のエンコーダー・デコーダー装置。
【請求項5】
入力される第1入力特徴量の列を入力し、前記列と、第1内部パラメーターとを用いて、前記列に対応するエンコード結果の列を生成するエンコーダー部と、
入力される第2入力特徴量の列と、前記エンコーダー部から渡される前記エンコード結果の列と、に基づいて、第2内部パラメーターを用いて、クロスアテンションの処理を行うことによって、前記第2入力特徴量の列に対応するデコード結果の列を出力するデコーダー部と、
前記デコーダー部からの出力である前記デコード結果の列を基に、第3内部パラメーターを用いて、線形変換処理を行い、線形変換結果データを出力する線形変換部と、
前記線形変換結果データを基に、前記線形変換結果データに対応する確率値を生成して出力する出力判定器と、
前記出力判定器からの出力が所定の閾値以上である場合に、前記線形変換部からの出力に基づくトークンを出力する出力制御部と、
を備え、
前記第2入力特徴量は、前記出力制御部からの過去の出力に対応するトークン列の特徴量であり、
前記第1内部パラメーターの値と前記第2内部パラメーターの値と前記第3内部パラメーターの値とは、請求項1から4までのいずれかに記載のエンコーダー・デコーダー装置による機械学習の結果として得られた値である、
推論装置。
【請求項6】
入力される第1入力特徴量の列を複数のマスクパターン用に複製する複製部と、
前記列に含まれる一部の第1入力特徴量をマスクするマスク処理部であって、複製された前記列ごとに異なるマスクパターンを用いることによって、複製された前記列ごとにマスク対象とする第1入力特徴量の集合を異ならせるマスク処理部と、
マスクされた複数の前記列を入力し、マスクされた複数の前記列と、第1内部パラメーターとを用いて、複数の前記列それぞれに対応するエンコード結果の複数の列を生成するエンコーダー部と、
入力される第2入力特徴量の列と、前記エンコーダー部から渡される前記エンコード結果の複数の列と、に基づいて、第2内部パラメーターを用いて、クロスアテンションの処理を行うことによって、前記第2入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成されるデコード結果の行列を出力するデコーダー部と、
前記デコーダー部からの出力である前記デコード結果の行列を基に、第3内部パラメーターを用いて線形変換処理を行い、前記第2入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成される線形変換結果データの行列を出力する線形変換部と、
前記線形変換結果データの行列に基づいて、1または略1の値あるいは0または略0の値を要素とする行列であるバイナリーマスクを生成する出力選択器と、
前記線形変換結果データの行列が持つ各要素に、前記バイナリーマスクが持つ対応する要素を乗じて出力する乗算部と、
前記線形変換結果データの行列が持つ各要素を基に、前記線形変換結果データの行列に対応する確率値の行列を生成して出力する出力判定器と、
前記乗算部からの出力と、前記第1入力特徴量に対応する正解トークン列との間の誤差である第1損失(L)を算出する第1損失算出部と、
前記バイナリーマスクと、前記バイナリーマスクの正解との間の誤差である第2損失(L
m
)を算出する第2損失算出部と、
前記出力判定器が出力する前記確率値の行列と、前記線形変換結果データの行列に対応する正解の確率値の行列との間の誤差である第3損失(L
d
)を算出する第3損失算出部と、
を備え、
前記第2入力特徴量は、前記乗算部からの過去の出力に対応するトークン列の特徴量であり、
前記第1損失(L)と前記第2損失(L
m
)と第3損失(L
d
)とを総合する総合損失に基づいて、誤差逆伝搬法により、前記第3内部パラメーターの値と前記第2内部パラメーターの値と前記第1内部パラメーターの値とを更新するように構成した、
エンコーダー・デコーダー装置、としてコンピューターを機能させるためのプログラム。
【請求項7】
入力される第1入力特徴量の列を入力し、前記列と、第1内部パラメーターとを用いて、前記列に対応するエンコード結果の列を生成するエンコーダー部と、
入力される第2入力特徴量の列と、前記エンコーダー部から渡される前記エンコード結果の列と、に基づいて、第2内部パラメーターを用いて、クロスアテンションの処理を行うことによって、前記第2入力特徴量の列に対応するデコード結果の列を出力するデコーダー部と、
前記デコーダー部からの出力である前記デコード結果の列を基に、第3内部パラメーターを用いて、線形変換処理を行い、線形変換結果データを出力する線形変換部と、
前記線形変換結果データを基に、前記線形変換結果データに対応する確率値を生成して出力する出力判定器と、
前記出力判定器からの出力が所定の閾値以上である場合に、前記線形変換部からの出力に基づくトークンを出力する出力制御部と、
を備え、
前記第2入力特徴量は、前記出力制御部からの過去の出力に対応するトークン列の特徴量であり、
前記第1内部パラメーターの値と前記第2内部パラメーターの値と前記第3内部パラメーターの値とは、請求項1から4までのいずれかに記載のエンコーダー・デコーダー装置による機械学習の結果として得られた値である、
推論装置、としてコンピューターを機能させるためのプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、エンコーダー・デコーダー装置、推論装置、およびプログラムに関する。
続きを表示(約 2,400 文字)
【背景技術】
【0002】
クロスアテンション機構を備えたエンコーダー・デコーダー(attention encoder - decoder,略称:AED)型の音声認識モデルが研究され、高い認識精度を達成している。
【0003】
非特許文献1には、クロスアテンションを用いているモデルにおいて、クロスアテンションのスコアを利用して出力するか否かを判定する技術が記載されている。
【先行技術文献】
【非特許文献】
【0004】
Mohan Li,Shucong Zhang,Catalin Zorila,Rama Doddipatla,“Transformer-based Streaming ASR with Cumulative Attention“,arXiv:2203.05736,https://arxiv.org/pdf/2203.05736.pdf,ICASSP 2022,2022年.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術には、次のような課題が存在する。即ち、AED型のモデルは、基本的にオフラインでの音声認識に用いられる。AED型の音声認識モデルをストリーミング用途に対応可能にする技術が求められる。
【0006】
第1の課題として、従来技術によるAED型モデルを仮にそのままストリーミング入力用に用いる場合には、次のような問題が生じ得る。つまり、そのような場合には、AED型モデルの学習時と、学習済みのAED型モデルを用いた推論時とで、入力データ(音声認識の場合には、音響特徴量を参照する範囲が異なってしまう。この違いが、AED型モデルの推論精度(音声認識の場合には、音声認識精度)に悪影響を及ぼし得る。このような問題を解消しながらAED型音声認識モデルをストリーミング入力に対応させることが望まれる。
【0007】
第2の課題として、入力データにノイズが含まれる場合に、AED型モデルが、誤った推論結果を出力する場合がある。音声認識処理場合には、入力データのノイズとは、背景音等によるノイズや不明瞭な発話である。つまり、このようなノイズにより、音声認識結果に誤りが生じ得る。
【0008】
本発明は、上記の課題認識に基づいて行なわれたものであり、ストリーミング用途に対応することのできるクロスアテンション機構を備えたエンコーダー・デコーダー(AED)型モデルを用いたエンコーダー・デコーダー装置、推論装置、およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0009】
[1]上記の課題を解決するため、本発明の一態様によるエンコーダー・デコーダー装置は、入力される第1入力特徴量の列を複数のマスクパターン用に複製する複製部と、前記列に含まれる一部の第1入力特徴量をマスクするマスク処理部であって、複製された前記列ごとに異なるマスクパターンを用いることによって、複製された前記列ごとにマスク対象とする第1入力特徴量の集合を異ならせるマスク処理部と、マスクされた複数の前記列を入力し、マスクされた複数の前記列と、第1内部パラメーターとを用いて、複数の前記列それぞれに対応するエンコード結果の複数の列を生成するエンコーダー部と、入力される第2入力特徴量の列と、前記エンコーダー部から渡される前記エンコード結果の複数の列と、に基づいて、第2内部パラメーターを用いて、クロスアテンションの処理を行うことによって、前記第2入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成されるデコード結果の行列を出力するデコーダー部と、前記デコーダー部からの出力である前記デコード結果の行列を基に、第3内部パラメーターを用いて線形変換処理を行い、前記第2入力特徴量の列に対応する行方向と前記マスクパターンに対応する列方向とで構成される線形変換結果データの行列を出力する線形変換部と、前記線形変換結果データの行列に基づいて、1または略1の値あるいは0または略0の値を要素とする行列であるバイナリーマスクを生成する出力選択器と、前記線形変換結果データの行列が持つ各要素に、前記バイナリーマスクが持つ対応する要素を乗じて出力する乗算部と、前記線形変換結果データの行列が持つ各要素を基に、前記線形変換結果データの行列に対応する確率値の行列を生成して出力する出力判定器と、前記乗算部からの出力と、前記第1入力特徴量に対応する正解トークン列との間の誤差である第1損失(L)を算出する第1損失算出部と、前記バイナリーマスクと、前記バイナリーマスクの正解との間の誤差である第2損失(L
m
)を算出する第2損失算出部と、前記出力判定器が出力する前記確率値の行列と、前記線形変換結果データの行列に対応する正解の確率値の行列との間の誤差である第3損失(L
d
)を算出する第3損失算出部と、を備え、前記第2入力特徴量は、前記乗算部からの過去の出力に対応するトークン列の特徴量であり、前記第1損失(L)と前記第2損失(L
m
)と第3損失(L
d
)とを総合する総合損失に基づいて、誤差逆伝搬法により、前記第3内部パラメーターの値と前記第2内部パラメーターの値と前記第1内部パラメーターの値とを更新するように構成した、ものである。
【0010】
[2]また、本発明の一態様は、上記[1]のエンコーダー・デコーダー装置において、前記出力選択器は、前記線形変換結果データの行列が持つ各要素に、ガンベルソフトマックス関数を適用することによって、前記バイナリーマスクを生成する、ものである。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
個人
遮音材
19日前
個人
歌唱補助器具
28日前
個人
音声出力装置
19日前
横浜ゴム株式会社
音響材
12日前
個人
管楽器用音質改善留め具
6日前
NOK株式会社
吸音構造体
21日前
矢崎総業株式会社
車両用対話システム
20日前
横浜ゴム株式会社
多層空洞音響材
19日前
株式会社第一興商
カラオケ装置
20日前
ヤマハ株式会社
音処理装置及び音処理方法
6日前
株式会社デンソー
制御装置、制御方法、及び制御プログラム
12日前
株式会社第一興商
カラオケ装置、カラオケシステム
14日前
株式会社コルグ
楽音信号変換装置、楽音信号変換方法、プログラム
22日前
株式会社枚方技研
方向付き楽器固定具
20日前
株式会社デンソー
制御装置、ロボットシステム、制御方法、及び制御プログラム
27日前
ピクシーダストテクノロジーズ株式会社
遮音ユニット、遮音構造体、および区画設備
21日前
株式会社イービーエム
音声分析装置、音声分析システム、音声分析方法、及び音声分析プログラム
12日前
カシオ計算機株式会社
電子鍵盤楽器
21日前
ヤマハ株式会社
コード推定装置およびコード推定方法
今日
株式会社トランストロン
アクティブノイズ制御装置、アクティブノイズ制御方法及びアクティブノイズ制御プログラム
27日前
パナソニックオートモーティブシステムズ株式会社
能動騒音低減装置、移動体装置、及び、能動騒音低減方法
20日前
AlphaTheta株式会社
情報処理装置
27日前
カシオ計算機株式会社
電子楽器、方法およびプログラム
12日前
ヤマハ株式会社
鍵盤装置及び演奏操作装置
12日前
ノキア テクノロジーズ オサケユイチア
オーディオ表現および関連するレンダリング
14日前
テイラー - リスタグ、インコーポレイテッド ドゥーイング ビジネス アズ テイラー ギターズ
ネック組立て特徴をもつギター
7日前
ビーサイズ株式会社
情報処理装置、情報処理端末、情報処理方法、情報処理プログラム
12日前
ヤマハ株式会社
データ出力方法、プログラム、データ出力装置および電子楽器
12日前
ルシード インコーポレイテッド
情動音楽の推薦および作曲のための方法、システム、および媒体
今日
華為技術有限公司
チャネル間位相差パラメータ符号化方法および装置
19日前
華為技術有限公司
マルチチャネル信号の符号化方法およびエンコーダ
8日前
ザ リサーチ インスティテュート アット ネーションワイド チルドレンズ ホスピタル
乳児起動式音声再生機の利用
今日
ピンドロップ セキュリティー、インコーポレイテッド
音声からの識別及び照合のための話者非依存性埋め込みのシステム及び方法
14日前
ドルビー ラボラトリーズ ライセンシング コーポレイション
没入的オーディオ信号をエンコードおよび/またはデコードするための方法および装置
8日前
フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
複数の音声オブジェクトをエンコードする装置および方法、または2つ以上の関連する音声オブジェクトを使用してデコードする装置および方法
8日前
個人
血液中の赤血球に結合したエンドトキシン測定のための試料作製法
20日前
続きを見る
他の特許を見る