TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025021658
公報種別
公開特許公報(A)
公開日
2025-02-14
出願番号
2023125530
出願日
2023-08-01
発明の名称
音声認識装置、音声認識方法、およびプログラム
出願人
本田技研工業株式会社
代理人
個人
,
個人
,
個人
,
個人
主分類
G10L
15/16 20060101AFI20250206BHJP(楽器;音響)
要約
【課題】E2Eモデルによる音声認識はロバスト性を向上させることができる音声認識装置、音声認識方法、およびプログラムを提供することを目的とする。
【解決手段】音声認識装置は、End-to-Endモデルを用いて音声認識を行う音声認識装置であって、入力される音声信号を特徴的な表現に変換するモデルであるエンコーダと、エンコーダの出力を利用して、音声データをテキストに変換するモデルであるデコーダと、エンコーダに入力される音声信号のブロック長さをランダムに選択してエンコーダとデコーダの学習させる学習部と、を備える。
【選択図】図3
特許請求の範囲
【請求項1】
End-to-Endモデルを用いて音声認識を行う音声認識装置であって、
入力される音声信号を特徴的な表現に変換するモデルであるエンコーダと、
前記エンコーダの出力を利用して、音声データをテキストに変換するモデルであるデコーダと、
前記エンコーダに入力される音声信号のブロック長さをランダムに選択して前記エンコーダと前記デコーダの学習させる学習部と、
を備える音声認識装置。
続きを表示(約 1,000 文字)
【請求項2】
前記エンコーダは、オンラインで処理を行う第1エンコーダと、オフラインで処理を行う第2エンコーダと、を備え、
前記デコーダは、オンラインで処理を行う第1デコーダと、オフラインで処理を行う第2デコーダと、を備え、
推論時に前記第1デコーダの出力と前記第2デコーダの出力とを再スコアリングすることで最終認識結果を出力する統合部、をさらに備える、
請求項1に記載の音声認識装置。
【請求項3】
前記第2デコーダは、訓練時に、前記第1エンコーダの出力と前記第2エンコーダの出力を統合して、前記第2デコーダの学習を行う、
請求項2に記載の音声認識装置。
【請求項4】
前記第2デコーダは、前記第1エンコーダの出力と前記第2エンコーダの出力を垂直方向にスタックする、
請求項3に記載の音声認識装置。
【請求項5】
前記統合部は、前記第2デコーダを用いて取得された音声データに対する推論を行って第1のスコアを算出し、前記第2デコーダが推論した文字列と同じ文字列に対する第2のスコアを前記第1エンコーダを用いて算出し、前記第1のスコアと前記第2のスコアを重みづけ和を算出して再スコアリングして、推論するテキストを決定する、
請求項2に記載の音声認識装置。
【請求項6】
End-to-Endモデルを用いて音声認識を行う音声認識装置の音声認識方法であって、
エンコーダが、入力される音声信号を特徴的な表現に変換し、
デコーダが、前記エンコーダの出力を利用して、音声データをテキストに変換し、
学習部が、前記エンコーダに入力される音声信号のブロック長さをランダムに選択して前記エンコーダと前記デコーダの学習させる、
音声認識方法。
【請求項7】
エンコーダとデコーダを有するEnd-to-Endモデルを用いて音声認識を行う音声認識装置のコンピュータに、
入力される音声信号を特徴的な表現に変換する第1変換ステップと、
前記第1変換ステップの出力を利用して、音声データをテキストに変換する第2変換ステップ、
前記第1変換ステップで入力される音声信号のブロック長さをランダムに選択して前記エンコーダと前記デコーダの学習させるステップと、
を実行させるプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、音声認識装置、音声認識方法、およびプログラムに関する。
続きを表示(約 1,300 文字)
【背景技術】
【0002】
音声認識技術としては、音声ブロックごとに逐次音声認識を行うオンライン認識と、発話全体を用いて音声認識を行うオフライン認識の2つが開発、実用化されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
特開2023-92836号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、オンライン認識は、レスポンスが速いがオフライン認識に比べ性能が低いことが多い。ただし発話によっては、オフライン認識の方がオンライン認識よりも性能が劣る場合もある。このように、従来のE2Eモデルによる音声認識はロバスト性に問題があった。
【0005】
本発明は、上記の問題点に鑑みてなされたものであって、E2Eモデルによる音声認識はロバスト性を向上させることができる音声認識装置、音声認識方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)上記目的を達成するため、本発明の一態様に係る音声認識装置は、End-to-Endモデルを用いて音声認識を行う音声認識装置であって、入力される音声信号を特徴的な表現に変換するモデルであるエンコーダと、前記エンコーダの出力を利用して、音声データをテキストに変換するモデルであるデコーダと、前記エンコーダに入力される音声信号のブロック長さをランダムに選択して前記エンコーダと前記デコーダの学習させる学習部と、を備える。
【0007】
(2)また、上記(1)に記載の一態様に係る音声認識装置において、前記エンコーダは、オンラインで処理を行う第1エンコーダと、オフラインで処理を行う第2エンコーダと、を備え、前記デコーダは、オンラインで処理を行う第1デコーダと、オフラインで処理を行う第2デコーダと、を備え、推論時に前記第1デコーダの出力と前記第2デコーダの出力とを再スコアリングすることで最終認識結果を出力する統合部、をさらに備えるようにしてもよい。
【0008】
(3)また、上記(2)に記載の一態様に係る音声認識装置において、前記第2デコーダは、訓練時に、前記第1エンコーダの出力と前記第2エンコーダの出力を統合して、前記第2デコーダの学習を行うようにしてもよい。
【0009】
(4)また、上記(3)に記載の一態様に係る音声認識装置において、前記第2デコーダは、前記第1エンコーダの出力と前記第2エンコーダの出力を垂直方向にスタックするようにしてもよい。
【0010】
(5)また、上記(2)に記載の一態様に係る音声認識装置において、前記統合部は、前記第2デコーダを用いて取得された音声データに対する推論を行って第1のスコアを算出し、前記第2デコーダが推論した文字列と同じ文字列に対する第2のスコアを前記第1エンコーダを用いて算出し、前記第1のスコアと前記第2のスコアを重みづけ和を算出して再スコアリングして、推論するテキストを決定するようにしてもよい。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
横浜ゴム株式会社
水中音響材
2日前
大和ハウス工業株式会社
音再現設備
6日前
日産自動車株式会社
防音構造体
20日前
株式会社第一興商
カラオケ装置
6日前
京セラ株式会社
音出力装置及び音出力方法
20日前
コスモネクスト株式会社
入力支援プログラム及び入力支援方法
13日前
本田技研工業株式会社
能動型騒音低減装置
20日前
日本放送協会
音声認識装置およびプログラム
20日前
株式会社永セ仁
「パワハラ」等ハラスメント発言に係る職場環境測定システム
2日前
株式会社コルグ
音波生成装置、音波生成方法、プログラム
13日前
ソフトバンクグループ株式会社
行動制御システム
13日前
本田技研工業株式会社
音声認識装置、音声認識方法、およびプログラム
5日前
永楽電気株式会社
放送音声文字化システム及び放送設備における故障診断方法
20日前
ヤマハ株式会社
響板、その製造方法および響板を備える楽器
5日前
パイオニア株式会社
情報処理装置
7日前
東日本電信電話株式会社
演奏補助装置、演奏補助方法、及び、演奏補助プログラム
5日前
ドーナッツロボティクス株式会社
音声処理システム、音声処理方法
13日前
ソフトバンクグループ株式会社
データ処理装置、データ処理方法、及びプログラム
20日前
カシオ計算機株式会社
情報処理装置、情報処理方法及びプログラム
7日前
カシオ計算機株式会社
楽音制御システム
5日前
ローランド株式会社
電子打楽器、制御装置、ベロシティ算出プログラム及びベロシティ算出方法
5日前
日産自動車株式会社
シート状防音構造体、並びにこれを用いた自動車用部品およびダクト閉塞用蓋部品
14日前
VIE株式会社
情報処理方法、記録媒体及び情報処理装置
2日前
カシオ計算機株式会社
モジュール及びウェアラブル機器
15日前
日本電信電話株式会社
音声認識装置、音声認識方法及び音声認識プログラム
14日前
株式会社東芝
推定プログラム、学習プログラム、推定装置、学習装置、推定方法、学習方法、および学習モデル
13日前
日産自動車株式会社
シート状防音構造体およびその製造方法、並びにこれを用いた自動車用部品およびダクト閉塞用蓋部品
14日前
株式会社VARK
音声配信システム、音声配信方法及びプログラム
15日前
ピクシーダストテクノロジーズ株式会社
信号処理装置、方法、プログラム、および認知機能改善システム
20日前
ハーマン インターナショナル インダストリーズ インコーポレイテッド
音響スクランブルを介した空間インパルス応答の決定
6日前
ドルビー・インターナショナル・アーベー
圧縮された音または音場表現のための層構成の符号化
15日前
ホアウェイ技術有限公司
信号分類方法および信号分類デバイス
15日前
ノキア テクノロジーズ オサケユイチア
低複雑性低ビットレート6DOF HOAのレンダリング方法および装置
15日前
ドルビー・インターナショナル・アーベー
離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム
今日
華為技術有限公司
マルチチャネル信号を符号化する方法及びエンコーダ
15日前
グーグル エルエルシー
自動アシスタントによって応答アクションをトリガするためのホットコマンドの検出および/または登録
7日前
続きを見る
他の特許を見る