TOP特許意匠商標
特許ウォッチ DM通知 Twitter
公開番号2022010410
公報種別公開特許公報(A)
公開日2022-01-14
出願番号2021188475,2019020396
出願日2021-11-19,2019-02-07
発明の名称音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
出願人日本電信電話株式会社
代理人個人,個人,個人
主分類G10L 15/02 20060101AFI20220106BHJP(楽器;音響)
要約【課題】文脈を考慮したend-to-end音声認識を実現できる音声認識装置を提供する。 【解決手段】注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、パラメータの下で観測値が生起する確率の尤度関数について最尤推定を行うことにより、モデルパラメータθを学習するモデルパラメータ学習部と、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みのモデルパラメータθをパラメータとし、パラメータの下で観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識部を含む。 【選択図】図1
特許請求の範囲【請求項1】
時系列順に取得された音響特徴量系列の集合からなる認識用データに基づき、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および予め学習済みのモデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識部
を含む音声認識装置。
続きを表示(約 1,400 文字)【請求項2】
請求項1に記載の音声認識装置であって、
前記発話音声認識部は、
認識対象である単語系列よりも過去の、既に認識済みの単語系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含むベクトルである発話ベクトルに変換する発話ベクトル計算部と、
前記発話ベクトルの系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含む発話系列埋め込みベクトルに変換する発話系列埋め込みベクトル計算部と、
認識対象である単語系列中の注目している単語よりも過去の、認識対象である前記単語系列中の単語列と、認識対象である単語系列に対応する音響特徴量系列とを、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列中の単語の音声認識に必要な意味的情報と音韻的情報を統合した情報を含む文脈ベクトルに変換する文脈ベクトル計算部と、
認識対象である単語系列よりも一つ過去までの発話ベクトル系列を変換してなる前記発話系列埋め込みベクトルと、認識対象である単語系列中の単語向けの文脈ベクトルから、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列の単語についての事後確率を計算する事後確率計算部を含む
音声認識装置。
【請求項3】
時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データに基づき、注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤推定を行うことにより、前記モデルパラメータθを学習するモデルパラメータ学習部を含む
音声認識学習装置。
【請求項4】
時系列順に取得された音響特徴量系列の集合からなる認識用データに基づき、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および予め学習済みのモデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識ステップ
を含む音声認識方法。
【請求項5】
時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データに基づき、注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤推定を行うことにより、前記モデルパラメータθを学習するモデルパラメータ学習ステップを含む
音声認識学習方法。
【請求項6】
コンピュータを請求項1または2に記載の音声認識装置として機能させるプログラム。
【請求項7】
コンピュータを請求項3に記載の音声認識学習装置として機能させるプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラムに関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
深層学習技術の進展に伴い、入力を音声とし、出力をテキストとするend-to-end音声認識と呼ばれる音声認識のモデル化方法が登場し、技術的な進展が進んでいる。これまで広く用いられてきた音声認識は、音声と音素系列の関係をモデル化した音響モデル、音素系列と単語の関係をモデル化した発音モデル、単語間の関係をモデル化した言語モデルという3つのモデルの組み合わせにより構成され、各モデルをそれぞれ異なるデータを用いて独立に学習しておくことで音声認識アルゴリズム(装置)を構成していた。一方、end-to-end音声認識は、音声とテキストの関係をモデル化したモデル1つのみで音声認識アルゴリズム(装置)を構成することができ、学習に用いるデータも音声とテキストのペアデータのみである。
【0003】
従来技術の構成について述べる。end-to-end音声認識の入力となる音声から自動抽出できる音響特徴量系列をX=(x
1
,…,x
T
)、出力となる単語系列をW=(w
1
,…,w
N
)とし、P(W|X,θ)をモデル化する。ここで、θはモデルパラメータを表す。P(W|X,θ)のモデル化は次式で表される。
【0004】
JPEG
2022010410000002.jpg
15
97
【0005】
このモデル化による音声認識アルゴリズム(装置)では、音響特徴量系列Xが入力された時の音声認識結果の単語系列W^を次式に基づき決定する。
【0006】
JPEG
2022010410000003.jpg
11
55
【0007】
モデルパラメータθは、複数(2つ以上)の単語系列と音響特徴量系列の組の集合からなる学習データD=(W
1
,X
1
),…,(W
|D|
,X
|D|
)(ただし、|D|は学習データDの要素数)に基づいて、事前に学習することにより決定される。Dにより最適化されたパラメータθ^は次式に従う。
【0008】
JPEG
2022010410000004.jpg
16
69
【0009】
詳細なモデル化には、様々な方法を採用することができる。例えば、ニューラルネットワークを用いた方法が代表的であり、非特許文献1や非特許文献2の方法を用いることができる。
【先行技術文献】
【非特許文献】
【0010】
Jan Chorowski, Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, “End-to-end continuous speech recognition using attention-based recurrent NN: first results,” in NIPS: Workshop Deep Learning and Representation Learning Workshop, 2014.
Jan Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho, and Yoshua Bengio, “Attention-based models for speech recognition,” in Advances in Neural Information Processing Systems (NIPS), 2015, pp. 577-585.
【発明の概要】
【発明が解決しようとする課題】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

東日本電信電話株式会社
取付具
3か月前
東日本電信電話株式会社
安全柵
4か月前
日本電信電話株式会社
光モニタ回路
1か月前
東日本電信電話株式会社
工事用看板
3か月前
日本電信電話株式会社
音響システム
2か月前
西日本電信電話株式会社
無人飛行体
3か月前
東日本電信電話株式会社
車輪止め装置
4か月前
西日本電信電話株式会社
散水システム
2か月前
西日本電信電話株式会社
RFIDタグ
4か月前
東日本電信電話株式会社
情報処理装置
1か月前
日本電信電話株式会社
擬似力覚呈示装置
1か月前
東日本電信電話株式会社
栽培支援サーバ
2か月前
東日本電信電話株式会社
管理装置
9日前
日本電信電話株式会社
カオス振動発生装置
2か月前
日本電信電話株式会社
半導体レーザ
1日前
日本電信電話株式会社
半導体光素子
1日前
東日本電信電話株式会社
パケット比較プログラム
3か月前
日本電信電話株式会社
配線基板およびモジュール
2か月前
東日本電信電話株式会社
ゲームアナライザシステム
2か月前
日本電信電話株式会社
深部体温推定方法および装置
26日前
西日本電信電話株式会社
移動体及び移動体の制御方法
4か月前
日本電信電話株式会社
無線通信装置及び無線通信方法
4か月前
沖電気工業株式会社
通信機器
2か月前
東日本電信電話株式会社
架線交差方法および架線交差具
4か月前
日本電信電話株式会社
MIMO復調方法および端末装置
4か月前
日本電信電話株式会社
MIMO復調方法および端末装置
4か月前
日本電信電話株式会社
立体映像投影装置とその表示方法
2か月前
東日本電信電話株式会社
光ケーブルの異常区間判定装置
3か月前
日本電信電話株式会社
電気二重層トランジスタ
4日前
日本電信電話株式会社
評価装置、評価方法及びプログラム
4か月前
日本電信電話株式会社
学習装置、学習方法及びプログラム
4か月前
日本電信電話株式会社
学習装置、学習方法及びプログラム
2か月前
日本電信電話株式会社
位置特定装置、方法、及びプログラム
2か月前
日本電信電話株式会社
行動推定装置、方法およびプログラム
2か月前
東日本電信電話株式会社
ケーブルの撤去方法及びクロージャ
4か月前
株式会社ニフコ
所在確認システム
1か月前
続きを見る