特許ウォッチ

公開番号2024129781
公報種別公開特許公報(A)
公開日2024-09-27
出願番号2023189551
出願日2023-11-06
発明の名称音声認証装置、および機器
出願人ローム株式会社
代理人弁理士法人佐野特許事務所
主分類G10L 17/18 20130101AFI20240919BHJP(楽器;音響)
要約【課題】機器において音声認証のために外部との通信が不要となる音声認証装置を提供する。
【解決手段】音声認証装置(3)は、外部からの音声(S)を電気信号である音声信号(SD)に変換するように構成される音声変換部(2)を備えた機器(1)に搭載可能であって、前記音声信号に基づいて、AIモデルのパラメータを学習するように構成される音声登録部(3A)と、前記音声信号に基づく入力データに対して、学習された前記パラメータを有する前記AIモデルにより得られる推論結果に基づいて音声の照合を実行するように構成される音声照合部(3B)と、を備え、前記音声登録部と前記音声照合部に基づいて音声認証を実行する。
【選択図】図2
特許請求の範囲【請求項１】
外部からの音声を電気信号である音声信号に変換するように構成される音声変換部を備えた機器に搭載可能であって、
前記音声信号に基づいて、ＡＩモデルのパラメータを学習するように構成される音声登録部と、
前記音声信号に基づく入力データに対して、学習された前記パラメータを有する前記ＡＩモデルにより得られる推論結果に基づいて音声の照合を実行するように構成される音声照合部と、
を備え、
前記音声登録部と前記音声照合部に基づいて音声認証を実行する、音声認証装置。
続きを表示（約 1,600 文字）【請求項２】
前記音声登録部および前記音声照合部は、それぞれキーワードを含んだ前記音声に基づいて登録・照合を行う、請求項１に記載の音声認証装置。
【請求項３】
前記ＡＩモデルは、入力層、隠れ層、および出力層を有する３層ニューラルネットワークである、請求項２に記載の音声認証装置。
【請求項４】
前記音声登録部は、下記（Ａ）式を用いて前記パラメータとして前記隠れ層と前記出力層を結合する重みβ
０
を算出する、請求項３に記載の音声認証装置。
Ｐ
０
＝（Ｈ
０
T
Ｈ
０
）
－１
β
０
＝Ｐ
０
Ｈ
０
T
ｔ
０
（Ａ）
ただし、隠れ層行列Ｈ
ｉ
＝Ｇ（ｘ
ｉ
・α＋ｂ）、α：前記入力層と前記隠れ層を結合する重み、ｂ：前記隠れ層のバイアス、Ｇ：前記隠れ層の活性化関数、ｘ
ｉ
：バッチサイズｋ
ｉ
のｉ番目の入力データ、ｔ
ｉ
：バッチサイズｋ
ｉ
のｉ番目の教師データ
【請求項５】
前記音声登録部は、下記（Ｂ）式を用いて前記パラメータとして前記隠れ層と前記出力層を結合する重みβ
ｉ
を逐次算出する、請求項３に記載の音声認証装置。
Ｐ
ｉ
＝Ｐ
ｉ－１
－Ｐ
ｉ－１
Ｈ
ｉ
T
（Ｉ＋Ｈ
ｉ
Ｐ
ｉ－１
Ｈ
ｉ
T
）
－１
Ｈ
ｉ
Ｐ
ｉ－１
β
ｉ
＝β
ｉ－１
＋Ｐ
ｉ
Ｈ
ｉ
T
（ｔ
ｉ
－Ｈ
ｉ
β
ｉ－１
）（Ｂ）
ただし、隠れ層行列Ｈ
ｉ
＝Ｇ（ｘ
ｉ
・α＋ｂ）、α：前記入力層と前記隠れ層を結合する重み、ｂ：前記隠れ層のバイアス、Ｇ：前記隠れ層の活性化関数、ｘ
ｉ
：バッチサイズｋ
ｉ
のｉ番目の入力データ、ｔ
ｉ
：バッチサイズｋ
ｉ
のｉ番目の教師データ
【請求項６】
前記音声登録部は、下記（Ｃ）式を用いて前記重みβ
０
を算出する、請求項５に記載の音声認証装置。
Ｐ
０
＝（Ｈ
０
T
Ｈ
０
）
－１
β
０
＝Ｐ
０
Ｈ
０
T
ｔ
０
（Ｃ）
【請求項７】
前記音声登録部は、ｔ
ｉ
＝ｘ
ｉ
として学習を行う、請求項４から請求項６のいずれか１項に記載の音声認証装置。
【請求項８】
前記入力データは、前記音声信号のサンプリングデータである、請求項４から請求項６のいずれか１項に記載の音声認証装置。
【請求項９】
前記入力データは、前記音声信号を周波数解析して得られるスペクトルデータである、請求項４から請求項６のいずれか１項に記載の音声認証装置。
【請求項１０】
請求項１に記載の音声認証装置と、前記音声変換部と、通信ネットワークと通信可能な通信部と、を備える、機器。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本開示は、音声認証装置に関する。
続きを表示（約 1,500 文字）【背景技術】
【０００２】
従来、音声認証を行う機器が知られている（例えば特許文献１）。音声認証では、人が発した音声に関する特徴（声紋など）を登録する処理と、登録した特徴との照合を行う処理が行われる。
【先行技術文献】
【特許文献】
【０００３】
特開２０１０－２１１２９６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
従来、音声認証を行う機器は、処理能力の高い外部サーバーと通信して登録・照合を行っていた。しかしながら、音声データの漏洩などの課題があった。
【０００５】
上記状況に鑑み、本開示は、機器において音声認証のために外部との通信が不要となる音声認証装置を提供することを目的とする。
【課題を解決するための手段】
【０００６】
例えば、本開示に係る音声認証装置は、
外部からの音声を電気信号である音声信号に変換するように構成される音声変換部を備えた機器に搭載可能であって、
前記音声信号に基づいて、ＡＩモデルのパラメータを学習するように構成される音声登録部と、
前記音声信号に基づく入力データに対して、学習された前記パラメータを有する前記ＡＩモデルにより得られる推論結果に基づいて音声の照合を実行するように構成される音声照合部と、
を備え、
前記音声登録部と前記音声照合部に基づいて音声認証を実行する構成としている。
【発明の効果】
【０００７】
本開示に係る音声認証装置によれば、機器において音声認証のために外部との通信が不要となる。
【図面の簡単な説明】
【０００８】
図１は、比較例に係る音声認証システムを示す図である。
図２は、本開示の例示的な実施形態に係るスマートスピーカの構成を示す図である。
図３は、音声登録の一例を示す図である。
図４は、音声照合の一例を示す図である。
図５は、３層ニューラルネットワークの構成を示す図である。
図６は、音声信号の模式図である。
図７は、本開示の変形例に係る機器の構成を示す図である。
【発明を実施するための形態】
【０００９】
＜１．比較例＞
図１は、比較例に係る音声認証システムを示す図である。図１に示すシステムにおいては、音声認証装置１００と、サーバー２００と、が設けられる。音声認証装置１００は、サーバー２００との間で通信を行う。
【００１０】
登録処理時には、ユーザＰが発した音声Ｓが音声認証装置１００に入力され、音声認証装置１００は、入力された音声Ｓに関する音声データをサーバー２００へ送信する。サーバー２００は、送信された音声データに基づいて音声Ｓの特徴を登録する登録処理を行う。照合処理時には、ユーザが発した音声が音声認証装置１００に入力されると、音声認証装置１００は、入力された音声に関する音声データをサーバー２００へ送信する。サーバー２００は、送信された音声データに基づいて登録処理により登録された音声Ｓの特徴との照合を行う。照合処理時のユーザが登録処理時のユーザＰである場合は、サーバー２００は、登録された音声Ｓの特徴と一致するとの照合結果を取得する。一方、照合処理時のユーザが登録処理時のユーザＰと異なる場合は、サーバー２００は、登録された音声Ｓの特徴と一致しないとの照合結果を取得する。
（【００１１】以降は省略されています）

関連特許