特許ウォッチ

公開番号2025010562
公報種別公開特許公報(A)
公開日2025-01-22
出願番号2024100993
出願日2024-06-24
発明の名称声紋認証及び補間のシステム及び方法
出願人トヨタコネクテッドノースアメリカ,インコーポレイティド
代理人個人,個人,個人,個人,個人,個人
主分類G10L 17/24 20130101AFI20250115BHJP(楽器;音響)
要約【課題】ユーザを認証してユーザ嗜好エンベディングを補間する方法及びシステムを提出すること。
【解決手段】本システムは、車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて特徴を生成するように訓練されたニューラルネットワークを使用して、車両の内側にいる現在の話者の人間音声に基づいて入力特徴を生成し、入力特徴の入力ベクトルと1人以上の登録ユーザの声紋における過去のベクトルとの類似度を計算する。入力ベクトルと認定ユーザの声紋における少なくとも1つの過去のベクトルとの類似度が閾値類似度未満であることを決定した後、システムは、現在の話者を認定ユーザとして認証し、類似度に基づいて確率論的概念を計算し、認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間で補間するように確率論的概念を適用する。
【選択図】図8
特許請求の範囲【請求項１】
車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて特徴を生成するように訓練されたニューラルネットワークを使用して、前記車両の内側にいる現在の話者の人間音声に基づいて入力特徴を生成することと、
前記入力特徴の入力ベクトルと１人以上の登録ユーザの声紋における過去のベクトルとの類似度を計算することと、
前記入力ベクトルと認定ユーザの声紋における少なくとも１つの過去のベクトルとの類似度が閾値類似度未満であることを決定した後、前記現在の話者を前記認定ユーザとして認証することと、
前記類似度に基づいて確率論的概念を計算することと、
前記認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間で補間するように前記確率論的概念を適用することと、
を含む、方法。
続きを表示（約 980 文字）【請求項２】
前記類似度は、ユークリッド類似度又はコサイン類似度である、請求項１に記載の方法。
【請求項３】
前記確率論的概念は、前記類似度に対して反比例する重み係数を備える、請求項１に記載の方法。
【請求項４】
前記下流のユーザ嗜好エンベディングは、ユーザ嗜好と使用エンベディングとを備え、
前記ユーザ嗜好は、認証中に前記認定ユーザによって述べられるユーザコメントに基づいて計算されるユーザ嗜好と、過去のユーザ嗜好への動的な統合と、を備え、
前記使用エンベディングは、前記車両とのユーザインタラクションを備える、請求項１に記載の方法。
【請求項５】
前記認定ユーザを認証した後、前記人間音声が前記車両とのユーザインタラクションを備えるかどうかを更に決定し、
前記人間音声が前記ユーザインタラクションを備えることを決定した後、前記確率論的概念に基づいて重み付けされる前記ユーザインタラクションを、前記認定ユーザに関連付けられる前記使用エンベディングに統合する、請求項４に記載の方法。
【請求項６】
前記ニューラルネットワークは、前記確率論的概念に基づいて重み付けされる前記入力特徴を前記認定ユーザの前記声紋に動的に統合するインクリメンタル学習アルゴリズムを備える、請求項１に記載の方法。
【請求項７】
前記方法は、閾値信頼度未満である信頼度を有する前記声紋の特徴を除去することによって前記認定ユーザの前記声紋を縮小することを更に含む、請求項１に記載の方法。
【請求項８】
前記認定ユーザの前記声紋は、別の登録ユーザの声紋と重複する前記声紋の前記特徴を除去することによって縮小される、請求項７に記載の方法。
【請求項９】
人間音声の前記入力特徴は、トーン、ピッチ、音量、速度、又は音色を備える、請求項１に記載の方法。
【請求項１０】
１人以上の登録ユーザの前記声紋は、初期実装を通じて登録され、前記初期実装は、登録に関する、前記登録を初期化するための物理的な又は音声のトリガと、登録される前記声紋を作成するための前記人間音声の録音と、を備える、請求項１に記載の方法。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本明細書に記載される実施形態は概して、音声ユーザインターフェースのアプリケーションに関し、より具体的には、車両の声紋認識及び認証に関する。
続きを表示（約 3,000 文字）【背景技術】
【０００２】
最近の車両は、リモートスタート、車両のロック／ロック解除、バレー、及びジオフェンシングなどの認証を必要とするサービスを使用する。認証は、車両が提供し得るサービスについてエンティティを識別するのに重要なセキュリティの機能である。一旦認証されると、車両は、特定のサービス又はデータにアクセスする権限をユーザに与え得る。したがって、正確で効率的な認証のシステムが車両システムにアクセスする必要性が存在する。
【発明の概要】
【０００３】
一実施形態では、方法は、車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて特徴を生成するように訓練されたニューラルネットワークを使用して、車両の内側にいる現在の話者の人間音声に基づいて入力特徴を生成することと、入力特徴の入力ベクトルと１人以上の登録ユーザの声紋における過去のベクトルとの類似度を計算することと、を含み得る。入力ベクトルと認定ユーザの声紋における少なくとも１つの過去のベクトルとの類似度が閾値類似度未満であることを決定した後、方法は、現在の話者を認定ユーザとして認証することと、類似度に基づいて確率論的概念を計算することと、認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間で補間するように確率論的概念を適用することと、を含む。
【０００４】
別の実施形態では、システムは、車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて特徴を生成するように訓練されたニューラルネットワークを使用して、車両の内側にいる現在の話者の人間音声に基づいて入力特徴を生成し、入力特徴の入力ベクトルと１人以上の登録ユーザの声紋における過去のベクトルとの類似度を計算するコントローラを含む。入力ベクトルと認定ユーザの声紋における少なくとも１つの過去のベクトルとの類似度が閾値類似度未満であることを決定した後、コントローラは、現在の話者を認定ユーザとして認証し、類似度に基づいて確率論的概念を計算し、認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間で補間するように確率論的概念を適用し得る。
【０００５】
本明細書に記載される実施形態によって提供されるこれらの特徴及び追加の特徴は、図面と併せて以下の詳細な説明を考慮すると、より完全に理解されるであろう。
【図面の簡単な説明】
【０００６】
図面に記載される実施形態は本質的に、実例的で例示的なものであって、特許請求の範囲によって定められる主題を限定することを意図したものではない。以下の図面と併せて読むと、実例的な実施形態の以下の詳細な説明を理解することができ、当該図面では、同様の構造は、同様の参照番号を用いて示される。
【０００７】
本明細書に記載され示される１つ以上の実施形態に係る、本開示の声紋認証システムの例示的で非限定的なデバイスを描写する図である。
本明細書に記載され示される１つ以上の実施形態に係る、本開示の音声特徴モジュール、類似度モジュール、及び認証モジュールの実例的な実装態様の実例的なブロック図を描写する図である。
本明細書に記載され示される１つ以上の実施形態に係る、認証、並びに重み付け及び補間用の確率論的概念の生成に関する認証モジュールの実例的な実装態様の実例的なブロック図を描写する図である。
本明細書に記載され示される１つ以上の実施形態に係る、本開示の声紋認証システムにおいて訓練及び適用されるニューラルネットワークの実例的なブロック図を描写する図である。
本明細書に記載され示される１つ以上の実施形態に係る、本開示の声紋認証システムを備える車両の例示的な内部図を描写する図である。
本明細書に記載され示される１つ以上の実施形態に係る、本開示の声紋認証システムにおける複数のユーザの声紋に関する例示的な元のクラスタを描写する図である。
本明細書に記載され示される１つ以上の実施形態に係る、本開示の声紋認証システムにおける複数のユーザの声紋に関する例示的な縮小クラスタを描写する図である。
本明細書に記載され示される１つ以上の実施形態に係る、声紋認証及び補間に関する本開示の声紋認証システムの動作を記載しているフローチャートを描写する図である。
本明細書に記載され示される１つ以上の実施形態に係る、本開示の声紋認証システムのニューラルネットワークに関する動作を記載しているフローチャートを描写する図である。
話者を認証して本開示の補間に関する確率論的概念を適用する方法のステップを記載しているフローチャートを描写する図である。
【発明を実施するための形態】
【０００８】
本明細書に開示される実施形態は、声紋認証及び補間に関する方法及びシステムを対象とする。システムは、ユーザについての声紋を作成して、ユーザの音声からユーザの認証を可能にする。最近の車両は、機能及びサービスを提供し、ここで、登録ユーザの認証は、ユーザが当該機能及びサービスを使用し得る前に行われる。しかしながら、パスワード又はＰＩＮコードなどの認証の方法は、容易に危殆化して、使用するのが不便であるか又は実用的でない場合がある。声紋認証は、車両のユーザを認証するためのよりセキュアで便利な方法を提供することによって、これらの問題を克服する。声紋認証は、偽造するのが困難であって声紋認証をセキュアな認証の方法にする人の音声に関する固有の特徴に基づく。ユーザが、どのパスワードもＰＩＮコードも覚える必要がなくユーザ自身の声を使用して車両のマイクに話す必要があるだけであるため、声紋認証は便利である。更に、声紋認証は、様々な目的、例えば、承認されていない車両の使用の防止、車両使用の追跡、及び複数の集団車両の監視に対して柔軟である。
【０００９】
本明細書に開示される声紋認証は、アクティブ音声生体認証又はパッシブ音声生体認証を使用し得る。アクティブ手法は、ユーザが選択してガイドされる明示的な音声登録プロセスを必要とする。アクティブ音声生体認証手法は、ユーザが所定の原稿を複数回暗唱して自身の固有の声紋を明示的に確立することを必要とする。ユーザがアクティブ認証を使用する度に、ユーザは、パスフレーズを言う必要がある。アクティブ認証システムは、ユーザの音声を、記録された原稿と比較する。ユーザは、認証プロセスを完全に認識している。
【００１０】
パッシブ手法は、車両内で行われている話に基づいて、匿名化されたユーザＩＤを推測する。パッシブ音声認証では、特定のパスフレーズを言う必要がない。ユーザは、通常の会話に参加してパッシブ認証をトリガし得、パッシブ認証は連続的に、ユーザを再識別及び再認証し得る。ユーザの声紋は、システムにおいて記録されて初期登録の録音及び／又は登録後の連続的な録音を含み得る。ユーザが車両内で話すと、システムは、ユーザが何を言っているかに関わらず、ユーザの話を声紋と比較して話を検証する。
（【００１１】以降は省略されています）

関連特許