TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024075794
公報種別公開特許公報(A)
公開日2024-06-04
出願番号2024062090,2023033369
出願日2024-04-08,2019-02-06
発明の名称クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS
出願人グーグル エルエルシー,Google LLC
代理人個人
主分類G10L 15/28 20130101AFI20240528BHJP(楽器;音響)
要約【課題】サーバベースの処理スタックにおけるトラフィック急増に対応する。
【解決手段】ユーザ装置によってキャプチャされた音声入力と、音声入力に関連付けられたコンテンツメタデータとを備える自動音声認識ASR要求をユーザ装置から受け取る。コンテンツメタデータはユーザ装置によって生成される。方法はコンテンツメタデータに基づきASR要求の優先度スコアを判定する。それぞれが対応する優先度スコアを有する保留中自動音声認識ASR要求の前処理バックログに、ASR要求をキャッシュする。前処理バックログ内の保留中ASR要求は優先度スコアの順にランク付けされる。前処理バックログから、保留中ASR要求の1つまたは複数をバックエンド側ASRモジュールに提供する。より高い優先度スコアに関連付けられた保留中ASR要求は、より低い優先度スコアに関連付けられた保留中ASR要求よりも先に処理される。
【選択図】図1
特許請求の範囲【請求項1】
音声対応装置上のデータ処理ハードウェア上で実行されるコンピュータ実装方法であって、前記コンピュータ実装方法は前記データ処理ハードウェアに動作を実行させることを備えており、前記動作は、
前記音声対応装置によってキャプチャされた音声入力の初期部分を受け取る工程と、
ホットワード検出器によって、前記音声入力の前記初期部分中のキーワードの存在を検出する工程と、
前記音声入力の前記初期部分における前記キーワードの前記存在を検出したことに応答して、
前記音声対応装置がスリープ状態からウェイクアップするとともに前記音声入力の残りの部分をキャプチャするように、前記音声対応装置をトリガする工程と、
前記音声入力が前記音声対応装置に向けられている可能性を示すコンテンツメタデータを判定するべく、前記音声対応装置によってキャプチャされた前記音声入力に対応するオーディオデータを処理する工程と、および
前記コンテンツメタデータに基づき、前記音声対応装置に、前記音声入力が問合せ処理スタックによって処理されることをドロップするように指示する工程と、
を備えている、コンピュータ実装方法。
続きを表示(約 1,100 文字)【請求項2】
前記オーディオデータを処理することによって判定された前記コンテンツメタデータは、前記音声入力に関連付けられた音声品質の信頼度スコアを備えている、
請求項1に記載のコンピュータ実装方法。
【請求項3】
前記動作はさらに、前記音声入力に関連付けられた前記音声品質の前記信頼度スコアが閾値を不満足であると判定する工程を備えており、
前記音声対応装置に、前記問合せ処理スタックによって処理されることから前記音声入力をドロップするように指示する工程は、前記音声入力に関連付けられた前記信頼度スコアが前記閾値を不満足であると判定することに基づく、
請求項2に記載のコンピュータ実装方法。
【請求項4】
前記オーディオデータを処理することによって判定された前記コンテンツメタデータは、前記音声入力に関連付けられた音声品質スコアを備えている、
請求項1に記載のコンピュータ実装方法。
【請求項5】
前記音声品質スコアは、前記オーディオデータに存在する背景ノイズのレベルを示している、
請求項4に記載のコンピュータ実装方法。
【請求項6】
前記動作はさらに、前記音声入力の前記初期部分における前記キーワードの前記存在を検出したことに応答して、ユーザ装置に関連付けられた話者プロファイルに前記音声入力が一致する可能性を示す前記音声入力についての話者識別スコアを判定するべく、前記オーディオデータを処理する工程を備えている、
請求項1に記載のコンピュータ実装方法。
【請求項7】
前記動作は、前記音声入力の前記初期部分における前記キーワードの前記存在を検出したことに応答して、前記音声対応装置上に存在するローカル自動音声認識(ASR)モジュールを使用することで前記音声入力を転写する工程を備えており、
前記音声対応装置に、前記問合せ処理スタックによって処理されることから前記音声入力をドロップするように指示する工程は、前記音声対応装置に、前記問合せ処理スタックによって処理されることから前記音声入力の転写をドロップするように指示する工程を備えている、
請求項1に記載のコンピュータ実装方法。
【請求項8】
前記音声対応装置は、スマートフォンを備えている、
請求項1に記載のコンピュータ実装方法。
【請求項9】
前記音声対応装置は、スマートスピーカを備えている、
請求項1に記載のコンピュータ実装方法。
【請求項10】
前記音声対応装置は、タブレットを備えている、
請求項1に記載のコンピュータ実装方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、クライアントが計算したコンテンツメタデータに基づく音声問合せのサービス品質(QoS)に関する。
続きを表示(約 5,300 文字)【背景技術】
【0002】
音声対応環境(家庭、職場、学校、自動車など)では、ユーザが問合せ(クエリ)やコマンドをコンピュータベースのシステムに向かって大声で話すことができ、そのシステムが問合せをフィールドにして回答したり、コマンドに基づき機能を実行したりする。音声対応(voiceenabled)環境は、環境の様々な部屋やエリアに配置された、接続されたマイクデバイスのネットワークを使用して実現することができる。これらのデバイスは、ホットワードを使用して、或る発話がシステムに向けられたものであるか、環境内の他の個人に向けられたものであるかを識別(discern)することができる。したがって、デバイスは、スリープ状態またはハイバネーション状態で動作し、検出された発話にホットワードが含まれている場合にのみウェイクアップするようにしてもよい。バックエンドサーバで行われる問合せ処理はコストが高く、サーバが一度に処理できる数を超える問合せによって過負荷になる可能性がある。例えば、大規模なイベントの際にテレビ番組やコマーシャルにホットワードが含まれていると、サーバが過負荷状態に陥り、障害が発生する可能性がある。
【先行技術文献】
【特許文献】
【0003】
米国特許出願公開第2017/083285号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoSを改善する余地がある。
【課題を解決するための手段】
【0005】
音声対応装置(例えば、音声アシスタントを実行するユーザ装置)では、ユーザが問合せやコマンドを大声で話すと、その問合せを裁いて(field)答えたり、コマンドに基づき機能を実行したりすることができるようになっている。音声対応装置に対する注意を喚起するために発話される所定の用語/フレーズが合意によって予約されている「ホットワード」(「キーワード」、「アテンションワード」、「ウェイクアップフレーズ/ワード」、「トリガフレーズ」、または「音声アクション開始コマンド」とも呼ばれる)の使用を通じて、音声対応装置は、システムに向けられた発話(すなわち、発話中のホットワードに続く1つまたは複数の用語を処理するべくウェイクアップ処理を開始するため)と、環境内の個人に向けられた発話とを識別することができる。通常、音声認識装置は、バッテリ電力を節約するためにスリープ状態つまり低電力状態で動作し、入力されたオーディオデータ(音声データ)を処理して発話されたホットワードを検出する。例えば、低消費電力状態では、音声対応装置は、マイクを介して入力音声を取り込み、入力音声に含まれるホットワードの存在を検出するように訓練されたホットワード検出器を使用する。ホットワードが入力音声内で検出されると、音声対応装置は、ホットワードと、および/またはホットワードに続く入力音声内の他の用語とを処理するためのウェイクアップ処理を開始する。
【0006】
典型的には、音声対応装置が音声(例えば、入力音声)の発話におけるホットワードの存在を検出してウェイクアップした後、音声対応装置は、ホットワードとおよびホットワードに続く1つまたは複数の他の用語とを、ホットワードとおよび/またはホットワードに続く任意の他の用語とを処理するように構成された少なくとも自動音声認識装置(ASR)を備えているサーバベースの処理スタック(問合せ処理バックエンドとも呼ばれる)に、ネットワークを介して送信する。ここで、自動音声認識ASRは、受け取った音声を自動音声認識ASR要求として処理し、ホットワードおよび/またはホットワードに続く他の用語を対応するテキストに転写(transcribe)してもよい。このテキストをインタプリタ層(解釈層)に提供して、入力音声によって指定された音声問合せを判定し、問合せに関連付けられたアクションを実行するために適切な構成要素に問合せを提供してもよい。したがって、音声対応装置のユーザが「ヘイ、グーグル。どのレストランが今まだ開いているかな」(HeyGoogle, what restaurants are still openright now)のような音声を発すると、音声対応装置は、ホットワード「ヘイ、グーグル」(HeyGoogle)の検出に応答してウェイクアップし、音声問合せに対応してホットワードに続く用語「どの近いレストランが今まだ開いているかな」(Whatnear restaurantsare stillopen right now)を、処理のためにサーバベースの処理スタックに提供してもよい。この例では、サーバベースの処理スタックの自動音声認識ASRが、音声問合せを対応するテキストに変換(トランスクライブ)し、解釈層が近くのレストランの営業時間の検索が必要であると判定し、検索エンジンは、現在営業している近くのレストランを含む検索結果のリストを取得することになる。検索結果は、表示または音声出力のために、音声対応装置に提供される。いくつかのシナリオでは、サーバベースの処理スタックは、検索結果のリストを合成音声に変換するように構成されたテキスト音声合成TTS(Text-to-Speech)コンバータも備えており、合成音声は音声出力のために音声対応装置に提供されて戻ってくる。
【0007】
サーバベースの処理スタックは、ユーザ集団全体に関連付けられた複数の音声対応装置から受け取った音声問合せを処理するように構成される。これは、サーバベースの処理スタックによる処理のために音声問合せを送信する数百万の音声対応装置を備え得る。音声問合せの処理は高価な作業であり、状況によっては、サーバベースの処理スタックは、所定時間に処理できるよりも多くの音声問合せによって過負荷になる。例えば、ホットワードまたはホットワードに類似した響きの他の用語が、大規模なテレビ番組イベント(例えば、スーパーボール(Superbowl)中のコマーシャル)に存在する場合、近くの音声対応装置(例えば、家庭内のテレビに近接している)がホットワードを検出し、意図しない音声問合せをサーバベースの処理スタックに発行する可能性があり、それによって、サーバベースの処理スタックにおけるトラフィックが非常に大きく急増(スパイク)する。サーバベースの処理スタックが、実際のユーザによって開始されていない、および/またはタイムクリティカルではない音声問合せを単純にドロップすることは考えられるが、高価な処理を開始することなくそのような問合せを識別することは困難である。
【0008】
本明細書の実装は、音声対応装置(例えば、ユーザ装置)から自動音声認識ASR要求を受け取る問合せ処理バックエンド(例えば、サーバベースの処理スタック)に向けられている。処理のための音声問合せを備えてユーザ装置によってキャプチャ(捕捉)された対応する音声入力を各自動音声認識ASR要求が備えていることに加えて、各自動音声認識ASR要求は、音声対応装置によって生成されて音声入力に関連付けられたコンテンツメタデータも備えている。音声入力に関連付けられたコンテンツメタデータに基づき、問合せ処理バックエンドは、各自動音声認識ASR要求の優先度スコアを判定することができるとともに、それぞれが対応する優先度スコアを有して優先度スコアの順にランク付けされた保留中自動音声認識ASR要求の前処理バックログに自動音声認識ASR要求をキャッシュすることができる。その後、問合せ処理バックエンドは、バックエンド側自動音声認識ASRモジュールの処理利用可能性(処理可用性、processingavailability)に基づき、1つまたは複数の保留中自動音声認識ASR要求を前処理バックログからバックエンド側自動音声認識ASRモジュール(または問合せ処理バックエンドの他の構成要素)に提供してもよい。ここでは、バックエンド側自動音声認識ASRモジュールが、各保留中自動音声認識ASR要求を先着順に処理しようとしてトラフィックの急増時に過負荷になるのではなく、バックエンド側自動音声認識ASRモジュールが、より高い優先度スコアに関連付けられた保留中自動音声認識ASR要求を処理してから、より低い優先度スコアに関連付けられた保留中自動音声認識ASR要求を処理するように、自動音声認識ASR要求に優先順位が付けられる。新規自動音声認識ASR要求が入ってくると、前処理バックログ内の保留中自動音声認識ASR要求は、優先度スコアに基づき並び替えられる。理想的には、実際のユーザによって開始される可能性が低く、および/またはタイムクリティカルではない意図しない音声問合せに関連付けられた自動音声認識ASR要求には、低い優先度スコアが割り当てられる。このように、低い優先度スコアに関連付けられた自動音声認識ASR要求は、トラフィックスパイク中、前処理バックログに残り、バックエンド自動音声認識ASRモジュールが、より高い優先度スコアに関連付けられた自動音声認識ASR要求を最初に処理するようにする。
【0009】
いくつかの例では、或る閾値を下回る優先度スコアによれば、対応する自動音声認識ASR要求が単にドロップされることになるかもしれない。また、コンテンツメタデータから判定された低い優先度スコアは、対応する自動音声認識ASR要求の処理が成功しないことを示す強力な指標となる場合がある。例えば、コンテンツメタデータは、音声入力に関連付けられた音声の品質が非常に低いことを示す場合があり、したがって、音声品質が低いと、バックエンド自動音声認識ASRモジュールがオーディオデータを対応するテキストにうまく転写することが困難であることを示すことができる。同時に、音声対応装置によってキャプチャされた音声に関連付けられた音質の悪さは、ホットワード(または類似の音がする単語)を話したユーザが音声対応装置に近接しておらず、したがって、音声対応装置に音声入力を提供する意図がなかった可能性が高いことを示すこともある。また、コンテンツメタデータは、音声入力が音声対応装置に関連付けられたユーザによって話された可能性が高いかどうかを示すこともできる。例えば、音声対応装置のホットワード検出器は、音声入力をそのユーザの音声プロファイルと比較して、音声入力がそのユーザによって話された可能性が高いかどうかを判定することができる。ユーザが音声入力を話した可能性が高いことをコンテンツメタデータが示している場合、対応する自動音声認識ASR要求は、別のユーザが音声入力を話した場合よりも高い優先度スコアを割り当てられてもよい。一方、別のユーザまたは音声放送デバイス(例えば、テレビ、音楽スピーカ、または音響音を出力できる他の非人間ソース)からの放送音声が音声入力を開始したことをコンテンツメタデータが示している場合、対応する自動音声認識ASR要求には低い優先度スコアが割り当てられることがある。コンテンツメタデータは、音声対応装置によって計算/生成され、問合せ処理バックエンドに提供された自動音声認識ASR要求に含まれる任意のタイプのデータを備えていることができ、これによって、問合せ処理バックエンドは、自動音声認識ASR要求に対していかなる処理を行うことなく(または、少なくとも非常に限られた量の処理で)、自動音声認識ASR要求の重要性に優先順位を付けることができる。前述の観点から、音声入力に関連付けられたコンテンツメタデータは、対応する自動音声認識ASR要求がバックエンド側自動音声認識ASRモジュールによって正常に処理される可能性を、および/または、対応する自動音声認識ASR要求の処理が、音声対応装置に関連付けられたユーザに影響を与える可能性を表す。
【0010】
家庭用装置における音声処理は、しばしばサーバで行われるとともに、音声処理に対する要求の大きなバックログを作成する可能性のあるピーク時に行われる。これらの要求の一部は真の要求であるかもしれないが、一方で一部は放送音声(例えば、テレビ、ラジオ、または合成音声などの非人間ソースからの音声出力)の結果であるかもしれない。本発明の目的は、大量の音声認識要求の処理を改善する方法を提供することである。要求に優先順位をつけることで、音声認識モジュールは、より重要または緊急な要求を処理するとともに、他の要求の優先順位を低くすることができる。よって、音声認識モジュールが過負荷になっている時に、音声認識モジュールの使用を最適化することができる。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
三味線の部品
20日前
株式会社エフノート
電子ドラム
18日前
株式会社エフノート
電子打楽器
18日前
株式会社大貴
吸音材の施工方法
19日前
株式会社小泉製作所
ベル装置
22日前
エイドス セラピューティクス,インコーポレイティド
AG10の製剤
4日前
エイドス セラピューティクス,インコーポレイティド
AG10を使用するTTRアミロイドーシスの治療方法
22日前
株式会社総合車両製作所
吸音パネル
18日前
ヤマハ株式会社
楽器用ナット
22日前
オンキヨー株式会社
音声認識システム、及び、音声認識方法
今日
オンキヨー株式会社
音声認識システム、及び、音声認識方法
今日
株式会社レゾナック
吸音材及び車両部材
1日前
ヤマハ株式会社
プログラム
15日前
株式会社第一興商
カラオケ端末
25日前
トヨタ自動車株式会社
情報処理装置
5日前
株式会社イノアックコーポレーション
防音材及び車両構造
15日前
株式会社レゾナック
吸音構造体及び吸音構造体の製造方法
5日前
日本放送協会
音場評価装置、音場評価システム、及びプログラム
1日前
株式会社第一興商
カラオケ装置、カラオケシステム
15日前
沖電気工業株式会社
音声処理装置、音声処理プログラム及び音声処理方法
19日前
ローランド株式会社
鍵盤装置および駆動装置の冷却方法
25日前
ブラザー工業株式会社
カラオケ装置、カラオケ再生方法及びカラオケ用プログラム
1か月前
株式会社スクウェア・エニックス
音声生成プログラム及び音声生成システム
1か月前
株式会社竹中工務店
情報処理装置及び情報処理プログラム
12日前
学校法人立命館
叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法
19日前
三菱重工業株式会社
音声認識装置、音声認識方法及びプログラム
6日前
キヤノン株式会社
情報処理装置、情報処理方法、及びプログラム
29日前
トヨタ自動車株式会社
情報処理装置、情報処理方法、及び、プログラム
5日前
日本放送協会
音声認識モデルに用いる学習データを作成する学習データ作成装置及びプログラム
22日前
株式会社アドバンスト・メディア
情報処理装置、情報処理システム、情報処理方法及びプログラム
5日前
LINEヤフー株式会社
信号処理装置、信号処理方法、および信号処理プログラム
1日前
日本電信電話株式会社
対話システム、発話生成方法、およびプログラム
1か月前
株式会社デンソーテン
評価装置、評価方法、音響システムおよび評価用信号生成方法
27日前
株式会社日立ビルシステム
昇降機の保守作業結果入力システム及び昇降機の保守作業結果入力方法
12日前
岐阜プラスチック工業株式会社
吸音構造体及びその製造方法
14日前
カシオ計算機株式会社
信号処理装置、方法、及びプログラム、電子楽器
14日前
続きを見る