TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024160306
公報種別
公開特許公報(A)
公開日
2024-11-13
出願番号
2024130807,2022118722
出願日
2024-08-07,2019-12-11
発明の名称
スマートデバイスの、効率的で低レイテンシである自動アシスタント制御
出願人
グーグル エルエルシー
,
Google LLC
代理人
個人
,
個人
,
個人
主分類
G10L
15/10 20060101AFI20241106BHJP(楽器;音響)
要約
【課題】スマートデバイスの効率的かつ低レイテンシな自動アシスタント制御方法、装置及びプログラムを提供する。
【解決手段】方法は、アシスタントクライアントデバイスが、発話の認識されたテキストを生成するために、発話をキャプチャするオーディオデータを処理すること、テキストがキャッシュエントリのテキストと一致すると決定すること、クライアントデバイスが、キャッシュエントリのテキストにマッピングされていることに基づいて、ローカルで解釈可能なセマンティック表現を選択すること、ローカルで解釈可能なセマンティック表現の状態変化が、現在の状態に依存する状態変化であるかどうか決定すること、状態変化を使用して、かつ、任意でキャッシュエントリに基づいて識別されたアダプタを使用して、ローカル制御コマンドを生成すること及びキャッシュエントリに基づいて任意選択のローカルチャネルを介してローカルコマンドを送信することを含む。
【選択図】図7
特許請求の範囲
【請求項1】
リモートアシスタントシステムにおいて、およびアシスタントクライアントデバイスから、前記アシスタントクライアントデバイスにおいてキャプチャされた発話の表現を受信するステップであって、
前記発話が、前記アシスタントクライアントデバイスにリンクされている1つまたは複数のスマートデバイスの1つまたは複数の状態に関連する要求であり、
前記発話の前記表現が、前記クライアントデバイスにローカルに記憶されている音声テキスト変換モデルを利用して前記クライアントデバイスにおいて生成された、前記発話および/または前記発話のテキストをキャプチャするオーディオデータを備える、ステップと、
前記リモートシステムにおいて、および前記発話の前記表現を受信することに応答して、
前記発話の前記表現に基づいて、前記発話のセマンティック表現を生成するステップと、
前記発話の前記セマンティック表現に基づいて、前記1つまたは複数のスマートデバイスを制御する少なくとも1つのスマートデバイスリモートシステムに送信するために少なくとも1つの制御要求を生成するステップであって、前記少なくとも1つの制御要求が前記セマンティック表現とは異なる、ステップと、
前記少なくとも1つのスマートデバイスリモートシステムに1つまたは複数の対応するコマンドを前記1つまたは複数のスマートデバイスに提供させるために、前記少なくとも1つの制御要求を前記少なくとも1つのスマートデバイスリモートシステムに送信するステップと、
前記セマンティック表現を備えるキャッシュ要求を前記アシスタントクライアントデバイスに送信するステップであって、前記キャッシュ要求を前記アシスタントクライアントデバイスに送信すると、前記アシスタントクライアントデバイスが、前記アシスタントクライアントデバイスのキャッシュに、前記テキストの前記セマンティック表現へのマッピングを含むキャッシュエントリを記憶する、ステップと
を備える、方法。
続きを表示(約 2,000 文字)
【請求項2】
前記キャッシュ要求を前記アシスタントクライアントデバイスに送信するステップの後、
追加の発話をキャプチャする追加のオーディオデータを前記アシスタントクライアントデバイスにおいてキャプチャするステップと、
前記アシスタントクライアントデバイスにローカルに記憶された前記音声テキスト変換モデルを使用して、前記追加の発話に対応する現在のテキストを生成するために前記追加のオーディオデータを処理するステップと、
前記現在のテキストが前記キャッシュエントリの前記テキストと一致することを決定するステップと、
前記現在のテキストが前記キャッシュエントリの前記テキストと一致するという決定に応答して、および前記テキストの前記セマンティック表現への前記マッピングを含む前記キャッシュエントリに応答して、
前記セマンティック表現を前記リモートアシスタントシステムに送信するステップと
をさらに備える、請求項1に記載の方法。
【請求項3】
前記現在のテキストを生成するために前記追加のオーディオデータを処理するステップが、前記アシスタントクライアントデバイスにおける明示的な自動アシスタント呼出しの検出なしに実行される、請求項2に記載の方法。
【請求項4】
前記セマンティック表現を前記リモートアシスタントシステムに送信するステップが、前記現在のテキストが前記アシスタントクライアントデバイスにおいて明示的な自動アシスタント呼出しがなくても、一致するテキストが作用することを可能にするための1つまたは複数の基準を満たしているという決定にさらに応答する、請求項3に記載の方法。
【請求項5】
前記リモートアシスタントシステムにおいて、前記アシスタントクライアントデバイスから送信された前記セマンティック表現を受信するステップと、
前記セマンティック表現に基づいて、前記1つまたは複数のスマートデバイスを制御する前記少なくとも1つのスマートデバイスリモートシステムに送信するために少なくとも1つの代替制御要求を生成するステップであって、前記少なくとも1つの代替制御要求が、前記少なくとも1つの制御要求とは異なる、ステップと、
前記少なくとも1つのスマートデバイスリモートシステムに前記1つまたは複数のスマートデバイスの前記1つまたは複数の状態を変更させるために、前記少なくとも1つの代替制御要求を前記少なくとも1つのスマートデバイスリモートシステムに送信するステップと
をさらに備える、請求項2から4のいずれか一項に記載の方法。
【請求項6】
前記少なくとも1つの制御要求を生成するステップが、前記少なくとも1つの制御要求の生成時の前記1つまたは複数のスマートデバイスの少なくとも1つの現在の状態にさらに基づき、
前記少なくとも1つの代替制御要求を生成するステップが、前記少なくとも1つの代替制御要求の異なる生成時の前記1つまたは複数のスマートデバイスの少なくとも1つの代替の現在の状態にさらに基づき、
前記少なくとも1つの代替制御要求が、前記少なくとも1つの代替の現在の状態とは異なる前記少なくとも1つの現在の状態に基づいて、前記少なくとも1つの制御要求とは異なる、請求項5に記載の方法。
【請求項7】
前記発話の前記セマンティック表現を生成するステップが、前記アシスタントクライアントデバイスのアカウントのデバイストポロジにさらに基づき、前記デバイストポロジが、前記アシスタントクライアントデバイス、前記1つまたは複数のスマートデバイス、追加のアシスタントクライアントデバイス、および追加のスマートデバイスを定義する、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記デバイストポロジにさらに基づいて前記発話の前記セマンティック表現を生成するステップが、
前記デバイストポロジに基づいて、前記発話の前記テキスト内のあいまいな用語が前記1つまたは複数のスマートデバイスを参照することを解決するステップを備える、請求項7に記載の方法。
【請求項9】
前記セマンティック表現が、
前記1つまたは複数の状態変化の状態変化表現と、
前記1つまたは複数のスマートデバイスの各々について、対応する一意の識別子と
を含む、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記状態変化表現は、絶対的な方式ではなく、相対的な方式で前記1つまたは複数の状態変化を定義する相対的な状態変化表現である、請求項9に記載の方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、スマートデバイスの、効率的で低レイテンシである自動アシスタント制御に関する。
続きを表示(約 4,400 文字)
【背景技術】
【0002】
人間は、本明細書で「自動アシスタント」と呼ばれるインタラクティブなソフトウェアアプリケーションを用いて人間とコンピュータとの対話を行うことができる。たとえば、人間(自動アシスタントと対話する際は「ユーザ」と呼ばれる場合がある)は、1つまたは複数のスマートデバイスを制御するために、および/あるいは1つまたは複数の他の機能を実行するために、自動アシスタントに応答出力を生成および提供させることができる入力を自動アシスタントに提供する。ユーザによって提供される入力は、たとえば、タッチ入力(たとえば、タッチスクリーンを介した)、ジェスチャ(たとえば、カメラを介して検出された)、および/または話された自然言語入力(すなわち、マイクを介して検出された発話)であり得、これは場合によってはテキスト(または、他のセマンティック表現)に変換され、次いでさらに処理される場合がある。
【0003】
多くの場合、自動アシスタントは、アシスタントクライアントデバイスによってローカルに実行され、ユーザによって直接利用される自動アシスタントクライアントと、自動アシスタントクライアントがユーザの入力に応答するのを支援するためにクラウドのより堅牢なリソースを活用するクラウドカウンターパートとを含む。たとえば、自動アシスタントクライアントは、クラウドカウンターパートに、ユーザの発話のオーディオ録音(または、そのテキスト変換)と、任意でユーザの身元を示すデータ(たとえば、資格情報)とを提供することができる。クラウドカウンターパートは、自動アシスタントクライアントに結果を返すためにクエリに対して様々な処理を実行し得、次いで、対応する出力をユーザに提供し得る。
【0004】
多くのユーザは、複数のクライアントデバイスを使用して自動アシスタントを利用し得る。たとえば、一部のユーザは、他のクライアントデバイスの中でも、スマートフォン、タブレットコンピュータ、車両コンピューティングシステム、ウェアラブルコンピューティングデバイス、スマートテレビ、スタンドアロンアシスタント中心型インタラクティブスピーカ、スタンドアロンアシスタント中心型スピーカ付きインタラクティブディスプレイなどの、クライアントデバイスの調整された「エコシステム」を所有している。ユーザは、これらのクライアントデバイスのいずれかを使用して、自動アシスタントを用いて人間とコンピュータとの対話を行うことができる(自動アシスタントクライアントがインストールされていると仮定して)。場合によっては、これらのクライアントデバイスは、ユーザの一次住居、二次住居、職場、および/または他の構造に点在している場合がある。たとえば、スマートフォン、タブレット、スマートウォッチなどのモバイルクライアントデバイスは、ユーザが身に着けている、および/またはユーザが最後に置いた場所にあり得る。従来のデスクトップコンピュータ、スマートテレビ、およびスタンドアロンアシスタント中心型デバイスなどの他のクライアントデバイスはより固定されている場合があるが、ユーザの家や職場内の様々な場所(たとえば、部屋)に配置されている場合がある。
【0005】
ユーザ(たとえば、単一のユーザ、家族の複数のユーザ、同僚、同棲者など)が、自動アシスタントクライアントに関連付けられている複数のスマートデバイスのいずれかを制御するために、クライアントデバイスの調整されたエコシステムのいずれか1つの自動アシスタントクライアントを利用することを可能にするための技法がある。たとえば、ユーザは、対応するスマートデバイス(すなわち、自動アシスタントクライアントにリンクされ、「リビングルーム」照明というラベルが付いた照明)に消灯させるために、クライアントデバイスの自動アシスタントクライアントに「リビングルームの照明を消す」という音声コマンドを発行することができる。
【0006】
クライアントデバイスにおいて受信されたユーザ入力に応答してスマートデバイスを制御する際に、多くの既存の技法は、インターネットを介して、ユーザ入力に対応するデータをリモート自動アシスタントサーバに送信する。リモート自動アシスタントサーバは、要求に基づいて制御されるべきスマートデバイスを決定するためにデータを処理することと、要求に基づいてスマートデバイスの制御要求を生成することと、インターネットを介して、スマートデバイスに関連付けられる当事者(たとえば、スマートデバイスの製造元)のサーバに制御要求を送信することとを行う。制御要求を生成する際、リモート自動アシスタントサーバは、データのセマンティック表現を生成し、次いでセマンティック表現に基づいて制御要求を生成するために、(たとえば、自然言語理解コンポーネントを使用して)データを処理することができる。別個の当事者のサーバは、制御要求を受信し、次いで、インターネットを介して対応する制御コマンドをスマートデバイスに、(たとえば、BLE、Z-Wave、ZigBeeなどの場合)スマートデバイスと共存するハブを通じて送信するか、または(たとえば、ハブを必要としないWi-Fiおよび他のスマートデバイスの場合)IP接続を介してスマートデバイスに直接送信する。
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、そのような技法は、高いレイテンシ、クライアントおよび/またはサーバリソースの過度の使用、ならびに/あるいはネットワークリソースの過度の使用などの欠点を提示する。たとえば、サーバリソースにおける高レイテンシおよび/または過度の使用は、対応する発話のセマンティック表現を生成し、次いで、生成されたセマンティック表現に基づいて制御要求を生成するために、リモートアシスタントサーバが受信したオーディオデータおよび/またはテキストを処理する必要があることの結果である可能性がある。追加的または代替的に、高レイテンシは、リモートアシスタントサーバから別個の当事者サーバへの要求の送信の結果である可能性があり、リモートアシスタントサーバと別個の当事者サーバが地理的に互いに近接していないことによって悪化することがよくある。また、たとえば、ネットワークリソースの過度の使用は、高帯域幅のオーディオデータおよび/またはテキストをクライアントデバイスからリモートアシスタントサーバに送信した結果、ならびに/あるいは高帯域幅の応答テキスト、音声、および/またはグラフィックス(たとえば、スマートデバイスへの要求された変更を確認するもの)を、リモートアシスタントサーバからクライアントデバイスへ送信した結果である可能性がある。
【課題を解決するための手段】
【0008】
最近は、様々な自動アシスタント機能のパフォーマンスを、クラウド自動アシスタントコンポーネントから自動アシスタントクライアントデバイス(すなわち、自動アシスタントインターフェースを提供するクライアントデバイス)にシフトするための取組みが行われている。たとえば、最近は、依然として良好な結果を達成しながら、様々なクライアントデバイスのハードウェアリソース(たとえば、メモリリソース、プロセッサリソースなど)の制約内で利用することができる音声認識モデルを生成するための取組みが行われている。同様に、デバイス上で自然言語理解(NLU)および/またはフルフィルメント(たとえば、ユーザ入力に応じたアクションのパフォーマンス)をシフトするための取組みが行われている。デバイス上でそのような機能を実行すると、レイテンシの減少(たとえば、クライアントサーバラウンドトリップがないため)、ネットワーク使用の減少(たとえば、クライアントサーバラウンドトリップがないため)、および/あるいは低接続または接続がない状況における動作性などの様々な技術的な利点を実現する。
【0009】
しかしながら、デバイス上のNLUおよび/またはデバイス上のフルフィルメントは、多くの要求で失敗する可能性がある。非限定的な一例として、ユーザのリビングルームに配置されたアシスタントクライアントデバイスに提供され、「これらの照明を少し明るくして、より暖かくする」を含む発話を考えてみる。発話の適切なセマンティック表現を生成する際は、「これらの照明」、「少し明るい」、「より暖かい」によって何が意味されるかを解決する必要がある。アシスタントクライアントデバイスのハードウェアリソースが限られていると、ローカルストレージ、ならびに/あるいは意味を解決するために必要な機械学習モデル、ルール、および/またはデバイストポロジの使用を妨げる可能性がある。しかしながら、アシスタントクライアントデバイスよりも堅牢なリソースを有するリモートアシスタントシステムは、意味を解決できる場合がある。たとえば、リモートアシスタントシステムは、リビングルームのクライアントデバイスにおいて受信された(たとえば、最も大音量で、および/またははっきりと聞こえた)発話に関して、「これらの照明」を決定するために、リモートに記憶されたデバイストポロジを活用することができ、リビングルームの照明A、B、およびCを参照する。さらに、リモートアシスタントシステムは、「少し明るい」は、「リビングルームの照明A、B、およびCの現在の輝度強度レベルより30%(あるいは、他のパーセントまたは値)明るい」を意味すると決定するために、リモート機械学習モデルおよび/またはルールを活用することができる。さらに、リモートアシスタントシステムは、「より暖かい」が「現在の色温度よりも20%(あるいは、他のパーセントまたは値)低い色温度」を意味すると決定するために、リモート機械学習モデルおよび/またはルールを活用することができる。
【0010】
したがって、ハードウェアおよび/またはアシスタントクライアントデバイスの他の制約により、リモートアシスタントシステムは依然として、スマートデバイスを制御するための特定の要求などの様々なユーザ要求を解決する際に利用される必要がある。しかしながら、完全な処理のために、解決できないオーディオデータおよび/または発話のテキストをリモートアシスタントシステムに常に提供すると、対応するアクション(たとえば、スマートデバイスの制御)を実行する際に、リモートアシスタントシステムにおけるリソースの過度の使用、および/または過度のレイテンシが発生する可能性がある。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
横浜ゴム株式会社
水中音響材
今日
大和ハウス工業株式会社
音再現設備
4日前
セイコーエプソン株式会社
吸音ボード
18日前
日産自動車株式会社
防音構造体
18日前
株式会社第一興商
カラオケ装置
4日前
コスモネクスト株式会社
入力支援プログラム及び入力支援方法
11日前
京セラ株式会社
音出力装置及び音出力方法
18日前
日本放送協会
音声認識装置およびプログラム
18日前
本田技研工業株式会社
能動型騒音低減装置
18日前
株式会社永セ仁
「パワハラ」等ハラスメント発言に係る職場環境測定システム
今日
株式会社コルグ
音波生成装置、音波生成方法、プログラム
11日前
ソフトバンクグループ株式会社
行動制御システム
11日前
本田技研工業株式会社
音声認識装置、音声認識方法、およびプログラム
3日前
永楽電気株式会社
放送音声文字化システム及び放送設備における故障診断方法
18日前
ヤマハ株式会社
響板、その製造方法および響板を備える楽器
3日前
東日本電信電話株式会社
演奏補助装置、演奏補助方法、及び、演奏補助プログラム
3日前
パイオニア株式会社
情報処理装置
5日前
ドーナッツロボティクス株式会社
音声処理システム、音声処理方法
11日前
ソフトバンクグループ株式会社
データ処理装置、データ処理方法、及びプログラム
18日前
カシオ計算機株式会社
情報処理装置、情報処理方法及びプログラム
5日前
カシオ計算機株式会社
楽音制御システム
3日前
ローランド株式会社
電子打楽器、制御装置、ベロシティ算出プログラム及びベロシティ算出方法
3日前
日産自動車株式会社
シート状防音構造体、並びにこれを用いた自動車用部品およびダクト閉塞用蓋部品
12日前
VIE株式会社
情報処理方法、記録媒体及び情報処理装置
今日
カシオ計算機株式会社
モジュール及びウェアラブル機器
13日前
日本電信電話株式会社
音声認識装置、音声認識方法及び音声認識プログラム
12日前
株式会社東芝
推定プログラム、学習プログラム、推定装置、学習装置、推定方法、学習方法、および学習モデル
11日前
株式会社VARK
音声配信システム、音声配信方法及びプログラム
13日前
日産自動車株式会社
シート状防音構造体およびその製造方法、並びにこれを用いた自動車用部品およびダクト閉塞用蓋部品
12日前
ピクシーダストテクノロジーズ株式会社
信号処理装置、方法、プログラム、および認知機能改善システム
18日前
ハーマン インターナショナル インダストリーズ インコーポレイテッド
音響スクランブルを介した空間インパルス応答の決定
4日前
ドルビー・インターナショナル・アーベー
圧縮された音または音場表現のための層構成の符号化
13日前
ホアウェイ技術有限公司
信号分類方法および信号分類デバイス
13日前
ノキア テクノロジーズ オサケユイチア
低複雑性低ビットレート6DOF HOAのレンダリング方法および装置
13日前
華為技術有限公司
マルチチャネル信号を符号化する方法及びエンコーダ
13日前
グーグル エルエルシー
自動アシスタントによって応答アクションをトリガするためのホットコマンドの検出および/または登録
5日前
続きを見る
他の特許を見る