TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025160161
公報種別公開特許公報(A)
公開日2025-10-22
出願番号2025103652,2023534701
出願日2025-06-19,2020-12-08
発明の名称自動音声応答システム用の選択可能なコントロール
出願人グーグル エルエルシー,Google LLC
代理人弁理士法人深見特許事務所
主分類H04M 1/64 20060101AFI20251015BHJP(電気通信技術)
要約【課題】自動音声応答(IVR)システム用のナビゲート及び理解しやすい選択可能なコントロールを可能にする方法、デバイス並びに記憶媒体を提供する。
【解決手段】コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話に関連するオーディオデータが、複数の選択可能なオプションを含むかどうかを判定する方法であって、サードパーティが、通話中に選択可能なオプションを可聴的に提供し、コンピューティングデバイスは、提供されたオーディオデータが選択可能なオプションを含むと判定すると、複数の選択可能なオプションのテキスト記述を判定し、2つ以上の選択可能なコントロールをディスプレイ上に表示する。ユーザは、複数の選択可能なオプションのうちの選択されたオプションを指示するために、選択可能なコントロールを選択する。
【選択図】図1
特許請求の範囲【請求項1】
方法であって、
コンピューティングデバイスが、前記コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得することを含み、前記オーディオデータは、前記コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含み、前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータが2つ以上の選択可能なオプションを含むかどうかを判定することを含み、前記2つ以上の選択可能なオプションは、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供され、前記方法はさらに、
前記オーディオデータが前記2つ以上の選択可能なオプションを含むと判定することに応答して、前記コンピューティングデバイスが、前記2つ以上の選択可能なオプションのテキスト記述を判定することを含み、前記テキスト記述は、前記2つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供し、前記方法はさらに、
前記コンピューティングデバイスのディスプレイ上に2つ以上の選択可能なコントロールを表示することを含み、前記2つ以上の選択可能なコントロールは、前記2つ以上の選択可能なオプションのうちの選択されたオプションの指示を前記サードパーティに提供するために、前記ユーザによって選択可能に構成され、前記2つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションの前記テキスト記述を提供する、方法。
続きを表示(約 2,200 文字)【請求項2】
前記方法はさらに、
前記選択されたオプションに関連付けられた前記2つ以上の選択可能なコントロールのうちの1つの選択可能なコントロールの選択を受信することを含み、前記選択は、前記音声通話中または前記ビデオ通話中に前記ユーザによって行われ、前記方法はさらに、
前記1つの選択可能なコントロールの選択を受信したことに応答して、前記コンピューティングデバイスが、前記選択されたオプションを前記サードパーティに伝達することを含む、請求項1に記載の方法。
【請求項3】
前記選択されたオプションを前記サードパーティに伝達することは、前記ユーザが前記選択されたオプションを可聴的に伝達することなく、前記コンピューティングデバイスが、音声応答またはDTMF(Dual-Tone Multi-Frequency)トーンを前記サードパーティに送信することを含む、請求項2に記載の方法。
【請求項4】
前記方法はさらに、
前記選択されたオプションを前記サードパーティに伝達することに応答して、前記コンピューティングデバイスが、前記通信アプリケーションから出力される追加のオーディオデータを取得することを含み、前記追加のオーディオデータは、前記選択されたオプションに応答して、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供される2つ以上の追加の選択可能なオプションを含む、請求項2または3に記載の方法。
【請求項5】
前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータがユーザ情報の要求を含むかどうかを判定することを含み、前記ユーザ情報の要求は、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供され、前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記ユーザ情報の要求に応答してユーザデータを特定することと、
前記音声通話中または前記ビデオ通話中に、前記コンピューティングデバイスが、前記
ユーザデータを前記ディスプレイ上に表示すること、または前記コンピューティングデバイスが、前記ユーザデータを前記サードパーティに提供することとを含む、先行する請求項のいずれか1項に記載の方法。
【請求項6】
前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータが伝達情報を含むかどうかを判定することを含み、前記伝達情報は、前記音声通話または前記ビデオ通話のコンテキストに関連し、前記音声通話中または前記ビデオ通話中に前記サードパーティまたは前記ユーザによって可聴的に提供され、前記方法はさらに、
前記オーディオデータが前記伝達情報を含むと判定することに応答して、前記コンピューティングデバイスが、前記伝達情報のテキスト記述を判定することを含み、前記伝達情報の前記テキスト記述は、前記伝達情報の少なくとも一部のトランスクリプションを提供し、前記方法はさらに、
他の選択可能なコントロールを前記ディスプレイ上に表示することを含み、前記他の選択可能なコントロールは、前記伝達情報の前記テキスト記述を提供し、前記伝達情報を、前記コンピューティングデバイス、前記アプリケーション、または前記コンピューティングデバイス上の他のアプリケーションのうちの少なくとも1つに保存するように、前記ユーザによって選択可能に構成されている、先行する請求項のいずれか1項に記載の方法。
【請求項7】
前記2つ以上の選択可能なオプションの前記テキスト記述を判定することは、前記コンピューティングデバイスが、前記2つ以上の選択可能なオプションの前記テキスト記述を判定するために機械学習モデルを実行することを含み、前記機械学習モデルは、前記オーディオデータからテキスト記述を判定するように訓練され、前記オーディオデータは、前記コンピューティングデバイスのオーディオミキサから受信される、先行する請求項のいずれか1項に記載の方法。
【請求項8】
前記機械学習モデルは、エンドツーエンドのリカレントニューラルネットワーク・トランスデューサ自動音声認識モデルを含む、請求項7に記載の方法。
【請求項9】
前記2つ以上の選択可能なオプションは、自動音声応答(IVR)システムまたは音声応答ユニット(VRU)システムのオプションを表すメニューであり、前記IVRシステムまたは前記VRUシステムは、前記ユーザと対話し、前記ユーザを、前記IVRシステムまたは前記VRUシステムの別のメニュー、前記サードパーティに関連する人員、前記サードパーティに関連する部署、前記サードパーティに関連するサービス、または前記サードパーティに関連する情報のうちの少なくとも1つに誘導するように構成されている、先行する請求項のいずれか1項に記載の方法。
【請求項10】
前記2つ以上の選択可能なコントロールは、ボタン、トグル、選択可能なテキスト、スライダ、チェックボックス、またはアイコンのうちの少なくとも1つを含み、前記通信アプリケーションのユーザインターフェイスに含まれる、先行する請求項のいずれか1項に記載の方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【背景技術】
【0001】
背景
自動音声応答(interactive voice response:IVR)システム、または電話ツリーは、音声入力またはテンキーパッドを通じて、発信者がコンピュータ動作の電話システムと対話できるようにするものである。たとえば、電話システムは、携帯電話を使った購入、銀行の支払い、サービス、小売注文、公共サービス、旅行情報、および天気予報に、IVRを使用することができる。IVRシステムは一般に、発信者を識別し区分するために、一連の音声メニューを使用する。これらのメニューには、発信者が理解、ナビゲート、または記憶することが困難な場合がある複数のオプションが含まれている。
続きを表示(約 3,800 文字)【発明の概要】
【0002】
概要
本明細書では、IVRシステム用の選択可能なコントロールを提供するシステムおよび技術について説明する。説明するシステムおよび技術は、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話に関連するオーディオデータが、複数の選択可能なオプションを含むかどうかを判定し得る。サードパーティは、通話中に選択可能なオプションを可聴的に提供する。オーディオデータが選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスは、複数の選択可能なオプションのテキスト記述を判定し得る。次に、説明するシステムおよび技術は、ディスプレイ上に2つ以上の選択可能なコントロールを表示し得る。ユーザは、複数の選択可能なオプションのうちの選択されたオプションを示すために、選択可能なコントロールを選択し得る。このように、説明するシステムおよび技術は、IVRシステムをナビゲートおよび理解しやすくすることにより、音声通話およびビデオ通話のユーザ体験を向上させることができる。
【0003】
説明するシステムおよび技術は、特定のコミュニケーション障害があるユーザなどのユーザがIVRシステムと対話する際の使い易さを向上させることができる。一例として、説明するシステムおよび技術は、耳が不自由であり、他の場合はIVRシステムと対話することが困難または不可能であると感じることのあるユーザが、IVRシステムに応答を提供することを可能にし得る。同様に、説明するシステムおよび技術は、発話障害を有し、他の場合はIVRシステムと対話することが困難または不可能と感じることのあるユーザが、IVRシステムに応答を提供することを可能にし得る。また、説明するシステムおよび技術は、IVRシステムによって提供されるオプションのリストを記憶することができない短期記憶障害のあるユーザが、IVRシステムに応答を提供するのを支援することもできる。また、説明するシステムおよび技術は、ユーザが音声通話またはビデオ通話で提供されるオプションを理解することが困難な場合、たとえば、音声が歪んでいたり、音声通話またはビデオ通話から生じるものではない周囲の雑音に気を取られていたりする場合、ユーザがIVRシステムと対話する際の使い易さを向上させることができる。
【0004】
たとえば、コンピューティングデバイスは、コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得する。オーディオデータは、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含む。コンピューティングデバイスは、音声通話またはビデオ通話の可聴部分を使用して、オーディオデータが2つ以上の選択可能なオプションを含むかどうかを判定する。サードパーティは、音声通話中またはビデオ通話中に、2つ以上の選択可能なオプションを可聴的に提供する。オーディオデータが2つ以上の選択可能なオプショ
ンを含むと判定することに応答して、コンピューティングデバイスは、2つ以上の選択可能なオプションのテキスト記述を判定し、テキスト記述は、2つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供する。次に、コンピューティングデバイスは、2つ以上の選択可能なコントロールを表示する。2つ以上の選択可能なコントロールは、2つ以上の選択可能なオプションのうちの選択されたオプションをサードパーティに示すために選択可能であり得る。2つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述を提供する。
【0005】
本明細書では、IVRシステム用の選択可能なコントロールを提供するための他の方法、構成、およびシステムについても説明する。
【0006】
本概要は、詳細な説明および図面にさらに記載のIVRシステム用の選択可能なコントロールを提供するための簡略化された概念を紹介するために提供される。本概要は、特許請求される主題の本質的な特徴を特定することを意図したものではなく、特許請求される主題の範囲を決定するために使用することを意図したものでもない。
【0007】
IVRシステム用の選択可能なコントロールを提供するための視覚的ユーザインターフェイスの1つまたは複数の態様の詳細を、以下の図面を参照して本明細書で説明する。複数の図面を通して、同様の特徴および構成要素を参照するために同じ番号が使用されている。
【図面の簡単な説明】
【0008】
IVRシステム用の選択可能なコントロールを提供できるコンピューティングデバイスを含む環境例を示す図である。
自動音声応答システムの視覚的ユーザインターフェイスを提供できるコンピューティングデバイスのデバイス例を示す図である。
IVRシステムに応答して選択可能なコントロール用のテキスト記述を提供できるコンピューティングデバイスの機械学習モデルの例を示す図である。
音声通話およびビデオ通話に関連する選択可能なコントロールおよびユーザデータを提供できるコンピューティングデバイスの動作例を示すフローチャートである。
IVRシステム用の選択可能なコントロールを提供する動作例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスの他の例を示す図である。
【発明を実施するための形態】
【0009】
詳細な説明
概略
本明細書では、IVRシステム用にコンピューティングデバイス上で選択可能なコントロールを提供する技術およびシステムについて説明する。上述したように、IVRシステムは、音声入力またはテンキーパッドによって生成されるDTMF(Dual-Tone
Multi-Frequency-Tone)を通じて、発信者が電話システムと対話することを可能にする。IVRシステムは、各々が複数の選択可能なオプションを含む一連のメニューを提供することができる。音声メニューは、分かりにくく、発信者がナビゲートしにくい場合がある。たとえば、IVRシステムによっては、各メニューに多くのオプションが用意されていたり、呼び出しにくい詳細なオプションが用意されていたりする。耳の不自由なユーザは、オプションを聞き取ることが困難または不可能であるため、通常、オプションを選択するための応答を提供できない場合がある。言語障害のあるユーザは、オプションに対して声を出して応答することができない場合がある。短期記憶障害のあるユーザは、応答を提供するときに、IVRシステムが提供するオプションを記憶することができない場合がある。
【0010】
ユーザが音声通話またはビデオ通話ができる通信アプリケーションを搭載したスマートフォンについて考える。たとえば、ユーザは、通信アプリケーションを使って診療所に電話をかけることができる。診療所では、IVRシステムを使用して、適切な情報、人員、または部署に発信者を誘導することができる。最初の音声メニューでは、適切な言語を選択するようユーザに求めることができる。可聴的に伝えるか、希望言語に関連付けられた番号を押すことによって言語を選択すると、IVRシステムは別のオプションメニューを提示することができる。たとえば、IVRシステムは、発信者を、請求、スケジューリング、医療に関する質問、サービス提供会社、および人員についての質問に関する追加のメニューに誘導することができる。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許