TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025065586
公報種別公開特許公報(A)
公開日2025-04-21
出願番号2024177528
出願日2024-10-09
発明の名称対話型音声応答システム内でのユーザ対話セッションを最適化するシステム及び方法
出願人ヒシャブ シンガポール プライベート リミテッド
代理人個人,個人,個人
主分類G10L 15/22 20060101AFI20250414BHJP(楽器;音響)
要約【課題】人間とコンピュータの対話中に、対話型音声応答システム内のユーザ対話セッションをモニタリングし最適化するためのシステム及び方法を提供する。
【解決手段】ユーザ対話セッションをモニタリングし最適化するためのユーザ対話管理システム(100)は、会話コントローラモジュール(109)を含み、会話コントローラモジュール(109)は、ユーザ対話セッション中に、音声特徴を受信し、ASR(自動音声認識)とNLU(自然言語理解)との出力を処理して、ユーザ対話セッションの持続時間を最適化する。会話コントローラは、スピーチ速度を上げるように、または、スピーチ速度を下げるようTTS(テキストトゥスピーチ)モジュール(107)に提案してもよい。
【選択図】図1A
特許請求の範囲【請求項1】
人間とコンピュータとの間の対話による対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するためのユーザ対話管理システム(100)であって、
ユーザ対話セッションにおけるスピーチセグメントと、非スピーチセグメントと、話者交代スピーチセグメントと、割り込みスピーチセグメントと、のうち少なくとも1つを決定し、記憶する、双方向オーディオコネクタユニット(103)と、
前記ユーザの発信者番号又は前記ユーザに割り当てられた固有の識別番号を使用して、ユーザ対話セッションに対する前記ユーザの認証を行う、ユーザ識別モジュール(100)と、
ユーザスピーチ入力から会話データと音声データの特徴とを受信して分析し、前記ユーザ対話セッションに対応するASR(自動音声認識)モデルを記憶するスピーチ/音声処理ユニット(104)と、
前記会話データに対応する文字起こしされたテキストを受信して処理し、対応する対話エンジンコンポーネントと、自然言語理解(NLU)モデルと、を記憶して、前記ユーザ対話セッションにおいて前記ユーザとの音声ベースの対話を処理する対話エンジン(105)と、
前記ユーザ対話セッションに関連する情報を追加する対話状態トラッカ(105e)と、
前記音声特徴を受信し、前記ユーザ対話セッションの持続時間を最適化するために、前記ユーザ対話セッションのための関連するASRモデル及びNLUモデルを選択及び/又は修正する、会話コントローラモジュール(109)と、
前記ユーザ対話セッションをモニタリングし、前記ユーザ対話セッションに対応するキーメトリクスを前記会話コントローラモジュール(109)に追加するセッションモニタリングモジュール(108)と、
前記ユーザ対話セッション中に前記ユーザの意図に対応する応答を生成する対話エンジンディスパッチャ(106)と、
前記生成された応答を受信し、スピーチ合成を実行するTTS(テキストトゥスピーチ)モジュール(107)と、
を備える、
ユーザ対話セッションをモニタリング及び最適化するための前記ユーザ対話管理システム(100)。
続きを表示(約 1,900 文字)【請求項2】
前記会話コントローラ(109)は、さらに、スピーチセグメントと、非スピーチセグメントと、話者交代スピーチセグメントと、割り込みスピーチセグメントと、を決定することに関連したモデルを選択及び修正して、目標とするサービスを達成するよう構成される、
請求項1に記載の、人間とコンピュータとの対話中での対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するためのユーザ対話管理システム(100)。
【請求項3】
前記会話コントローラ(109)は、さらに、非スピーチセグメントを決定するための閾値を割り当て及び修正するように構成される、
請求項1に記載の、人間とコンピュータとの対話中での対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するためのユーザ対話管理システム(100)。
【請求項4】
前記会話コントローラ(109)は、さらに、前記受信した音声特徴及び/又は既存のユーザプロフィールに基づき、 会話データモデルを選択及び修正するよう構成される、
請求項1に記載の、人間とコンピュータとの対話中での対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するためのユーザ対話管理システム(100)。
【請求項5】
前記対話エンジン105は、前記対話エンジン105内に配置された、前記NLUコンポーネント105aと、NLUモデルストレージ105bと、対話エンジンコアモデルデータベース105cと、アクションサーバ105dと、前記対話状態トラッカ105eと、のうち少なくとも1つをさらに備える、
請求項1に記載の、人間とコンピュータとの対話中での対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するためのユーザ対話管理システム(100)。
【請求項6】
前記対話エンジン105は、前記対話エンジン105内に配置された、大規模言語モジュール125sと、アクションサーバ105dと、前記対話状態トラッカ105eと、のうち少なくとも1つをさらに備える、
請求項1に記載の、人間とコンピュータとの対話中での対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するためのユーザ対話管理システム(100)。
【請求項7】
前記対話エンジン(105)は、さらに、対話エンジンコアモデルストレージ(105c)を用いて、前記受信した会話データに基づき、適当なシステムアクションを予測するように構成され、ここで、前記適当なシステムアクションは、
発話された応答の文字起こしを生成すること、
対応するデータベースを照会すること又は電話をかけること、
複数のフォーム及び/又はスロットの内少なくとも1つを生成すること、
前記複数のフォーム及び/又はスロットを検証すること、
を含む、
請求項1に記載の、人間とコンピュータとの対話中での対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するためのユーザ対話管理システム(100)。
【請求項8】
前記会話データのための前記適当なシステムアクションは、トランスフォーマ埋め込み対話(TED)ポリシと、記憶ポリシと、ルールポリシと、のうち少なくとも1つを用いて決定される、
請求項7に記載の、人間とコンピュータとの対話中での対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するためのユーザ対話管理システム(100)。
【請求項9】
前記スピーチ処理ユニット(104)は、さらに、前記受信した音声データ特徴から、感情と、センチメントと、ノイズプロファイルと、環境音声情報と、のうち少なくとも1つを検知及び解析をするよう構成される、
請求項1に記載の、人間とコンピュータとの対話中での対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するためのユーザ対話管理システム(100)。
【請求項10】
前記対話エンジン(105)は、さらに、アクションサーバ(105d)を用いて、前記適当なアクションを実行するとともに、前記ユーザ対話セッションに対応する前記適当なフォーム及び/又はスロットに入力するよう構成される、
請求項7に記載の、人間とコンピュータとの対話中での対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するためのユーザ対話管理システム(100)。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、対話型音声応答システムの会話及びユーザ対話セッションのモニタリング及び制御に関するものであり、より具体的には、対話型音声応答システム内での対話セッションの持続時間を最適化することにより、ユーザ対話を改善するシステム及び方法に関する。
続きを表示(約 2,800 文字)【背景技術】
【0002】
一般に、ユーザジャーニは、システム、アプリケーション、ウェブサイト内での特定のタスクを完了するためにユーザが実行する様々なステップとして説明される。ダイアログエンジンの場合、ユーザジャーニは、ユーザ(文又は入力)が会話を開始してサービスを起動してからサービスが完了する(対話エンジンが目的のサービスが正常に提供されたことをアナウンスし終えたとき)までのタイムスパンとして定義される。しかしながら、対話エンジンを用いる対話型音声応答システムでのユーザ対話セッションでは、ユーザジャーニ持続時間は、無音の間隔及びターン遷移の予測に係る時間、テキストトゥスピーチ変換(TTS)プロセス、自然言語理解(NLU)モデルの実行、会話の経路設計のような、いくつかの現象の影響を受ける。いくつかの現象の不整合により、ユーザは時間及びエネルギを浪費し、また、システムの時間、ASRとサーバへの過負荷、さらに運用コストもそれぞれ発生する。その結果、ユーザは、システムのインターフェースが使いやすいものではないと感じ、より良い無音検出メカニズムが無いため電話番号等のような長い情報を入力するときに困難に遭遇することがあり、そのため、将来的にシステムインターフェースを使うのをためらう場合がある。さらに、現在の状況では、IVR通信システムでの対話管理システムでは、ユーザインターフェース駆動エンティティのASRと自然言語理解(NLU)パイプラインとは、分類されたケース毎にそれぞれ手動で適合させて実行される必要がある。そのため、大規模な保守は困難である。その結果、複数のケースが見逃され又は上手くナビゲートされず、会話の進行性が損なわれる。
【0003】
少なくとも1つの現象を最適化することは、ユーザジャーニの持続時間を最適化することができる。例えば、ターン遷移の回数が最適化された場合、ASRモデルが音声を推論することを要する回数が減少し、さらに、TTSモデルがテキストを音声に変換することを要する回数も同様に減少する。これは、複数の同時に使用するユーザにサービスを提供するために必要なサーバのサイズを低減することも、さらに、構成を介して同時にサービスを提供できるユーザの数を増加することにもつながる。
【0004】
したがって、柔軟性があり、ユーザとの対話セッションを中断することなく、ユーザジャーニを改善し、テストし、エラーをバックグラウンドで認識し変更でき、さらに、運用コストとユーザ利用のコストとを節約することができる、改善、ソリューションの必要性が存在する。
【発明の概要】
【0005】
本概要は、詳細な説明において以下にさらに説明される簡略化して概念の一部を紹介するために提供される。本概要は、請求された主題の主要な特徴又は本質的な特徴を特定することを意図したものでも、請求された主題の範囲を決定することの参酌に用いられることを意図したものでもない。
【0006】
一般に、従来の対話管理システムでは、複数のテキスト分析ツールやチューニングツールや最適化ツールは、個別に手動で適用及び操作されており、複雑さやコストの課題があった。前例のないケースや調整ミスは、人間のフィードバックに基づいて特定され、それに基づいて手動で対策がなされる。対話セッションでの調整ミスは、ユーザに時間とエネルギとを消費させる。その結果、ユーザはシステムのインターフェースを使いやすいとは思えず、例えば、電話番号のような長い情報を入力するときに困難に遭遇する場合がある。上記の関連する課題を克服するために、本発明は、エラーを決定し、効率的に発達し、ユーザジャーニを最適化して保守するための変更を展開することにより、対話型音声応答システムにおける対話セッションの持続時間を最適化することを通じて、ユーザ対話セッションを改善するためのシステム及び方法について説明する。本発明の実施形態によれば、セッションモニタリングモジュールとユーザプロフィールデータベースとから得られた結果に基づいて、自動的にアクションを起動することができる会話コントローラが使用され、それによって、ユーザジャーニとその持続時間とを最適化する。ユーザ対話セッション管理のためのシステム及び方法は、特定の構成要素に焦点を当て稼働するセンチメント分析に適用することをさらに含む。そのため、ユーザジャーニの持続時間とエクスペリエンスを向上させ、不確実性と分類エラーとシステム内の対話セッションでの調整ミスとを測定し低減する。これにより、インターフェースをより効率的に親しみやすいものにする。さらに、システム運用とユーザの使用とのための時間とコストとを節約するという更なる利点もある。実装は、1つ以上の以下の特徴を備える。
【0007】
図は、1つ以上の実施形態を例示の手段のみにより示し、限定するものではない。図において、同様の符号は、同一又は類似の要素を示す。
【図面の簡単な説明】
【0008】
図1Aは、会話コントローラを用いてユーザ対話セッションをモニタリング及び最適化するための、ユーザとIVR通信システム100との間の対話セッション中に送信及び受信されるデータを示すブロック図である。
図1Bは、会話コントローラを用いてユーザ対話セッションをモニタリング及び最適化するための、ユーザとIVR通信システム120との間の会話セッション中に送信及び受信されるデータを示すブロック図である。
図2は、スピーチセグメント及び/又は非スピーチセグメントを決定するためのプロセス200を示すフローチャートである。
図3は、例示的なシナリオにおける会話コントローラ統合のためのプロセス300を示すフローチャートである。
【発明を実施するための形態】
【0009】
本明細書で説明されるのは、人間とコンピュータとの対話中に対話型音声応答システム内のユーザ対話セッションをモニタリング及び最適化するための方法及びシステムである。システム及び方法は、図に関して説明され、そのような図は、本発明の実施形態による例示的なシステム及び方法の容易な説明のため示すことを意図するものであって、限定することを意図するものではない。
【0010】
特定の実施形態の前述の説明は、本明細書の実施形態の一般的な性質を明らかにするものであり、現在の知識を適用することにより、他の者が、一般的な概念から逸脱することなく、そのような特定の実施形態を様々な用途に容易に変更及び/又は適用でき、したがって、そのような適用と変更とは、開示された実施形態の意義と等価の範囲内だと理解されるべきであり、意図される。
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
リアルタイム翻訳システム
5日前
株式会社SOU
保護具
18日前
三井化学株式会社
防音構造
12日前
三井化学株式会社
遮音構造体
19日前
三井化学株式会社
防音構造体
13日前
東レ・セラニーズ株式会社
混繊不織布
18日前
株式会社エクシング
カラオケシステム
27日前
スマートライフサプライ合同会社
楽器スタンド
18日前
ヤマハ株式会社
楽器用響板および弦楽器
1か月前
株式会社ルミカ
カード型保安用品
27日前
トヨタ自動車株式会社
電動車両の制御装置
27日前
リオン株式会社
雑音抑制処理方法及び聴取装置
29日前
横浜ゴム株式会社
多層空洞音響材
26日前
中強光電股ふん有限公司
電子システム及びその制御方法
18日前
ヤマハ株式会社
板材、楽器及び弦楽器
1か月前
ドリックス株式会社
消音パネル
15日前
トヨタ自動車株式会社
情報処理装置
5日前
株式会社第一興商
カラオケ装置
14日前
ヤマハ株式会社
ギターのボディ構造体およびギター
1か月前
カシオ計算機株式会社
電子機器
18日前
株式会社JVCケンウッド
聴音装置、聴音方法及びプログラム
18日前
本田技研工業株式会社
車載音響制御装置
1か月前
株式会社しくみ
音声翻訳プログラム
今日
株式会社第一興商
カラオケシステム
28日前
カシオ計算機株式会社
電子鍵盤楽器
18日前
アルプスアルパイン株式会社
能動騒音制御システム
27日前
本田技研工業株式会社
能動型騒音低減装置
1か月前
ソフトバンクグループ株式会社
システム
18日前
ソフトバンクグループ株式会社
システム
18日前
ソフトバンクグループ株式会社
システム
15日前
ソフトバンクグループ株式会社
システム
18日前
ソフトバンクグループ株式会社
システム
15日前
ソフトバンクグループ株式会社
システム
15日前
ソフトバンクグループ株式会社
システム
15日前
ソフトバンクグループ株式会社
システム
15日前
ソフトバンクグループ株式会社
システム
15日前
続きを見る