特許ウォッチ

公開番号2025127413
公報種別公開特許公報(A)
公開日2025-09-01
出願番号2024037628
出願日2024-02-20
発明の名称発話終端検出を不要とする音声対話システム、Webサイト埋め込み型音声対話Q&Aシステム
出願人ThinkX株式会社
代理人
主分類G10L 15/28 20130101AFI20250825BHJP(楽器;音響)
要約【課題】発話終端検出(EOU)処理に伴う遅延がゼロとなり、全体の応答速度が大幅に改善される音声対話システム及び音声対話QAシステムを提供する。
【解決手段】音声入力部、音声入力バッファ、発話終端検出部、音声認識部、言語モデルによるテキスト生成部、音声合成部、音声出力部、を有する一般的な音声対話システムから、発話終端検出部を取り除き、代わりに音声信号入力中であることを能動的に示すトリガーボタンを追加する。このトリガーボタンを押している間、音声入力信号を音声入力バッファに保持し、離した時点で音声信号を音声認識部に転送する。
【選択図】図1b
特許請求の範囲【請求項１】
計算機端末上で動作する音声対話システムにおいて、
音声入力部、音声入力バッファ、音声認識部、言語モデルによるテキスト生成部、音声合成部、音声出力部、トリガーボタンの各部を有し、
前記音声入力部から入力された音声は前記音声バッファに蓄積されたのち前記音声認識部でテキストに変換され、その入力テキストへの応答テキストを前記テキスト生成部が出力した後、応答テキストは前記音声合成部で音声信号に変換され、音声信号が音声出力部から物理的音波として出力される音声対話システムについて、
前記トリガーボタンを押している間音声信号を前記音声入力バッファに入力し、トリガーボタンを離すや、それまで蓄積された音声信号が音声認識部に送られ、以降の処理が実行されることで、
発話終端検出（ＥｎｄｏｆＵｔｔｅｒａｎｃｅ）処理を不要とし、発話終端検出処理に伴う遅延をゼロにすることで、高速な応答を実現すること、
を特徴とする音声対話システム。
続きを表示（約 170 文字）【請求項２】
請求項１に記載の音声対話システムにより、
Ｗｅｂブラウザ上で動作するＨＴＭＬ要素を用いて請求項１に記載のトリガーボタンを構成し、このトリガーボタンを任意のＷｅｂサイト上に設置することで、当該Ｗｅｂサイトにオペレーターとしての音声対話機能を設けることのできる、
Ｗｅｂサイト埋め込み型音声対話Ｑ＆Ａシステム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、音声認識モデル、音声合成モデル、および言語モデルを含む機械学習モデルを用いた音声対話システムに関する。
続きを表示（約 3,800 文字）【背景技術】
【０００２】
音声対話システムのパイプラインを改善する方法がこれまで様々に検討されてきた。高精度の音声認識と複雑な返答内容テキストの生成、および高品質な合成音声を組み合わせつつ、応答までのレイテンシーを短縮しリアルタイム性能を向上することが動機である。
【０００３】
例えばホームスピーカー製品に内蔵される音声対話システムでは話者が屋内空間を自由に移動しながらシステムに音声入力を行うため、システムは音声入力それ自体の情報を用いて発話終端を検出する必要がある。発話終端検出（ＥＯＵ）処理は原始的には無音区間をカウントし、その持続時間が閾値を超えたとき終端と判断する方法から始まり、より近年では基本周波数Ｆ０を中心とする音韻情報や音声認識から得られた発話内容を入力する機械学習モデルを訓練することで検出性能を向上させる方法がある。
非特許文献１では、ＡＳＲ仮説埋め込みと音響埋め込みを比較し、音響埋め込みによる音韻情報が最もモデルの性能に寄与することを示している。
非特許文献２では、音声とテキストによるマルチモーダルモデルを訓練することで、とりわけユーザー状態検出機能により発話終了や割り込み可能状態を意思決定するターンテイキング能力を構築している。
一方で、どのような方法でも実際の発話終了から終端が検出されるまでに一定の遅延時間を避けることができない。音響情報を用いた最先端の手法によっても０．５秒前後の遅延が発話終端検出のために必要とされた。これは多層的なパイプラインで構成される音声対話システム全体で多くを占め、リアルタイム性を損なう制約要因であった。
【先行技術文献】
【非特許文献】
【０００４】
「Ｍａａｓ，Ｒｏｌａｎｄ，ｅｔａｌ．“Ｃｏｍｂｉｎｉｎｇａｃｏｕｓｔｉｃｅｍｂｅｄｄｉｎｇｓａｎｄｄｅｃｏｄｉｎｇｆｅａｔｕｒｅｓｆｏｒｅｎｄ－ｏｆ－ｕｔｔｅｒａｎｃｅｄｅｔｅｃｔｉｏｎｉｎｒｅａｌ－ｔｉｍｅｆａｒ－ｆｉｅｌｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｓ．”２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．ＩＥＥＥ，２０１８」
「Ｌｉｎ，Ｔｉｎｇ－Ｅｎ，ｅｔａｌ．“Ｄｕｐｌｅｘｃｏｎｖｅｒｓａｔｉｏｎ：Ｔｏｗａｒｄｓｈｕｍａｎ－ｌｉｋｅｉｎｔｅｒａｃｔｉｏｎｉｎｓｐｏｋｅｎｄｉａｌｏｇｕｅｓｙｓｔｅｍｓ．”Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＡＣＭＳＩＧＫＤＤＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．２０２２．」
【発明の概要】
【発明が解決しようとする課題】
【０００５】
近年、ＡｍａｚｏｎＡｌｅｘａやＧｏｏｇｌｅＨｏｍｅをはじめとする音声対話システムの応答速度を改善するため、特に韻律情報を入力とする機械学習モデルによる発話終端検出（ＥＯＵ）が用いられたが、このユニット単独で０．５秒前後の遅延増加が避けられず、音声入力から応答までのレイテンシは１秒以上を要した。人間同士の音声対話の応答速度は通常１秒未満であるため、常時１秒以上応答までに要する対話システムは対人間との音声対話体験のような快適さを感じられず、無意識にストレスや抵抗を感じざるを得なかった。
したがって、音声の入出力をインターフェースとするインタラクティブシステムが本格的に社会実装されるにはこの応答速度の問題を解決する必要があった。
【課題を解決するための手段】
【０００６】
本発明の計算機端末上で動作する音声対話システムは、
音声入力部、音声入力バッファ、音声認識部、言語モデルによるテキスト生成部、音声合成部、音声出力部、に加えて、音声信号入力中に押下するトリガーボタンを設ける。このトリガーボタンを押している間音声入力信号を音声入力バッファに保持し、トリガーボタンを離すや、それまで保持された音声信号が音声認識部に送られ、以降の処理が実行されることで、発話終端検出（ＥＯＵ）処理に伴う遅延がゼロとなり、全体の応答速度は音声認識部、言語モデル、音声合成部、音声出力部、およびデータ転送や圧縮エンコードおよびデコードなどにかかるオーバーヘッド等の遅延の合計となる。
【発明の効果】
【０００７】
本発明では、機械学習モデルを主に用いる音声対話システムの全体の遅延を構成する、音声入力、発話終端検出（ＥＯＵ）、音声認識、言語モデルによるテキスト生成、音声合成、音声出力、およびデータ転送や圧縮エンコードおよびデコードなどにかかるオーバーヘッド、のパイプラインのうち、発話終端検出処理にかかる遅延をゼロにする。
発話終端検出が占める割合はこの中でも３０％～５０％前後に達することがあり、これを削減することで全体の遅延は大幅に短縮され、応答速度は大幅に向上する。例えば７００億パラメーター規模の大規模言語モデルによるテキスト生成処理を挟んでも、各処理部の最適化や、各部を繋ぐネットワーキングと各処理部の並列化等を併せることで、全体の遅延を０．５秒以内に抑えることが可能となり、これによって音声対話システムのリアルタイム性能は人間同士の会話と同等の遅延レベルに達する。
【図面の簡単な説明】
【０００８】
発話終端検出処理を含む、機械学習モデルを主に用いた従来の一般的な音声対話システムのパイプラインを図示した概念図である。
請求項１に記載された、本発明の音声対話システムを構成する全体のパイプラインを図示した概念図である。
さらに請求項２に記載された、トリガーボタンがＷｅｂブラウザ上のＨＴＭＬ要素として実現されたＷｅｂサイト埋め込み型音声対話Ｑ＆Ａシステム全体のパイプラインを図示した概念図である。
【発明を実施するための形態】
【０００９】
本発明の音声対話システムは、計算機端末上で動作するものであり、先述した音声入力部から音声出力部までの各部を備えてさえいれば、そのいずれかの要素が異なる端末上に分散していても構わない。例えばインターネットを経由せずにローカル端末内のみで実現される音声対話システムは各部が単一の計算機端末に配置される。一方、クラウド方式の音声対話システムでは音声入力部と音声出力部のみがローカル端末上に配置され、それ以外はインターネットで接続されたサーバー端末上に配置されるか、あるいは音声認識部や音声合成部がローカル端末上に配置される場合もある。その組み合わせは任意であり、本発明にとってどのような組み合わせでも構わない。
【００１０】
本発明の想定する、音声対話システムを構成する各部の役割を説明する。
音声入力部は一般にマイク機器を通じ物理的な空気中の振動を電気的信号に変換し、アナログ信号をデジタル方式の計算機端末であればＰＣＭをはじめとする離散表現を用い変換し、さらにバイナリやＷＡＶ、ｍｐ３等の形式で計算機上のメモリ空間に格納することで音声情報を取り込む。音声入力部は物理的に発話された音声信号をメモリ空間に記録できるものであればどのようなものでも構わない。
音声入力バッファは連続入力される音声信号を次の処理部である音声認識部に転送されるまでの間保持する計算機端末上のメモリ領域である。
音声認識部は音声入力部で記録され音声入力バッファより転送される音声信号を入力し、その音声信号によって発話していると推測される自然言語表現をテキストデータで出力する。出力されるテキストデータはＵｎｉｃｏｄｅやＡＳＣＩＩ文字列、サブワードトークンのインデックスの列など、どのようにエンコードされたものでも構わない。
言語モデルによるテキスト生成部は、音声認識部から出力されたテキストデータ、さらに必要に応じ任意の付随情報を加えた入力を受け付け、その入力に対応する応答内容または必要に応じて付随する情報をテキストデータで出力する。出力されるテキストデータの形式は音声認識部で説明したのと同様、どのようにエンコードされていても構わない。また応答内容に付随する情報がどのようであっても構わない。例えば画像などが付随されて出力されても構わない。
音声合成部は言語モデルが生成した応答内容としてのテキストデータを入力し、その読み上げ音声としての音声信号を出力する。出力される音声信号のデータ形式はバイナリやＷＡＶまたは任意の圧縮形式でエンコードされた形式など、どのような形式であっても構わない。
音声出力部は音声合成部が出力する音声信号のデジタルデータをヒト聴覚で知覚可能な物理的振動に変換し、スピーカーやヘッドフォンなど任意の機器を通じ出力する。
（【００１１】以降は省略されています）

関連特許