TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025003232
公報種別公開特許公報(A)
公開日2025-01-09
出願番号2023103792
出願日2023-06-23
発明の名称発話タイミング推定システムおよび対話システム、並びにプログラム
出願人学校法人早稲田大学
代理人個人
主分類G10L 13/02 20130101AFI20241226BHJP(楽器;音響)
要約【課題】発話タイミング推定の精度向上および/または次発話準備の効率化を図り、システムの応答性を向上させ、円滑な対話を実現することができる発話タイミング推定システムおよび対話システムを提供する。
【解決手段】対話システム10において、音声認識処理で得られたユーザ発話の途中までの認識済トークン列を用いて、言語モデルにより後続トークン列を推定し、補完トークン列を生成する文章生成器31を設け、後続トークン列や補完トークン列から得られる予測情報(構文完了性推定器33の出力、ダイアログアクト推定器40の出力または中間特徴量、言語特徴量抽出手段32の出力のうちの少なくとも1つ)と、音響特徴量とを発話タイミング推定器50に入力する。また、補完トークン列を用いて次発話の準備をする。
【選択図】図1
特許請求の範囲【請求項1】
ユーザ発話からシステム発話への交代のタイミングを推定する処理を実行するコンピュータにより構成された発話タイミング推定システムであって、
音声認識処理で得られたユーザ発話の途中までの部分を構成する認識済トークン列を用いて、ジェネレイティヴ・プリトレインド・トランスフォーマ2、3若しくは4(GPT-2,3若しくは4)、またはその他の言語モデルにより、ユーザ発話についての前記認識済トークン列に続く部分を構成する後続トークン列を推定し、または、この推定に加え、前記認識済トークン列に前記後続トークン列を加えた補完トークン列を生成する文章生成器と、
この文章生成器により推定された前記後続トークン列または生成された前記補完トークン列から得られる予測情報と、ユーザ発話の音声信号から得られる音響特徴量とを含む情報を入力データとし、次のシステム発話を開始するタイミングを推定するパターン認識処理を実行する発話タイミング推定器とを備え、
この発話タイミング推定器に入力する前記予測情報は、
(a)前記文章生成器により推定された複数の前記後続トークン列を用いて、あと何個のトークン若しくはどれくらいの時間長で発話が完了するのかを示す発話完了トークン数若しくは発話完了時間長の確率分布、または前記発話完了トークン数若しくは前記発話完了時間長の確率を累積した累積確率分布を求める構文完了性推定器を設け、この構文完了性推定器により求めた前記発話完了トークン数若しくは前記発話完了時間長の確率分布または累積確率分布のベクトルデータと、
(b)前記文章生成器により生成された前記補完トークン列から得られる言語特徴量と、ユーザ発話の音声信号から得られる音響特徴量とを含む情報を入力データとし、ユーザ発話のダイアログアクトを推定するか、またはこのユーザ発話のダイアログアクトに加えて次のシステム発話のダイアログアクトを推定するパターン認識処理を実行するダイアログアクト推定器を設け、このダイアログアクト推定器から出力された前記ダイアログアクトの推定結果若しくはこの推定結果に至るまでの中間特徴量と、
(c)前記文章生成器により生成された前記補完トークン列から得られる言語特徴量と
のうちの少なくとも1つの情報である
ことを特徴とする発話タイミング推定システム。
続きを表示(約 1,500 文字)【請求項2】
ユーザ発話の音声信号を用いて、ユーザ発話末からの経過時間またはこの経過時間の長短を示す代替値を計測するユーザ発話終了後経過時間計測手段を備え、
前記発話タイミング推定器の入力データには、前記ユーザ発話終了後経過時間計測手段により計測されたユーザ発話末からの経過時間またはその代替値も含まれる
ことを特徴とする請求項1に記載の発話タイミング推定システム。
【請求項3】
ユーザとの音声対話のための処理を実行するコンピュータにより構成された対話システムであって、
請求項1または2に記載の発話タイミング推定システムと、
ユーザ発話の音声信号を取得する音声信号取得手段と、
この音声信号取得手段により取得したユーザ発話の音声信号についての音声認識処理を実行する音声認識器と、
前記発話タイミング推定システムを構成する前記発話タイミング推定器によるパターン認識処理の周期に依拠しないタイミングで、かつ、この発話タイミング推定器によりシステム発話の開始タイミングが検出される前に、題材データ記憶手段に記憶された題材データまたはネットワークを介して接続された外部システムに記憶された題材データを用いるとともに、前記発話タイミング推定システムを構成する前記文章生成器で生成された前記補完トークン列を用いるか、または前記補完トークン列に加えてユーザとシステムとの間の対話履歴情報の少なくとも一部を用いて、システムの次発話の内容データを取得または生成する準備処理を実行する次発話準備手段と、
前記発話タイミング推定器によりシステム発話の開始タイミングが検出された後に、前記次発話準備手段による準備処理で得られた次発話の内容データを用いて、システム発話の音声信号の再生を含むシステム発話生成処理を実行する発話生成手段と
を備えたことを特徴とする対話システム。
【請求項4】
ユーザとの音声対話のための処理を実行するコンピュータにより構成された対話システムであって、
ユーザ発話の音声信号を取得する音声信号取得手段と、
この音声信号取得手段により取得したユーザ発話の音声信号についての音声認識処理を実行する音声認識器と、
この音声認識器による音声認識処理で得られたユーザ発話の途中までの部分を構成する認識済トークン列を用いて、ジェネレイティヴ・プリトレインド・トランスフォーマ2、3若しくは4(GPT-2,3若しくは4)、またはその他の言語モデルにより、ユーザ発話についての前記認識済トークン列に続く部分を構成する後続トークン列を推定し、前記認識済トークン列に前記後続トークン列を加えた補完トークン列を生成する文章生成器と、
題材データ記憶手段に記憶された題材データまたはネットワークを介して接続された外部システムに記憶された題材データを用いるとともに、前記文章生成器で生成された前記補完トークン列を用いるか、または前記補完トークン列に加えてユーザとシステムとの間の対話履歴情報の少なくとも一部を用いて、システムの次発話の内容データを取得または生成する準備処理を実行する次発話準備手段と、
この次発話準備手段による準備処理で得られた次発話の内容データを用いて、システム発話の音声信号の再生を含むシステム発話生成処理を実行する発話生成手段と
を備えたことを特徴とする対話システム。
【請求項5】
請求項1または2に記載の発話タイミング推定システムとして、コンピュータを機能させるためのプログラム。
【請求項6】
請求項4に記載の対話システムとして、コンピュータを機能させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、ユーザ発話からシステム発話への交代のタイミングを推定する処理を実行するコンピュータにより構成された発話タイミング推定システム、ユーザとの音声対話のための処理を実行するコンピュータにより構成された対話システム、並びにプログラムに係り、例えば、ニュースやコラムや歴史等の各種の話題を記載した記事データから生成したシナリオデータを用いてユーザに対して記事の内容を伝達するニュース対話システム、ユーザに対して機器の使用方法の説明や施設の案内等を行うガイダンス対話システム、選挙情勢や消費者志向等の各種のユーザの動向調査を行うアンケート対話システム、ユーザが店舗・商品・旅行先・聞きたい曲等の情報検索を行うための情報検索対話システム、ユーザが家電機器や車等の各種の機器や装置等を操作するための操作対話システム、子供や学生や新入社員等であるユーザに対して教育を行うための教育対話システム、システムがユーザ属性等の情報を特定するための情報特定対話システム等に利用できる。
続きを表示(約 2,400 文字)【背景技術】
【0002】
一般に、音声対話システムは、人であるユーザと、コンピュータシステムである自身との間で、互いに主に音声チャネルを通じた言語情報のやりとりを行うことにより、所望のタスクを実行し、その目的(例えば、ユーザへのニュース等の記事の内容の伝達、ユーザに対するガイダンス、ユーザへのアンケート、ユーザによる情報検索、ユーザによる機器等の操作、ユーザの教育、システムによる情報特定等)を達成するものである。
【0003】
従来の音声対話システムでは、音声信号取得、発話区間検出、音声認識、発話内容生成、音声合成、音声信号再生という一連の処理を、シーケンシャルに行うため、それぞれの処理における遅延が蓄積するという問題があった。すなわち、先ず、ユーザ発話の音声信号を取得し(音声信号取得)、連続的に得られる音声信号から、ユーザの発話が途切れたことを手がかりとして発話単位の音声信号を切り出す発話区間検出を行い(発話区間検出)、次に、得られた発話区間の音声信号を言語情報に変換する音声認識処理を行うことにより、検出したユーザ発話の意味を推定し(音声認識)、続いて、推定した意味に応じて次発話を決定し、すなわち得られたユーザの言語情報に適したシステム発話の内容を生成し(発話内容生成)、さらに、その発話内容を音声信号に変換する音声合成処理を行い(音声合成)、その後、システム発話の内容をユーザに伝達するため、生成したシステム発話の音声信号を再生する処理を行う(音声信号再生)。従って、それぞれの処理における遅延が蓄積することで、ユーザが発話を完了してから、システムが応答するまでに長い遅延が生じることになる。
【0004】
そこで、本願出願人は、システムの応答性を向上させることができ、この際、衝突(生成して再生を開始したシステム発話と、継続されたユーザ発話とのオーバーラップ)の発生を回避または抑制しつつ、不要に長いシステムの交替潜時(ユーザの発話終了からシステムの発話開始までの間(ま))の発生を回避または抑制することができる対話システムを提案している(特許文献1参照)。
【0005】
より詳細には、この特許文献1に記載された対話システムでは、ユーザ発話の音声信号から抽出した音響特徴量や、音声認識処理の結果として得られたユーザ発話の言語情報から抽出した言語特徴量を用いて、音声認識器(ASR)による音声認識処理の実行タイミングに依拠しない周期で、ユーザが発話する地位または立場を有していることを示すユーザ発話権の維持または終了を識別するパターン認識処理を繰り返し実行し、このパターン認識処理の結果を用いて、システム発話の開始タイミングを検出している。また、このシステム発話タイミング検出のためのパターン認識処理の周期に依拠しないタイミングで、かつ、このシステム発話タイミング検出でシステム発話の開始タイミングが検出される前に、予め用意された題材データやネットワークを介して取得した題材データを用いるとともに、ユーザとシステムとの間の対話履歴情報の少なくとも一部および/または音声認識器による進行中のユーザ発話についての途中までの音声認識処理の結果を用いて、システムの次発話の内容データを取得または生成する準備処理を行っている。そして、これらにより、システムの応答性を向上させている。
【0006】
また、本願発明者らによる発話タイミング推定に関する文献が知られている(非特許文献1参照)。なお、この非特許文献1には、後述する本願発明に係る文章生成器(認識済トークン列から後続トークン列を推定し、補完トークン列を生成する技術)や構文完了性推定器(あと何個のトークン若しくはどれくらいの時間長で発話が完了するのかを示す確率分布または累積確率分布を求める技術)に関する記載はない。
【0007】
発話タイミング推定という観点では、2つのアプローチがある。1つは、発話末(EoU:End of Utterance)の検出に同期したタイミング推定法(ES-TD)であり、もう1つは、分析フレームに同期したタイミング推定法(FS-TD)である。
【0008】
前者のES-TDは、上述した一連の処理をシーケンシャルに行う従来の音声対話システムにおいて、ユーザ発話からシステム発話への交代のタイミングを推定する場合の手法であり、先ず、ユーザ発話の終端を検知し、次に、ユーザがターン(発話権)を保持しているか、離したかを判断し、そして、ターンを離したと判断した場合に、一定時間を置いてシステム発話を開始する。ターンテイキング識別手法として、Jiudong Yang(ヤン・ジウドン)らによる、韻律情報、時間情報、言語情報を組み合わせるGated Multimodal Fusion(ゲート型マルチモーダル融合:以下「GMF」と略記する。)モデルが知られているが(非特許文献2参照)、これもES-TDである。
【0009】
後者のFS-TDは、分析フレーム毎に、システム発話を開始すべきか否かを判断する手法である。上述した特許文献1に記載された本願出願人による対話システムにおけるシステム発話タイミング検出や、本願発明者らによる非特許文献1に記載された手法は、FS-TDである。
【0010】
さらに、本発明について、効果を確認するための実験を行っているが、実験に使用できるデータとしては、ハーパー・バレー・バンク・コーパス(HARPER VALLEY BANK corpus)が知られている(非特許文献3参照)。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

学校法人早稲田大学
蛍光分析装置
1か月前
学校法人早稲田大学
周波数フィルタ
2か月前
学校法人早稲田大学
上腕動作補助装置
3か月前
学校法人早稲田大学
プラスチックの分解方法
7か月前
学校法人早稲田大学
熱界面接合部材及びその製造方法
5日前
学校法人早稲田大学
リーク検査方法及びリーク検査装置
8か月前
株式会社島津製作所
合成システム
6か月前
学校法人早稲田大学
多重衝突パルス噴流圧縮方式のエンジン
3か月前
オルト株式会社
オートファジー活性化剤
2か月前
学校法人早稲田大学
超音波画像の探索装置及びそのプログラム
6か月前
学校法人早稲田大学
超音波検査ロボットの身体負荷低減システム
8か月前
学校法人早稲田大学
気象観測装置、気象観測方法及びプログラム
13日前
学校法人早稲田大学
歩行補助装置、制御装置、及び制御プログラム
8か月前
学校法人早稲田大学
情報処理装置、情報処理方法、及びプログラム
6か月前
学校法人早稲田大学
金属又は合金薄膜付与アニオン交換膜の製造方法
5か月前
学校法人早稲田大学
カーボンナノチューブの製造装置および製造方法
4日前
学校法人早稲田大学
量子計算方法、量子計算システム、及びプログラム
2か月前
学校法人早稲田大学
マップ更新装置、マップ更新方法、およびプログラム
3か月前
NTT株式会社
検索装置、検索方法及びプログラム
4日前
学校法人早稲田大学
マップ更新装置、マップ更新方法、およびプログラム
3か月前
ENEOS株式会社
メタノールの製造方法及び製造装置
3か月前
本田技研工業株式会社
環境表示装置及び環境表示システム
5か月前
積水化学工業株式会社
合成部材及び合成セグメントの施工方法
2か月前
積水化学工業株式会社
合成部材及び合成セグメントの施工方法
2か月前
国立大学法人 鹿児島大学
評価方法、評価装置及びプログラム
2か月前
NTT株式会社
配送計画装置、配送計画方法、及びプログラム
1か月前
公立大学法人横浜市立大学
データ収集システムおよびプログラム
17日前
学校法人早稲田大学
発話タイミング推定システムおよび対話システム、並びにプログラム
8か月前
学校法人早稲田大学
情報処理方法、情報処理装置、プログラム及び言語能力診断システム
4か月前
積水化学工業株式会社
被切削部材、被切削群、及び立坑壁の施工方法
2か月前
国立大学法人 熊本大学
パルス電流発生装置及びパルス電流発生方法
1か月前
学校法人早稲田大学
表面増強ラマン散乱分光装置及び表面増強ラマン散乱測定用分光電解セル
8か月前
学校法人早稲田大学
空調機の性能測定方法、空調機の性能測定装置、及び、条件発生器の制御方法
7か月前
国立大学法人山口大学
陽イオン交換膜、イオン交換膜セル及び電気透析装置
8か月前
キリンホールディングス株式会社
酵素活性の評価方法、及び酵素活性評価用キット
6か月前
国立大学法人東京科学大学
アニーリング処理装置、アニーリング処理方法及びプログラム
1か月前
続きを見る