特許ウォッチ

公開番号2024070313
公報種別公開特許公報(A)
公開日2024-05-23
出願番号2022180708
出願日2022-11-11
発明の名称対話システム、発話生成方法、およびプログラム
出願人日本電信電話株式会社,トヨタ自動車株式会社
代理人個人,個人,個人
主分類G10L 15/22 20060101AFI20240516BHJP(楽器;音響)
要約【課題】視認可能な対象が時々刻々と入れ替わっていく状況においても、ユーザとの雑談対話を好適に行うための発話を生成する。
【解決手段】対話システム300は、移動体と共に移動しているユーザによる発話であるユーザ発話に対する発話であるシステム発話を生成する対話システムであって、ユーザ発話を取得するユーザ発話取得部310と、移動体から撮影した画像である周囲画像を取得する周囲画像取得部320と、ユーザと対話システムによる対話の直前の文脈に基づく発話である文脈発話候補を生成する文脈発話候補生成部340と、ユーザと対話システムによる対話の直前の文脈に基づかずに周囲画像の内容に基づく発話である印象発話候補を生成する印象発話候補生成部350と、予め定めた規則に従って、文脈発話候補と印象発話候補の何れかをシステム発話として選択するシステム発話決定部360と、を有する。
【選択図】図1
特許請求の範囲【請求項１】
移動体と共に移動しているユーザによる発話であるユーザ発話に対する発話であるシステム発話を生成する対話システムであって、
前記ユーザ発話を取得するユーザ発話取得部と、
前記移動体から撮影した画像である周囲画像を取得する周囲画像取得部と、
前記ユーザと前記対話システムによる対話の直前の文脈に基づく発話である文脈発話候補を生成する文脈発話候補生成部と、
前記ユーザと前記対話システムによる対話の直前の文脈に基づかずに前記周囲画像の内容に基づく発話である印象発話候補を生成する印象発話候補生成部と、
予め定めた規則に従って、前記文脈発話候補と前記印象発話候補の何れかを前記システム発話として選択するシステム発話決定部と、
を有する対話システム。
続きを表示（約 2,700 文字）【請求項２】
請求項１に記載の対話システムであって、
前記印象発話候補生成部は、所定の時間間隔の各前記周囲画像に基づいて前記印象発話候補を生成し、
前記文脈発話候補生成部は、前記ユーザ発話取得部で前記ユーザ発話が取得されたのを契機に前記文脈発話候補を生成する、
対話システム。
【請求項３】
請求項１に記載の対話システムであって、
前記システム発話決定部は、
前記対話システムが１つ前のシステム発話を出力してから所定時間T1以内に前記ユーザ発話が行われた場合には、前記文脈発話候補を前記システム発話として選択し、
前記の場合以外である場合には、前記印象発話候補を前記システム発話として選択する、
対話システム。
【請求項４】
請求項１に記載の対話システムであって、
前記印象発話候補生成部は、前記印象発話候補の話題としての強さを表す指標値である話題強度の推定も行い、
前記システム発話決定部は、前記話題強度が所定の閾値より大きいか以上である場合には前記印象発話候補をシステム発話として選択し、前記の場合以外である場合には前記文脈発話候補をシステム発話として選択する、
対話システム。
【請求項５】
請求項１に記載の対話システムであって、
前記文脈発話候補生成部は、前記文脈発話候補の対話の継続性の指標値である話題継続度の推定も行い、
前記印象発話候補生成部は、前記印象発話候補の話題としての強さを表す指標値である話題強度の推定も行い、
前記システム発話決定部は、前記話題継続度が大きいほど前記文脈発話候補が前記システム発話として選択される優先度が高く、かつ、前記話題強度が大きいほど前記印象発話候補が前記システム発話として選択される優先度が高い、という選択基準に従って、前記文脈発話候補と前記印象発話候補の何れかを前記システム発話として選択する、
対話システム。
【請求項６】
請求項１に記載の対話システムであって、
前記文脈発話候補生成部は、前記文脈発話候補の対話の継続性の指標値である話題継続度の推定も行い、
前記印象発話候補生成部は、前記印象発話候補の話題としての強さを表す指標値である話題強度の推定も行い、
前記システム発話決定部は、
前記話題継続度が小さいほど値が大きくかつ前記話題強度が大きいほど値が大きい第１指標値が所定の第１閾値より大きい場合には、前記印象発話候補を前記システム発話として選択し、前記第１指標値が前記第１閾値より小さい場合には、前記文脈発話候補を前記システム発話として選択する、
または、
前記話題継続度が大きいほど値が大きくかつ前記話題強度が小さいほど値が大きい第２指標値が所定の第２閾値より大きい場合には、前記文脈発話候補を前記システム発話として選択し、前記第２指標値が前記第２閾値より小さい場合には、前記印象発話候補を前記システム発話として選択する、
対話システム。
【請求項７】
請求項１に記載の対話システムであって、
前記文脈発話候補生成部は、前記文脈発話候補の対話の継続性の指標値である話題継続度の推定も行い、
前記印象発話候補生成部は、前記印象発話候補の話題としての強さを表す指標値である話題強度の推定も行い、
前記システム発話決定部は、
前記話題継続度が小さいほど値が大きくかつ前記話題強度が大きいほど値が大きい第１指標値が大きいほど前記印象発話候補が前記システム発話として選択される確率が高く、前記第１指標値が小さいほど前記文脈発話候補が前記システム発話として選択される確率が高い、重み付きランダムサンプリングによって、前記文脈発話候補と前記印象発話候補の何れかを前記システム発話として選択する、
または、
前記話題継続度が大きいほど値が大きくかつ前記話題強度が小さいほど値が大きい第２指標値が大きいほど前記文脈発話候補が前記システム発話として選択される確率が高く、前記第２指標値が小さいほど前記印象発話候補が前記システム発話として選択される確率が高い、重み付きランダムサンプリングによって、前記文脈発話候補と前記印象発話候補の何れかを前記システム発話として選択する、
対話システム。
【請求項８】
請求項１、４、５、６、７のいずれかに記載の対話システムであって、
前記印象発話候補生成部は、話題強度推定部をさらに有し、
前記話題強度推定部には、複数個の候補連続画像と、前記候補連続画像それぞれに対応する複数個の発話テキストと、が予め記憶されており、
前記話題強度推定部は、
予め記憶された複数個の前記候補連続画像のうちの、前記周囲画像を含む連続画像である周囲連続画像と類似する候補連続画像を特定し、
特定した前記候補連続画像に対応して予め記憶された複数個の前記発話テキストのうちの、前記印象発話候補との類似度が所定の閾値より大きいか以上である発話テキストの個数、
または、
特定した前記候補連続画像に対応して予め記憶された複数個の前記発話テキストのうちの、前記印象発話候補との類似度が所定の閾値より大きいか以上である発話テキストの頻度に前記類似度が大きいほど大きな重み値を与えて加算した重み付け和、
を前記印象発話候補の話題強度として取得する、
対話システム。
【請求項９】
請求項１に記載の対話システムであって、
前記システム発話決定部は、
前記印象発話候補を選択した場合であって、前記印象発話候補が基づく前記周囲画像が取得された時刻と現在の時刻との差分が所定の閾値より大きいか以上である場合には、時間が経過したことを表す修飾表現を前記印象発話候補に付したものを前記システム発話とする、
対話システム。
【請求項１０】
請求項１に記載の対話システムであって、
前記文脈発話候補生成部は、前記ユーザ発話と前記周囲画像に基づいて、または、前記周囲画像には基づかずに前記ユーザ発話に基づいて、前記文脈発話候補を生成し、
前記印象発話候補生成部は、前記ユーザ発話には基づかずに前記周囲画像に基づいて、前記印象発話候補を生成する、
対話システム。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、例えば自動車などで移動している人と対話する対話システムによる発話を生成する技術に関する。
続きを表示（約 1,900 文字）【背景技術】
【０００２】
特許文献１には、高齢者と好適なコミュニケーションをする雑談対話システムが記載されている。特許文献１の雑談対話システムは、高齢者であるユーザの周囲をカメラで撮影して得た画像に対して物体検知を行うことで、ユーザの周囲にある物体が何であるのかを特定して、特定した物体の情報に基づいて発話をする。
【先行技術文献】
【特許文献】
【０００３】
特開２００８－１５８６９７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
特許文献１の対話システムでは、例えばユーザとロボットが同じ自動車に乗って移動しながら雑談対話をすることを想定したものではない。例えば、複数の人が同じ自動車に乗って移動しながら雑談対話をする場合であれば、当該複数の人が共に視認可能な物や人など（以下、「対象」という。）が時々刻々と入れ替わっていき、時々刻々と入れ替わっていく視認可能な対象に応じた発話を当該複数の人が行うことで、雑談対話が進んでいく。しかしながら、特許文献１の対話システムでは、このように視認可能な対象が時々刻々と入れ替わっていく状況でロボットが雑談対話における発話をすることは想定されていない。
【０００５】
本発明は、例えばユーザが自動車などで移動していることなどにより、視認可能な対象が時々刻々と入れ替わっていく状況においても、ユーザとの雑談対話を好適に行うための発話を生成する技術を提供することを目的とする。
【課題を解決するための手段】
【０００６】
この発明の一態様による対話システムは、移動体と共に移動しているユーザによる発話であるユーザ発話に対する発話であるシステム発話を生成する対話システムであって、ユーザ発話を取得するユーザ発話取得部と、移動体から撮影した画像である周囲画像を取得する周囲画像取得部と、ユーザと対話システムによる対話の直前の文脈に基づく発話である文脈発話候補を生成する文脈発話候補生成部と、ユーザと対話システムによる対話の直前の文脈に基づかずに周囲画像の内容に基づく発話である印象発話候補を生成する印象発話候補生成部と、予め定めた規則に従って、文脈発話候補と印象発話候補の何れかをシステム発話として選択するシステム発話決定部と、を有する。
【発明の効果】
【０００７】
本発明によれば、視認可能な対象が時々刻々と入れ替わっていく状況においても、ユーザとの雑談対話を好適に行うための発話を生成することができる。
【図面の簡単な説明】
【０００８】
図１は、対話システムの機能構成を例示したブロック図である。
図２は、対話システムが周囲画像を取得する処理を示す流れ図である。
図３は、対話システムが行う発話生成方法の処理を示す流れ図である。
図４は、印象発話候補生成部の機能構成を例示したブロック図である。
図５は、印象発話候補生成部が行う処理を示す流れ図である。
図６は、文脈発話候補生成部の機能構成を例示したブロック図である。
図７は、文脈発話候補生成部が行う処理を示す流れ図である。
図８は、対話システム及び発話生成装置を実現するコンピュータの機能構成の一例を示す図である。
【発明を実施するための形態】
【０００９】
＜第１実施形態＞
第１実施形態では、対話システムが発話する直前までの対話の文脈に基づく発話候補と、対話システムが発話する直前までの対話の文脈に基づかずに周囲の風景に基づく発話候補と、の２種類の発話候補の何れかを発話することで、例えばユーザが自動車などで移動していることなどにより、視認可能な対象が時々刻々と入れ替わっていく状況において、ユーザとの雑談対話を好適に行う対話システム及び当該対話システムの発話生成方法について説明する。
【００１０】
［対話システム及び対話方法］
第１実施形態の対話システム３００は、例えば図１に示すように、ユーザ発話取得部３１０、周囲画像取得部３２０、周囲画像記憶部３３０、文脈発話候補生成部３４０、印象発話候補生成部３５０、システム発話決定部３６０、システム発話出力部３７０を含む。ただし、後述するように、図１に破線で示したユーザ発話取得部３１０、周囲画像取得部３２０、システム発話出力部３７０が対話システム３００に含まれるのは必須ではない。
（【００１１】以降は省略されています）

関連特許