TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025128858
公報種別公開特許公報(A)
公開日2025-09-03
出願番号2024025822
出願日2024-02-22
発明の名称情報処理システム、情報処理方法及びプログラム
出願人デジタルヒューマン株式会社
代理人弁理士法人IPX
主分類G10L 15/22 20060101AFI20250827BHJP(楽器;音響)
要約【課題】ユーザの発話に対するAIを用いた応答システムのユーザビリティを向上させる情報処理システム、情報処理方法及びプログラムを提供する。
【解決手段】サーバ及び情報処理装置が電気通信回線(ネットワーク)を介して接続する情報処理システムにおいて、サーバの制御部による情報処理方法は、受付ステップとして撮像装置が撮像した少なくとも1つの画像に関する画像情報を受け付けるステップS001及びユーザの発した音声に対応する音声情報受け付けるステップS002と、入力ステップとして音声情報と画像情報とを人工知能モジュールに入力するステップS003と、出力ステップとして人工知能モジュールからの返答に応じて合成された音声データを出力するステップS004と、を含む。
【選択図】図4
特許請求の範囲【請求項1】
情報処理システムであって、
少なくとも1つのプロセッサを備え、前記プロセッサはプログラムを読み出すことで次の各ステップを実行するように構成され、
受付ステップでは、ユーザの発した音声に対応する音声情報と、撮像装置により撮像された少なくとも1つの画像に関する画像情報とを受け付け、
入力ステップでは、前記音声情報と前記画像情報とを人工知能モジュールに入力し、
出力ステップでは、前記人工知能モジュールからの返答に応じて合成された音声データを出力する、システム。
続きを表示(約 930 文字)【請求項2】
請求項1に記載の情報処理システムにおいて、
さらに、生成ステップでは、前記人工知能モジュールからの前記返答に基づいて、アバターが返答を行うアニメーションを生成し、
前記出力ステップでは、前記音声データと前記アニメーションとを同期させて出力する、システム。
【請求項3】
請求項2に記載の情報処理システムにおいて、
前記アニメーションは、前記アバターの発話に合わせた、前記アバターの口の動き、体の動き、及び顔の表情のうちの少なくとも1つを含む、システム。
【請求項4】
請求項1に記載の情報処理システムにおいて、
前記撮像装置は、連続的に画像を撮像し、
前記受付ステップでは、前記画像情報として、前記ユーザの発話の最後のタイミングに撮像された画像に関する画像情報を受け付ける、システム。
【請求項5】
請求項1に記載の情報処理システムにおいて、
前記画像情報は、前記ユーザ以外のオブジェクトに関する情報を含む、システム。
【請求項6】
請求項1に記載の情報処理システムにおいて、
前記受付ステップでは、前記ユーザの発した音声に、時間に関する情報があった場合に、前記情報に対応するタイミングで撮像された画像に関する画像情報を受け付ける、システム。
【請求項7】
請求項1に記載の情報処理システムにおいて、
前記受付ステップでは、前記ユーザの端末操作に基づき、前記音声情報及び前記画像情報とは異なるユーザ入力情報を受け付け、
前記入力ステップでは、前記音声情報と前記画像情報と前記ユーザ入力情報とを前記人工知能モジュールに入力する、システム。
【請求項8】
情報処理方法であって、
請求項1~請求項7までの何れか一つに記載の情報処理システムにおける各ステップを含む、方法。
【請求項9】
プログラムであって、
少なくとも1つのコンピュータに、請求項1~請求項7までの何れか一つに記載の情報処理システムにおける各ステップを実行させる、プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法及びプログラムに関する。
続きを表示(約 1,900 文字)【背景技術】
【0002】
特許文献1は、ユーザが質問に関するチャットメッセージを送信した際に、ユーザが期待する回答メッセージを効率よく得ることに関する文献である。この特許文献1に示されたマルチクラウドチャットサービス提供装置10は、ユーザ端末20から質問メッセージを受け付けると、AIチャットクラウドサービスシステム30に対して質問メッセージを送信し、質問メッセージに対する回答メッセージをAIチャットクラウドサービスシステム30から受信する。また、マルチクラウドチャットサービス提供装置10は、所定の条件を満たしたと判定した場合には、質問メッセージをオペレータによって操作されるオペレータ端末40Aに対して送信し、質問メッセージに対する回答メッセージをオペレータ端末40Aから受信する。そして、マルチクラウドチャットサービス提供装置10は、AIチャットクラウドサービスシステム30又はオペレータ端末40Aから受信された回答メッセージをユーザ端末20に返信する。
【先行技術文献】
【特許文献】
【0003】
特開2019-128737号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、ユーザの発話に対するAIを用いた応答システムの技術には、未だ改善の余地がある。
【課題を解決するための手段】
【0005】
本発明の一態様によれば、情報処理システムが提供される。この情報処理システムは、少なくとも1つのプロセッサを備え、プロセッサはプログラムを読み出すことで次の各ステップを実行するように構成される。受付ステップでは、ユーザの発した音声に対応する音声情報と、撮像装置により撮像された少なくとも1つの画像に関する画像情報とを受け付ける。入力ステップでは、音声情報と画像情報とを人工知能モジュールに入力する。出力ステップでは、人工知能モジュールからの返答に応じて合成された音声データを出力する。
【0006】
本発明の一つによれば、AIを用いた応答システムの技術として、より有益な情報処理システム等を提供することができる。
【図面の簡単な説明】
【0007】
情報処理システム1を表す構成図である。
サーバ2のハードウェア構成を示すブロック図である。
情報処理装置3のハードウェア構成を示すブロック図である。
情報処理システム1によって実行される処理の概要を示す図である。
情報処理システム1の使用態様の一例を示す図である。
情報処理システム1によって実行される処理の流れの一例を示すアクティビティ図である。
撮像画像と、ユーザの発話の関係の一例を示す図である。
ユーザ入力情報の受付画面8の一例を示す図である。
ユーザYとともにオブジェクト91とオブジェクト92を含む画像9の一例を示す図である。
返答10を複数のセグメントに分割する一例を示す図である。
各セグメントに対応する動画データの生成と出力の関係を説明する図である。
【発明を実施するための形態】
【0008】
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
【0009】
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体(Non-Transitory Computer-Readable Medium)として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
【0010】
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許