特許ウォッチ

公開番号2025080932
公報種別公開特許公報(A)
公開日2025-05-27
出願番号2023194324
出願日2023-11-15
発明の名称情報処理装置及びそれを用いた機器システム
出願人株式会社ダイヘン
代理人個人,個人,個人,個人,個人
主分類G10L 15/10 20060101AFI20250520BHJP(楽器;音響)
要約【課題】ユーザが発話した音声が認識し難い騒音環境下であっても、大規模言語モデルを用いて、当該ユーザが発話した音声に基づいて所定機器に対する適切なコマンドを生成する情報処理装置及びそれを用いた機器システムを提供することである。
【解決手段】情報処理装置100は、ユーザの音声に基づいて生成された入力データに、所定機器10を制御可能な複数のコマンドで構成されるコマンドデータ50を合わせてプロンプトを生成するプロンプト生成手段130と、プロンプトを大規模言語モデル40に送信するプロンプト送信手段140と、大規模言語モデル40からの回答を受信する回答受信手段150と、回答に基づいて、所定機器10を制御するコマンドを生成するコマンド生成手段160と、を備える。
【選択図】図3
特許請求の範囲【請求項１】
所定機器を制御するコマンドを処理する情報処理装置であって、
ユーザの音声に基づいて生成された入力データに、前記所定機器を制御可能な複数のコマンドで構成されるコマンドデータを合わせてプロンプトを生成するプロンプト生成手段と、
前記プロンプトを大規模言語モデルに送信するプロンプト送信手段と、
前記大規模言語モデルからの回答を受信する回答受信手段と、
前記回答に基づいて、前記所定機器を制御するコマンドを生成するコマンド生成手段と、を備える、
情報処理装置。
続きを表示（約 630 文字）【請求項２】
前記コマンドデータは、前記所定機器に応じて予め設定されている、
請求項１に記載の情報処理装置。
【請求項３】
前記プロンプトは、前記所定機器を制御可能な複数のコマンドのうち前記入力データに対応する１つのコマンドを選択させる内容を含む、
請求項１に記載の情報処理装置。
【請求項４】
前記回答に基づいて生成されるコマンドについて、程度を示す詳細情報が必要か否かを判定する判定手段を、さらに備え、
前記詳細情報が必要であると判定された場合、
前記プロンプト生成手段は、前記入力データから詳細情報が得られる内容を含む第２プロンプトを生成し、
前記プロンプト送信手段は、前記第２プロンプトを前記大規模言語モデルに送信し、
前記回答受信手段は、前記大規模言語モデルからの第２回答を受信し、
前記コマンド生成手段は、前記回答及び前記第２回答に基づいて、前記所定機器を制御する、前記詳細情報を含むコマンドを生成する、
請求項１に記載の情報処理装置。
【請求項５】
前記詳細情報は、数値情報を含む、
請求項４に記載の情報処理装置。
【請求項６】
請求項１から５のいずれか一項に記載の情報処理装置と、
前記情報処理装置によって生成されたコマンドを受け付けて動作する所定機器と、を備える、
機器システム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、情報処理装置及びそれを用いた機器システムに関する。
続きを表示（約 1,400 文字）【背景技術】
【０００２】
一般的に、ユーザが機器に対するコマンドを音声で入力して、当該機器を動作させるシステムが普及しており、このようなシステムでは、ユーザが発話した音声を適切に認識することが重要となる。
【０００３】
また、製造装置や機械などの機器が稼働する工場においても、ユーザが発話した音声を認識することによって機器の動作を制御するシステムが知られている。工場では、製造設備の機器においてモータ音や機械音などが発生しており、さらには、部材や機材が衝突する衝突音など突発的に発生する騒音もあるため、このような騒音環境下で、ユーザが発話した音声を適切に認識することは困難な場合がある。
【先行技術文献】
【特許文献】
【０００４】
特許第７３１３７５７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
ところで、近年では、質問（プロンプト）を入力して、それに対する回答を得るという、大規模言語モデルを活用したＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）技術が急速に発展している。例えば、特許文献１では、適切な回答文を得られやすくするために、文字数制限の範囲内で、入力された質問文に対して有効な文章を参考情報として加えたプロンプトを生成するという技術が開示されている。
【０００６】
上述したような騒音環境下においても、ユーザが発話した音声に基づいて適切に機器を動作させるという目的で、このような大規模言語モデルを用いることが考えられる。
【０００７】
そこで、本発明は、ユーザが発話した音声が認識し難い騒音環境下であっても、大規模言語モデルを用いて、当該ユーザが発話した音声に基づいて所定機器に対する適切なコマンドを生成する情報処理装置及びそれを用いた機器システムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
本発明の一態様に係る情報処理装置は、所定機器を制御するコマンドを処理する情報処理装置であって、ユーザの音声に基づいて生成された入力データに、所定機器を制御可能な複数のコマンドで構成されるコマンドデータを合わせてプロンプトを生成するプロンプト生成手段と、プロンプトを大規模言語モデルに送信するプロンプト送信手段と、大規模言語モデルからの回答を受信する回答受信手段と、回答に基づいて、所定機器を制御するコマンドを生成するコマンド生成手段と、を備える。
【０００９】
この態様によれば、プロンプト生成手段は、ユーザの音声に基づいて生成された入力データに、所定機器を制御可能な複数のコマンドで構成されるコマンドデータを合わせてプロンプトを生成する。プロンプト送信手段は、プロンプトを大規模言語モデルに送信し、回答受信手段は、大規模言語モデルから回答を受信する。そして、コマンド生成手段は、回答に基づいて、所定機器を制御するコマンドを生成する。これにより、ユーザが発話した音声が認識し難い騒音環境下であっても、大規模言語モデルを用いて、当該ユーザが発話した音声に基づいて所定機器に対する適切なコマンドを生成することができる。その結果、所定機器は、適切なコマンドに従って適切に動作することができる。
【００１０】
上記態様において、コマンドデータは、所定機器に応じて予め設定されていてもよい。
（【００１１】以降は省略されています）

関連特許