TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025119640
公報種別
公開特許公報(A)
公開日
2025-08-15
出願番号
2024014519
出願日
2024-02-02
発明の名称
情報処理システム、情報処理方法及びプログラム
出願人
日本電気株式会社
,
国立大学法人北海道大学
代理人
個人
主分類
G06F
3/01 20060101AFI20250807BHJP(計算;計数)
要約
【課題】複数のステップを要するタスクに対して効果的にエージェントの性能を改善するように学習する情報処理システム等を提供する。
【解決手段】本開示に係る情報処理システムは、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力するエージェントと、出力された複数の行動の列に対する最終的フィードバックを取得するフィードバック取得部と、フィードバックを用いてエージェントのモデルのパラメータを更新するパラメータ更新部と、を備える。
【選択図】図2
特許請求の範囲
【請求項1】
ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力するエージェントと、
出力された前記複数の行動の列に対する最終的フィードバックを取得するフィードバック取得部と、
前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新するパラメータ更新部と、
を備える、情報処理システム。
続きを表示(約 1,300 文字)
【請求項2】
前記複数の行動の列は、
前記外部ツールの利用方法を表現するコマンドを出力する第1行動と、
前記第1行動が出力されたことにより前記外部ツールより得られた行動結果に基づく第2行動と、を含む、請求項1に記載の情報処理システム。
【請求項3】
出力された前記複数の行動の列に対する最終的フィードバックと、前記複数の行動の列のうちの一部の行動に対する中間フィードバックを取得し、前記最終的フィードバック及び前記中間フィードバックは数値フィードバックであるフィードバック取得部と、
前記最終的フィードバックと前記中間フィードバックを用いて前記エージェントのモデルのパラメータを更新するパラメータ更新部と、をさらに備える、請求項1又は2に記載の情報処理システム。
【請求項4】
前記中間フィードバックは、評価対象の行動がタスク解決のためにどの程度望ましいかのスコアを出力する評価モデルを用いて生成される、請求項3に記載の情報処理システム。
【請求項5】
タスクの目的であるユーザ入力の第1文字列と、当該第1文字列に対するエージェントモデルの行動である第2文字列と、当該第1文字列及び第2文字列を基にエージェントモデルの行動の望ましさを評価し数値として出力するよう指示する指示文と、を結合した文字列を、事前学習済みの言語モデルに入力し、得られた出力文字列を数値に変換したものを第1行動に対する中間フィードバックとして用いる、請求項1又は2に記載の情報処理システム。
【請求項6】
前記中間フィードバックは、タスク完了後に得られる前記複数の行動の列全体に対する最終的フィードバックを用いて、前記複数の行動の列の中のある時点における状態価値がタスク完了にどの程度望ましいかを推定する木探索方法により生成される、請求項3に記載の情報処理システム。
【請求項7】
前記外部ツールは、エージェントモデルの外部にあり、情報処理装置に予めインストールされているソフトウェアプログラムである、請求項1に記載の情報処理システム。
【請求項8】
前記最終的フィードバック及び前記中間フィードバックは、ユーザインタフェースを介してユーザからテキスト形式で取得され、数値フィードバックに変換されたものである、請求項3に記載の情報処理システム。
【請求項9】
エージェントにより、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力し、
出力された前記複数の行動の列に対する最終的フィードバックを取得し、
前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新する、コンピュータにより実行される情報処理方法。
【請求項10】
エージェントにより、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力する処理と、
出力された前記複数の行動の列に対する最終的フィードバックを取得する処理と、
前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新する処理と、をコンピュータにより実行させる、プログラム。
発明の詳細な説明
【技術分野】
【0001】
本開示は、情報処理システム、情報処理方法及びプログラムに関する。
続きを表示(約 2,100 文字)
【背景技術】
【0002】
近年、言語モデルを用いたツール利用エージェントの学習と応用が広がっている。これらのエージェントは、言語モデルだけでは解決できない複雑なタスクや、外界に何らかの介入を行う必要があるタスクを解決することを目指している。従来の方法では、教師エージェント(たとえば、GPT-4)の行動履歴からの蒸留学習を用いる手法(たとえば、FireAct)や、テキスト形式でのフィードバックを用いてエージェントの挙動を変える手法(たとえば、LATS)が主に用いられている。
【先行技術文献】
【非特許文献】
【0003】
Chen, Baian, et al. "Fireact: Toward language agent fine-tuning." arXiv preprint arXiv:2310.05915 (2023).
Zhou, Andy, et al. "Language agent tree search unifies reasoning acting and planning in language models." arXiv preprint arXiv:2310.04406 (2023).
Petrov, Aleksandar, Philip HS Torr, and Adel Bibi. "When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations." arXiv preprint arXiv:2310.19698 (2023).
Qiao, Shuofei, et al. "Making Language Models Better Tool Learners with Execution Feedback." arXiv preprint arXiv:2305.13068(2023).
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、教師エージェントの行動履歴から蒸留学習する方法は、高性能な教師エージェントのエラーにより、または、教師エージェントの行動履歴が学習対象のエージェントと教師エージェントの性能差(たとえば、知識量)の存在を無視した訓練データになり得ることにより、性能が低下し得る。また、非特許文献2に示すテキスト形式でのフィードバックを用いてエージェントの挙動を変える手法には、非特許文献3において示されているように、テキスト形式でのフィードバックはエージェントモデルのパラメータを更新する手法と比較して言語モデルの挙動を変更する能力に劣るという課題がある。
【0005】
また、上記した非特許文献4に示すTRICEでは、これらの課題を解決するため、教師エージェントの行動履歴から蒸留学習を行った後、学習対象のエージェント自身の行動とそれに対する外界からのフィードバックを用いて学習対象のエージェントのパラメータを更新し性能をさらに改善する方法を取っている。
【0006】
上記した技術TRICEは主に1ステップで完了するタスクを想定し、エージェントの1つの行動のみに対応するフィードバックしか受け付けない。しかし、実際には複数ステップが必要となる複雑なタスクも多く、こうした複雑なタスクを行うエージェントの複数の行動に対して適した学習が望まれている。
【0007】
本開示は、このような問題点を解決するためになされたものであり、複数のステップを要するタスクに対して効果的にエージェントの性能を改善するように学習する情報処理装置等を提供することを目的とする。
【課題を解決するための手段】
【0008】
本開示に係る情報処理システムは、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力するエージェントと、出力された前記複数の行動の列に対する最終的フィードバックを取得するフィードバック取得部と、前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新するパラメータ更新部と、を備える。
【0009】
本開示に係るコンピュータにより実行される情報処理方法は、エージェントにより、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力し、出力された前記複数の行動の列に対する最終的フィードバックを取得し、前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新する。
【0010】
本開示に係るプログラムは、エージェントにより、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力する処理と、出力された前記複数の行動の列に対する最終的フィードバックを取得する処理と、前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新する処理と、をコンピュータにより実行させる。
【発明の効果】
(【0011】以降は省略されています)
特許ウォッチbot のツイートを見る
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
日本電気株式会社
交渉装置、交渉方法及びプログラム
2日前
日本電気株式会社
乗車誘導計画装置および乗車誘導計画方法
8日前
日本電気株式会社
経路選択装置、経路選択方法及びプログラム
15日前
日本電気株式会社
合意判定装置、合意判定方法及びプログラム
2日前
日本電気株式会社
質問処理装置、質問処理方法、及びプログラム
8日前
日本電気株式会社
学習装置、利用装置、学習方法及びプログラム
15日前
日本電気株式会社
情報処理装置、情報処理方法およびプログラム
3日前
日本電気株式会社
情報処理装置、情報処理方法およびプログラム
2日前
日本電気株式会社
文書検索装置、文書検索方法、及び、プログラム
2日前
日本電気株式会社
スケジューリング装置、方法、および、プログラム
2日前
日本電気株式会社
システム、端末装置、情報処理方法、及びプログラム
2日前
日本電気株式会社
旅行支援端末、装置、システム、方法、及び、プログラム
10日前
日本電気株式会社
情報処理装置、情報処理方法、および情報処理プログラム
2日前
日本電気株式会社
テスト前提データ導出装置およびテスト前提データ導出方法
2日前
日本電気株式会社
ハッシュタグ生成装置、ハッシュタグ生成方法、及び、プログラム
2日前
日本電気株式会社
情報処理装置、情報処理方法、プログラム、及び情報処理システム
2日前
日本電気株式会社
データベース生成装置、データ処理装置、制御装置、及びこれらの方法
2日前
日本電気株式会社
光増幅装置および光増幅方法
4日前
日本電気株式会社
スケジュール生成装置、スケジュール生成方法およびスケジュール生成プログラム
2日前
日本電気株式会社
情報処理装置、情報処理方法及び記録媒体
8日前
日本電気株式会社
コンピュータ、特典付与方法、及び、プログラム
15日前
日本電気株式会社
管理システム、制御装置、管理方法及びプログラム
4日前
日本電気株式会社
情報処理装置、端末装置、情報処理方法及び記録媒体
10日前
日本電気株式会社
施設利用制御装置、システム、方法、及び、プログラム
10日前
個人
詐欺保険
1か月前
個人
縁伊達ポイン
1か月前
個人
職業自動販売機
8日前
個人
5掛けポイント
15日前
個人
RFタグシート
26日前
個人
地球保全システム
1か月前
個人
QRコードの彩色
1か月前
個人
ペルソナ認証方式
23日前
個人
自動調理装置
25日前
個人
情報処理装置
18日前
個人
残土処理システム
1か月前
個人
農作物用途分配システム
1か月前
続きを見る
他の特許を見る