TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024076801
公報種別公開特許公報(A)
公開日2024-06-06
出願番号2022188571
出願日2022-11-25
発明の名称情報処理プログラム、情報処理方法及び情報処理装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 20/00 20190101AFI20240530BHJP(計算;計数)
要約【課題】学習効率を向上させる情報処理プログラム、情報処理方法及び情報処理装置を提供する。
【解決手段】所定環境におけるエージェントによる所定環境の観測データ及び行動を示す行動データ、並びに、行動に対する報酬を示す報酬データを含む学習データに基づいて第1学習を行った場合の第1ロスと第1学習とは異なるアルゴリズムに基づく第2学習を行った場合の第2ロスとの少なくとも一方に重みを与えて組み合わせた結合ロスに基づいて機械学習モデル110のパラメータを更新し、第2ロスの重みを減衰させて、パラメータの更新を繰り返させて機械学習モデル110の学習を行う処理をコンピュータに実行させる。
【選択図】図1
特許請求の範囲【請求項1】
所定環境におけるエージェントによる前記所定環境の観測データ及び行動を示す行動データ、並びに、前記行動に対する報酬を示す報酬データを含む学習データに基づいて第1学習を行った場合の第1ロスと前記第1学習とは異なるアルゴリズムに基づく第2学習を行った場合の第2ロスとの少なくとも一方に重みを与えて前記第1ロスと組み合わせた結合ロスに基づいて機械学習モデルのパラメータを更新し、
前記第2ロスの重みを減衰させて、前記パラメータの更新を繰り返させて前記機械学習モデルの学習を行う
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
続きを表示(約 1,100 文字)【請求項2】
前記所定環境を構築してエージェントに観測及び行動を行わせることで得られる前記観測データ及び前記行動データ、並びに、前記行動データから算出される前記報酬データを基に学習データを生成することを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
前記第1学習は、前記機械学習モデルに前記行動データを入力した場合の出力に対して与えられる報酬の時間累積和が最大となるように前記行動データにより示される行動を選択する学習であり、
前記第2学習は、所定の行動系列を模倣するように前記行動データで示される行動を選択する学習である
ことを特徴とする請求項1に記載の情報処理プログラム。
【請求項4】
所定の行動系列における行動を示す所定行動データを前記機械学習モデルに入力した場合に得られる第1出力と前記行動データを前記機械学習モデルに入力した場合に得られる第2出力との誤差を基に前記第2ロスを算出することを特徴とする請求項3に記載の情報処理プログラム。
【請求項5】
最適行動の行動価値と前記行動データを入力した場合の行動価値との誤差を基に前記第1ロスを算出することを特徴とする請求項1に記載の情報処理プログラム。
【請求項6】
情報処理装置が、
所定環境におけるエージェントによる前記所定環境の観測データ及び行動を示す行動データ、並びに、前記行動に対する報酬を示す報酬データを含む学習データに基づいて、第1学習を行った場合の第1ロスと前記第1学習とは異なるアルゴリズムに基づく第2学習を行った場合の第2ロスとの少なくとも一方に重みを与えて前記第1ロスと組み合わせた結合ロスに基づいて機械学習モデルのパラメータを更新し、
前記第2ロスの重みを減衰させて、前記パラメータの更新を繰り返させて前記機械学習モデルの学習を行う
処理を実行することを特徴とする情報処理方法。
【請求項7】
機械学習モデルと、
所定環境におけるエージェントによる前記所定環境の観測データ及び行動を示す行動データ、並びに、前記行動に対する報酬を示す報酬データを含む学習データに基づいて、第1学習を行った場合の第1ロスと前記第1学習とは異なるアルゴリズムに基づく第2学習を行った場合の第2ロスとの少なくとも一方に重みを与えて組み合わせた結合ロスに基づいて前記機械学習モデルのパラメータを更新し、且つ、前記第2ロスの前記重みを減衰させて、前記パラメータの更新を繰り返して前記機械学習モデルの学習を行う学習部と
を備えたことを特徴とする情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理プログラム、情報処理方法及び情報処理装置に関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
近年、電子ゲームにおけるAI(Artificial Intelligence:人工知能)、車両の自動運転制御、ロボットの自立制御といった様々な分野で、強化学習と呼ばれる機械学習の導入が盛んである。強化学習では、与えられた環境の中においてエージェントと呼ばれる動作主体による行動に対して与えられる報酬を最大化するように学習が行われる。
【0003】
一方、人間などのいわゆるエキスパート(専門家)の行動系列が与えられ、その行動系列を模倣するように学習を行う模倣学習と呼ばれる機械学習が存在する。模倣学習においては、エキスパートが行った行動を最適な行動であると仮定して、エージェントの行動がエキスパートの振る舞いに近づくように学習が行われる。
【0004】
さらに、より学習を効率化するために、模倣学習と強化学習とを融合させた機械学習が研究されている。例えば、模倣学習と強化学習とを用いる学習方法として、模倣学習によって得られた重みを初期値にして強化学習を実行すると、多くの場合効率的に学習が行えることが知られている。
【0005】
ただし、模倣学習を行うにあたり、エキスパートの行動が必ずしも最適でない場合が存在する。そのような場合に模倣学習によって得られた重みを初期値にして強化学習を実行すると、強化学習の最適解と模倣学習の最適解とが大きく異なる関係が強化学習と機械学習との間に発生する。そのような関係性の下、模倣学習によって得られた重みを初期値にして強化学習を実行すると、強化学習を開始した直後に模倣学習済みの方策が崩壊して、模倣学習及び強化学習の双方を使用することによる効率化の効果が消滅するおそれがある。一方、強化学習の最適解と模倣学習の最適解とが大きく異なる場合でもエキスパートの行動系列は何らかの有益な情報を含んでいることが多く、これを参考に学習することで、学習が効率化する余地は残っている。
【0006】
そこで、エキスパートの行動が必ずしも最適でない場合にも効率化の効果を維持するために、模倣学習と強化学習とを並行して実施し、それぞれのロスを一定の係数で足し合わせた値を方策更新のための目的関数とする従来技術が提案されている。
【0007】
他にも、自由エネルギー最小化によりエキスパートを通じて世界モデルを獲得し、獲得した世界モデルをベースにした自由エネルギーの最小化により探索及び報酬最大化の合目的行動を獲得させる従来技術が提案されている。また、熟練したオペレータの操作を学習して工程毎の模倣モデルを構築し、模倣モデルの学習が完了すると、強化学習により模倣モデルの追加学習を行わせる技術が提案されている。
【先行技術文献】
【特許文献】
【0008】
特開2020-191022号公報
特開2021-192141号公報
特開2018-206286号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、模倣学習と強化学習とを並行して実施してそれぞれのロスを用いて目的関数を算出する従来技術では、最終的な性能が純粋な強化学習に対して劣る可能性がある。これは、一定の重みづけ係数を使っている関係で最適でないかもしれないエキスパート系列による模倣学習の影響を、強化学習において最後まで受け続けるためと考えられる。また、他の技術を用いても、エキスパートの行動が必ずしも最適でない場合の強化学習の最適解と模倣学習の最適解とが大きく異なることによる学習効率の低下を軽減することは困難である。
【0010】
開示の技術は、上記に鑑みてなされたものであって、学習効率を向上させる情報処理プログラム、情報処理方法及び情報処理装置を提供することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
光通信装置および伝送制御方法
6日前
富士通株式会社
類似度判定方法および類似度判定プログラム
6日前
富士通株式会社
取引処理プログラム、取引処理方法および情報処理装置
5日前
富士通株式会社
機械学習プログラム、機械学習方法、及び、情報処理装置
5日前
富士通株式会社
広告管理プログラム、広告管理方法、および情報処理装置
6日前
富士通株式会社
モデル生成方法、画像分類方法及び補助分類モデル訓練装置
4日前
富士通株式会社
ニューロモルフィックコンピューティング回路、及び、制御方法
5日前
富士通株式会社
対訳コーパス生成プログラム、対訳コーパス生成方法および情報処理装置
5日前
富士通株式会社
テンソルネットワーク縮約制御プログラム,テンソルネットワーク縮約制御方法及び情報処理装置
6日前
個人
情報検索装置
5日前
個人
ノートPC寝台
7日前
個人
ドットパターン
4日前
個人
環境情報処理装置
25日前
個人
求人支援システム
1か月前
個人
外食予約システム
25日前
個人
電子文書の閲覧用電子機器
11日前
個人
サービス提供システム
18日前
個人
海外在住支援システム
25日前
ニデック株式会社
冷却装置
19日前
キヤノン電子株式会社
携帯情報端末
6日前
個人
施術スタッフ育成システム
12日前
シャープ株式会社
情報出力装置
1か月前
株式会社ワコム
電子ペン
28日前
東洋電装株式会社
操作装置
28日前
東洋電装株式会社
操作装置
28日前
東洋電装株式会社
操作装置
28日前
大和製衡株式会社
組合せ計数装置
7日前
株式会社ゼロワン
ケア支援システム
6日前
ブラザー工業株式会社
印刷制御装置
7日前
学校法人修道学園
農地集約システム
18日前
有限会社カツミ工業
管理装置
7日前
株式会社広島銀行
本人確認システム
6日前
株式会社SUBARU
操作制御装置
18日前
株式会社ゼロワン
ケア支援システム
6日前
株式会社SUBARU
画像処理装置
12日前
株式会社カロニマ
情報発信システム
1か月前
続きを見る