特許ウォッチ

公開番号2024162914
公報種別公開特許公報(A)
公開日2024-11-21
出願番号2023078900
出願日2023-05-11
発明の名称機械学習プログラム、機械学習装置及び機械学習システム
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 20/00 20190101AFI20241114BHJP(計算;計数)
要約【課題】機械学習の学習効率を向上させる機械学習プログラム、機械学習装置及び機械学習システムを提供する。
【解決手段】疎な報酬関数が与えられた所定環境において所定数のエピソードの間のエキスパートの行動を取得し、エピソード毎に、所定環境内で行動に基づき発生した事象の種類及び種類毎の事象の量、並びに、疎な報酬関数に基づきエキスパートが最終的に獲得した収益の情報を収集し、種類毎に事象の量と収益との相関係数を計算し、相関係数に対して正規化及びクリッピングを施して種類毎の事象の発生時の報酬を規定する密な報酬関数を生成する処理をコンピュータに実行させる。
【選択図】図1
特許請求の範囲【請求項１】
疎な報酬関数が与えられた所定環境において所定数のエピソードにおけるエキスパートの行動を取得し、
前記エピソード毎に、前記所定環境内で前記行動に基づき発生した事象の種類及び種類毎の事象の量、並びに、前記疎な報酬関数に基づき前記エキスパートが最終的に獲得した収益の情報を収集し、
種類毎に前記事象の量と前記収益との相関係数を計算し、
前記相関係数に対して正規化及びクリッピングを施して種類毎の前記事象の発生時の報酬を規定する密な報酬関数を生成する
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
続きを表示（約 1,200 文字）【請求項２】
種類毎に事象が発生した場合の前記事象の量にしたがった報酬を算出する前記密な報酬関数を生成し、
特定の事象が発生した場合に前記特定の事象の種類及び前記特定の事象の量に応じて付与する報酬を算出する前記密な報酬関数を生成する
処理を前記コンピュータに実行させることを特徴とする請求項１に記載の機械学習プログラム。
【請求項３】
前記密な報酬関数が設定された学習用環境の状態に応じた行動を機械学習モデルに決定させ、
前記学習用環境において前記決定された行動に基づき発生した事象の種類及び前記事象の量に応じて前記密な報酬関数を基に報酬を算出して、
前記決定された行動及び前記決定された行動に対する報酬を基に前記機械学習モデルに学習を行わせる
処理を前記コンピュータにさらに実行させることを特徴とする請求項１に記載の機械学習プログラム。
【請求項４】
前記疎な報酬関数が与えられた前記所定環境の状態と行動との関係を示す予め登録されたルールに基づいて、前記所定数のエピソードの間の前記所定環境における前記エキスパートの行動を取得する処理を前記コンピュータに実行させることを特徴とする請求項１に記載の機械学習プログラム。
【請求項５】
疎な報酬関数が与えられた所定環境において所定数のエピソードの間のエキスパートの行動を取得し、前記エピソード毎に、前記所定環境内で前記行動に基づき発生した事象の種類及び種類毎の事象の量、並びに、前記疎な報酬関数に基づき前記エキスパートが最終的に獲得した収益の情報を収集するデータ収集部と、
種類毎に前記事象の量と前記収益との相関係数を計算し、前記相関係数に対して正規化及びクリッピングを施して種類毎の前記事象の発生時の報酬を規定する密な報酬関数を生成する報酬計算部と
を備えたことを特徴とする機械学習装置。
【請求項６】
データ収集装置及び報酬計算装置を有する機械学習システムであって、
データ収集装置は、疎な報酬関数が与えられた第１環境において所定数のエピソードの間のエキスパートの行動を取得し、前記エピソード毎に、前記第１環境内で前記行動に基づき発生した事象の種類及び種類毎の事象の量、並びに、前記疎な報酬関数に基づき前記エキスパートが最終的に獲得した収益の情報を収集し、
報酬計算装置は、種類毎に前記事象の量と前記収益との相関係数を計算し、前記相関係数に対して正規化及びクリッピングを施して種類毎の前記事象の発生時の報酬を規定する密な報酬関数を生成し、前記密な報酬関数を前記第１環境と観測空間及び行動空間が同じで且つ自環境内での行動を決定する機械学習モデルの学習に使用される第２環境に設定する
ことを特徴とする機械学習システム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、機械学習プログラム、機械学習装置及び機械学習システムに関する。
続きを表示（約 2,100 文字）【背景技術】
【０００２】
近年、電子ゲームにおけるＡＩ（Artificial Intelligence：人工知能）、車両の自動運転制御、ロボットの自立制御といった様々な分野で、強化学習と呼ばれる機械学習の導入が盛んである。強化学習では、与えられた環境の中におけるエージェントと呼ばれる動作主体による行動に対して与えられる報酬を最大化するように学習が行われる。
【０００３】
強化学習においては、通常強化学習に知見を持つ熟練者や、対象とするタスクの性質に詳しい者が手作業で報酬を設計する。報酬は、必ずしもエージェントに獲得してもらいたい挙動そのものだけでなく、その挙動の獲得を促進するような間接的な事象に対する報酬や、逆に望ましくない挙動を抑制するような報酬をも含めて設計される。
【０００４】
ただし、人手による報酬設計は基本的に試行錯誤の連続であり、最適な設計に到達するまでに極めて長い時間を要する可能性がある。また、深層強化学習の場合Deep Neural Network（ＤＮＮ）の特性を踏まえた設計が必要であることや、単純に所望の挙動に報酬を与えるだけでは効率的な学習が難しいことが多いことから、強化学習に知見がない者が報酬を設計することは一般に困難である。
【０００５】
そこで、適切な報酬を迅速に設計するために、報酬設計の自動化が研究されている。報酬設計を自動化する試みとして、疎な報酬を自動的に密な報酬に変換する技術の１つであるReward Shaping（報酬整形）と呼ばれる技術分野が存在する。Reward Shapingの実現要領の一つに、エキスパートが当該タスクにおいて行動した際の行動系列と、そこで獲得した疎な報酬の関係性をもとに、これを自動的に密な報酬に整形するものがあり、その多くはDeep Neural Networkを活用して学習を行うことにより実現される。
【０００６】
ここで、報酬が疎とは、報酬が得られる局面が少ないことを指し、報酬が密とは、報酬が得られる局面が多いことを指す。例えば、特定のゲームにおいて、ゲームに勝つことで報酬がもらえる場合には疎な報酬であり、ゲームに勝つことに加えてゲーム中の様々な動きに応じて報酬がもらえる場合には密な報酬である。
【０００７】
なお、強化学習についての従来技術として、報酬を得た直前の状態・行動対に至る一連の状態・行動対の集合を複数に分類して保持し、各分類の状態・行動対の報酬期待値を所定時間経過後の情報を基に更新して機械学習モデルを訓練する技術が提案されている。また、所定の製造事象に関連付けられた報酬に１つ以上の付加製造プロセスをマッピングする関数を用いて、報酬を最大化するように製造プロセスを最適化する技術が提案されている。また、過去の事象に基づいて特定の時点において何の行動を実行すべきかを決定し、将来の報酬に対する過去の事象の貢献に基づいて過去の事象の重要性を再評価する技術が提案されている。
【先行技術文献】
【特許文献】
【０００８】
特開２０１０－７３２００号公報
特開２０２１－８１１３号公報
特表２０２２－５０４７３９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００９】
しかしながら、Reward Shapingは、実際には期待されているほど最適に近い解を得ることが難しく、人手による報酬設計に対し大きく劣る性能のエージェントしか得られない場合が多い。また、Reward Shapingでは、報酬関数がDeep Neural Networkで表現されることが多いため、人間による解釈可能性の低下や、カスタマイズが困難であるといった課題が存在する。さらに、Reward Shapingを行う手法によっては、所与のエキスパートデータが最適であることを仮定するため、準最適なエキスパートデータが与えられた際の性能が保証できなくなる可能性もある。このように、Reward Shapingを用いても、適切な報酬の設計を自動化することが難しい。したがって、機械学習の学習効率を向上させることは困難である。
【００１０】
また、各分類の状態・行動対の報酬期待値を所定時間経過後の情報を基に更新して機械学習モデルを訓練する技術では、報酬の更新に留まり、適切に報酬を設計することは困難である。また、報酬に１つ以上の付加製造プロセスをマッピングする関数を用いて最適化を行う技術では、報酬の設計が行われておらず、適切な報酬の設定を行うことは困難である。また、将来の報酬に対する過去の事象の貢献に基づいて過去の事象の重要性を再評価する技術でも、報酬の設計が行われておらず、適切な報酬の設定を行うことは困難である。したがって、いずれの技術でも、適切な報酬の自動設定はなされず、機械学習の学習効率を向上させることは困難である。
（【００１１】以降は省略されています）

関連特許