TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025035432
公報種別
公開特許公報(A)
公開日
2025-03-13
出願番号
2023142469
出願日
2023-09-01
発明の名称
報酬重み調整装置、報酬重み調整方法
出願人
株式会社日立製作所
代理人
青稜弁理士法人
主分類
G06N
20/00 20190101AFI20250306BHJP(計算;計数)
要約
【課題】教師データがないタスクに対してKPI重みを調整可能な技術を提供する。
【解決手段】所定の報酬関数に含まれるパラメータセットである重み情報と、重み情報に対応する環境情報と、環境情報でのユーザから与えられる複数時間ステップの行動を含む行動列である教師データと、を複数取得し、重み情報と環境情報と教師データとの組を教師データセットとし、複数の教師データセットに基づき、未知の環境情報に対応する重み情報の推定値を算出し、推定値をユーザに提示する。
【選択図】図1
特許請求の範囲
【請求項1】
プロセッサとメモリとを有したコンピュータにより、強化学習における報酬の重みを調整する報酬重み調整装置であって、
前記プロセッサは、
所定の報酬関数に含まれるパラメータセットである重み情報と、前記重み情報に対応する環境情報と、前記環境情報でのユーザから与えられる複数時間ステップの行動を含む行動列である教師データと、を複数取得し、
前記重み情報と前記環境情報と前記教師データとの組を教師データセットとし、複数の教師データセットに基づき、未知の環境情報に対応する前記重み情報の推定値を算出し、
前記推定値をユーザに提示する、
ことを特徴とする報酬重み調整装置。
続きを表示(約 1,700 文字)
【請求項2】
請求項1に記載の報酬重み調整装置であって、
前記プロセッサは、
前記推定値の算出において、数学的関数を用いて前記推定値を算出し、
前記推定値を、前記数学的関数を用いた場合に得られる推定値以外の数値情報に基づいて、不確実度を算出し、
前記不確実度をユーザに提示する、
ことを特徴とする報酬重み調整装置。
【請求項3】
請求項2に記載の報酬重み調整装置であって、
前記プロセッサは、
前記不確実度が所定の閾値以上であった場合に、前記環境情報を含む教師データの追加指示を出力する、
ことを特徴とする報酬重み調整装置。
【請求項4】
請求項1記載の報酬重み調整装置であって、
前記プロセッサは、
前記環境情報は、複数の環境の状態と、当該状態の尺度とを含む情報であり、
前記推定値の算出では、前記環境情報のうち任意の数の環境情報を選択し、前記選択された環境情報に基づき尺度を含む多次元空間を作成し、前記多次元空間における前記教師データセット内の環境情報の位置関係に基づき、前記未知の環境情報に対応する重み情報の推定値を算出する、
ことを特徴とする報酬重み調整装置。
【請求項5】
請求項1に記載の報酬重み調整装置であって、
前記プロセッサは、
複数の前記教師データセット内の重みを用いた報酬関数を用いて方策を学習する、
ことを特徴とする報酬重み調整装置。
【請求項6】
請求項5に記載の報酬重み調整装置であって、
前記プロセッサは、
各教師データセットに対応する各教師方策を教師データセットがあるすべての環境情報で作成されたシミュレーションと、取捨選択環境情報空間から所定の方法でサンプリングされた教師データセットがない座標に対応する環境情報で作成されたシミュレーションを適用して強化学習情報を取得し、各環境の出力情報と出力情報の類似度を算出し、
前記類似度をもとに前記多次元空間の各座標を低次元空間の各座標に対応付ける射影を行い、
前記重み推定を行う低次元空間における前記教師データセット内の環境情報の位置関係に基づき、前記未知の環境情報に対応する重み情報の推定値を算出する、
ことを特徴とする報酬重み調整装置。
【請求項7】
請求項6に記載の報酬重み調整装置であって、
前記プロセッサは、
前記環境情報により示される環境での評価値である評価スコアと、制約条件の遵守率であるペナルティ回数と、報酬関数の値が対応付けられた前記強化学習情報を用いて、前記類似度を算出する、
ことを特徴とする報酬重み調整装置。
【請求項8】
請求項1に記載の報酬重み調整装置であって、
前記プロセッサは、
前記教師データセットの位置と重みを用い、機械学習または統計的手法で算出した重みを推定する、
ことを特徴とする報酬重み調整装置。
【請求項9】
請求項1に記載の報酬重み調整装置であって、
前記プロセッサは、
環境情報の類似性に基づいて作成された前記低次元空間内において、前記教師データセットの位置と教師データセット内の重み情報に基づいて、教師データセットの位置と前記未知の環境情報の位置の間の距離情報に基づく前記教師データセット内の重みを推定する、
ことを特徴とする報酬重み調整装置。
【請求項10】
請求項1に記載の報酬重み調整装置であって、
前記プロセッサは、
前記推定値を算出する数学的関数は機械学習や統計的手法に基づく関数であって、機械学習または統計的手法で算出した場合の各環境情報での推定値の精度に基づき、不確実度を算出する、
ことを特徴とする報酬重み調整装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、報酬重み調整装置、報酬重み調整方法に関する。
続きを表示(約 4,000 文字)
【背景技術】
【0002】
強化学習は、人の意思決定支援を可能とする1つの手段だが、人は人が立案するのと同等の施策を、強化学習に立案させることを求めていることが多々ある。そのような要求を満たすために、人が施策立案時に重視する複数のKPI(重要業績評価指標)を、報酬関数に反映させる必要がある。例えば、鉄道の遅延解消に関する施策では、遅延解消時間、顧客の満足度、未接続列車数を減らす、といったKPIを、報酬関数に反映させる。この場合、各KPIに関する数式を報酬関数に含め、その重要度合いを報酬の重みとする。例えば、鉄道の遅延解消に関する施策の場合、遅延解消時間、顧客の満足度、未接続列車数といったKPIに対する重要度合いを報酬重みとして定める。そして、人の施策が他の施策よりも報酬が高くなるように報酬関数の重みを調整することで、強化学習は最適解として人の施策を探索可能となる。
【0003】
このような技術の一つとして、例えば、特許文献1に記載の技術がある。特許文献1では、「各報酬の重みによって重み付けされた複数の報酬に基づいて、第1状態を示す第1状態情報が入力された場合に第1状態に対応する第1行動を示す第1行動情報を出力するよう強化学習された機械学習モデルを取得する取得部(153)と、第2状態を示す第2状態情報と第2状態に対応する第2行動を示す第2行動情報との組である教師データを受け付ける受付部(151)と、教師データに含まれる第2状態情報と各報酬の重みに基づく値とが入力された場合に教師データに含まれる第2行動情報を出力するよう、各報酬の重みを機械学習モデルの一部の接続係数とする機械学習モデルを学習することで推定された各報酬の重みに関する情報を表示する表示部(156)と、を備える」ことが記載されている。
【先行技術文献】
【特許文献】
【0004】
WO2021075107号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1では、ある重みの範囲内で重みを複数変えた報酬関数を用意して強化学習を実行し、教師データをもとに推定された報酬の重みと、強化学習を行っている報酬の重みとの相関を表示している。しかしながら、当該技術では、報酬の重みの範囲を決め、複数の報酬の重みを用意する必要がある。また、タスクの類似性や環境情報を考慮して報酬関数を設定しているものではない。さらに、不足する教師データを要求しないことに加えて、環境情報の低次元化も考慮していない。タスクとは、強化学習において現在なすべき作業のことをあらわし、環境情報とは、タスクを一意に定めるための情報である。例えば、列車の運行に関する施策では、悪天候や人身事故などの支障が発生している状態を示す支障時間や、当該支障が発生している駅や駅間を示す支障発生区間といった、時間的にも変化する様々な環境情報における環境下で、どのようなタスクをなすべきかを学習する。
【0006】
人は、意思決定をする際に、環境情報に応じてKPIを変えることがあり、各KPIの重みはタスクに応じて異なる。例えば、鉄道の遅延解消に関する施策を考えた場合、ラッシュ時に最も重視するKPIは顧客の満足度である一方、通常時は遅延解消が最も重視するKPIとなる。従来は、人が作成した施策である教師データが報酬最大となるように報酬の重みを算出するが、教師データがないタスクでは報酬の重みを算出できず、すべてのタスクに対応するためには、各タスクごとに教師データが必要となる。
【0007】
本発明は、教師データがないタスクに対してKPI重みを調整可能な技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明にかかる報酬重み調整装置は、プロセッサとメモリとを有したコンピュータにより、強化学習における報酬の重みを調整する報酬重み調整装置であって、前記プロセッサは、所定の報酬関数に含まれるパラメータセットである重み情報と、前記重み情報に対応する環境情報と、前記環境情報でのユーザから与えられる複数時間ステップの行動を含む行動列である教師データと、を複数取得し、前記重み情報と前記環境情報と前記教師データとの組を教師データセットとし、複数の教師データセットに基づき、未知の環境情報に対応する前記重み情報の推定値を算出し、前記推定値をユーザに提示する、ことを特徴とする報酬重み調整装置として構成される。
【発明の効果】
【0009】
本発明によれば、教師データがないタスクに対してKPI重みを調整できる。上記した以外の課題、構成および効果は、以下の発明を実施するための形態の説明により明らかにされる。
【図面の簡単な説明】
【0010】
本実施例における報酬重み調整装置の構成の一例を示す図である。
報酬重み調整部の機能的な構成の一例を示す図である。
環境情報空間作成部の機能的な構成の一例を示す図である。
環境情報空間可視化部の機能的な構成の一例を示す図である。
環境情報の一例を示す図である。
環境情報の尺度の一例を示す図である。
多次元環境情報空間作成時の選択環境情報の一例を示す図である。
取捨選択環境情報の一例を示す図である。
可視化環境情報の一例を示す図である。
多次元環境情報環境情報空間の一例を示す図である。
射影された環境情報空間(低次元)の一例を示す図である。
可視化する際の環境情報空間の一例を示す図である。
教師施策情報の一例を示す図である。
操作・強化学習行動対応データの一例を示す図である。
教師データセットの一例を示す図である。
強化学習情報の一例を示す図である。
方策の一例を示す図である。
KPI重み関係データの一例を示す図である。
報酬関数項の一例を示す図である。
学習中の重みの一例を示す図である。
環境情報空間作成方法の一例を示す図である。
重み推定方法の一例を示す図である。
コンピュータの概略の一例を示す図である。
本実施の形態で行われる処理(報酬調整モジュールが行う処理)の処理手順の一例を示すフローチャートである。
初期設定部が行う処理の処理手順を示すフローチャートの一例を示す図である。
報酬重み学習部が行う処理の処理手順を示すフローチャートの一例を示す図である。
環境情報空間作成部が行う処理の処理手順を示すフローチャートの一例を示す図である。
報酬重み補間部が行う処理の処理手順を示すフローチャートの一例を示す図である。
不確実度算出部が行う処理の処理手順を示すフローチャートの一例を示す図である。
環境情報可視化部が行う処理の処理手順を示すフローチャートの一例を示す図である。
支障による遅延が発生した運行ダイヤの一例を示す図である。
環境情報の一例を示す図である。
環境情報の尺度の一例を示す図である。
多次元空間作成時の選択環境情報の一例を示す図である。
取捨選択環境情報の一例を示す図である。
可視化環境情報の一例を示す図である。
取捨選択された環境情報空間の一例を示す図である。
低次元環境情報空間の一例を示す図である。
ユーザに提示される画面の一例を示す図である。
教師データセットの一例を示す図である。
環境情報空間作成方法の一例を示す図である。
重み推定方法の一例を示す図である。
KPI重み関係データの一例を示す図である。
報酬関数項の一例を示す図である。
実施例2における送電設備の環境を説明するための図である。
実施例2における教師施策情報の一例を示す図である。
実施例2における環境情報の一例を示す図である。
実施例2における環境情報の尺度の一例を示す図である。
多次元空間作成時の選択環境情報の一例を示す図である。
取捨選択環境情報の一例を示す図である。
可視化環境情報の一例を示す図である。
多次元環境情報空間の一例を示す図である。
ユーザに提示される画面の一例を示す図である。
KPI重み関係データの一例を示す図である。
報酬関数項の一例を示す図である。
教師データセットの一例を示す図である。
環境情報空間作成方法の一例を示す図である。
重み推定方法の一例を示す図である。
実施例3におけるロボットの行動環境を説明するための図である。
ロボットの一例を示す図である。
環境情報の一例を示す図である。
環境情報の尺度の一例を示す図である。
多次元空間作成時の選択環境情報の一例を示す図である。
取捨選択環境情報の一例を示す図である。
可視化環境情報の一例を示す図である。
取捨選択された多次元環境情報空間の一例を示す図である。
KPI重み関係データの一例を示す図である。
報酬関数項の一例を示す図である。
教師データセットの一例を示す図である。
KPI重み関係データの一例を示す図である。
報酬関数項の一例を示す図である。
【発明を実施するための形態】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
株式会社日立製作所
通信システム及び通信方法
1日前
株式会社日立製作所
ユーザ間情報共有装置および方法
1日前
株式会社日立製作所
監視制御システム及び監視制御方法
今日
株式会社日立製作所
余寿命予測装置及び余寿命予測方法
1日前
株式会社日立産機システム
回転電機
1日前
株式会社日立製作所
報酬重み調整装置、報酬重み調整方法
1日前
株式会社日立製作所
住環境評価システム及び住環境評価方法
1日前
株式会社日立製作所
内面状態推定装置および内面状態推定方法
今日
株式会社日立製作所
環境価値報告システムおよび設備環境価値報告装置
1日前
株式会社日立製作所
計画立案装置、計画立案方法および計画立案システム
今日
株式会社日立製作所
不具合診断装置、不具合診断方法、及びそのプログラム
1日前
株式会社日立製作所
水素製造システム、及び、水素製造システムの制御方法
1日前
株式会社日立製作所
営業支援方法、営業支援プログラム、営業支援システム
今日
株式会社日立製作所
金属表面洗浄剤、塗装体、金属表面洗浄方法及び塗装体の製造方法
1日前
栗田工業株式会社
ベルトコンベヤの監視方法、システム及びプログラム
1日前
栗田工業株式会社
シュート部材の監視方法、監視システム及びプログラム
1日前
栗田工業株式会社
ベルトコンベヤのトラブル予測方法、システム及びプログラム
1日前
個人
プログラム
8日前
個人
情報提示方法
1か月前
個人
プログラム
1か月前
個人
プログラム
1か月前
株式会社理研
演算装置
15日前
個人
アカウントマップ
1か月前
個人
日本語入力支援システム
15日前
個人
発想支援方法及びシステム
1か月前
個人
市場受発注システム
1か月前
個人
確率場データ同化演算手法
今日
個人
AI旅行最適化プラグイン
14日前
シャープ株式会社
電子機器
1日前
個人
案件管理装置および端末装置
29日前
個人
納骨堂システム
7日前
個人
学習装置及び推論装置
1か月前
個人
技術実行管理システム
2日前
個人
分類処理プログラム及び方法
1か月前
株式会社発明屋
電池指向の構造設計
1か月前
富士通株式会社
金融システム
1か月前
続きを見る
他の特許を見る