TOP
|
特許
|
意匠
|
商標
特許ウォッチ
DM通知
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2023038931
公報種別
公開特許公報(A)
公開日
2023-03-17
出願番号
2022141138
出願日
2022-09-06
発明の名称
コンピュータ実装方法、コンピュータプログラム、及びシステム(ゼロ抑制決定図を使用したより高速の適合Q反復)
出願人
インターナショナル・ビジネス・マシーンズ・コーポレーション
,
INTERNATIONAL BUSINESS MACHINES CORPORATION
代理人
個人
,
個人
,
弁理士法人RYUKA国際特許事務所
主分類
G06N
20/00 20190101AFI20230310BHJP(計算;計数)
要約
【課題】オフライン強化学習においてゼロ抑制決定図を使用したより高速の適合Q反復を提供する。
【解決手段】方法は、タプルのセットの各々が、状態s、行動a、報酬r及び結果として得られる状態s'を含むタプルのセットD及び割引率γを取得する段階100と、タプルのセットの結果として得られる状態s'の各々について、特徴ベクトルのゼロ抑制決定図(ZDD)を構築する段階102と、状態-行動価値関数Q(s,a;w,θ)のパラメータw、θを更新する段階104と、tを増分することによって所定の回数、更新する段階を繰り返す段階106と、を含む。
【選択図】図4
特許請求の範囲
【請求項1】
適合Q反復のための状態-行動価値関数を推定するコンピュータ実装方法であって、
タプルのセットD及び割引率γを取得する段階であって、前記タプルのセットの各々は、状態s、行動a、報酬r、及び結果として得られる状態s'を含む、段階と、
前記タプルのセットの前記結果として得られる状態s'の各々について、特徴ベクトル
JPEG
2023038931000047.jpg
7
65
のゼロ抑制決定図(ZDD)を構築する段階であって、前記特徴ベクトルφ(s,a)は、疎ビットベクトル{0,1}
D
であり、
JPEG
2023038931000048.jpg
7
17
は、状態s'において適用可能な前記行動のセットである、段階と、
状態-行動価値関数Q(s,a;w,θ)のパラメータ
JPEG
2023038931000049.jpg
6
21
、θを更新する段階と、
tを増分することによって所定の回数、前記更新する段階を繰り返す段階と
を備える、コンピュータ実装方法。
続きを表示(約 1,600 文字)
【請求項2】
前記パラメータの前記更新は、
JPEG
2023038931000050.jpg
9
155
によって計算され、Q(s,a;w,θ)=w・φ(s,a)+f(s;Q)、max
a'∈A(s')
Q(s',a';w
t
,θ
t
)=f(s';θ
t
)+max
a'∈A(s')
w
t
・φ(s',a')であり、max
a'∈A(s')
w
t
・φ(s',a')は、前記ZDDを用いて計算される、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記ZDDを用いた適合Q反復は、目標特性値を満たす新たな分子構造を生成する計算材料発見のために利用される、請求項1又は2に記載のコンピュータ実装方法。
【請求項4】
前記状態は、現在の分子であり、前記行動は、化学反応であり、前記報酬は、最大化すべき特性である、請求項1又は2に記載のコンピュータ実装方法。
【請求項5】
前記化学反応は、複数の候補をもたらす、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記複数の候補のうちの、最低の合成容易性スコアを有する候補が、前記化学反応の生成物として選択される、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記ZDDを用いた適合Q反復は、オフライン強化学習において利用される、請求項1又は2に記載のコンピュータ実装方法。
【請求項8】
適合Q反復のための状態-行動価値関数を推定するコンピュータプログラムであって、コンピュータに、
タプルのセットD及び割引率γを取得する手順であって、前記タプルのセットの各々は、状態s、行動a、報酬r、及び結果として得られる状態s'を含む、手順と、
前記タプルのセットの前記結果として得られる状態s'の各々について、特徴ベクトル
JPEG
2023038931000051.jpg
7
65
のゼロ抑制決定図(ZDD)を構築する手順であって、前記特徴ベクトルφ(s,a)は、疎ビットベクトル{0,1}
D
であり、
JPEG
2023038931000052.jpg
7
17
は、状態s'において適用可能な前記行動のセットである、手順と、
状態-行動価値関数Q(s,a;w,θ)のパラメータ
JPEG
2023038931000053.jpg
6
21
、θを更新する手順と、
tを増分することによって所定の回数、前記更新する手順を繰り返す手順と
を行わせる、コンピュータプログラム。
【請求項9】
前記パラメータの前記更新は、
JPEG
2023038931000054.jpg
11
148
によって計算され、Q(s,a;w,θ)=w・φ(s,a)+f(s;Q)、max
a'∈A(s')
Q(s',a';w
t
,θ
t
)=f(s';θ
t
)+max
a'∈A(s')
w
t
・φ(s',a')であり、max
a'∈A(s')
w
t
・φ(s',a')は、前記ZDDを用いて計算される、請求項8に記載のコンピュータプログラム。
【請求項10】
前記ZDDを用いた適合Q反復は、目標特性値を満たす新たな分子構造を生成する計算材料発見のために利用される、請求項8又は9に記載のコンピュータプログラム。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、概して、機械学習に関し、より具体的には、ゼロ抑制決定図(zero―suppressed decision diagram)を使用したより高速の適合Q反復(Fitted Q-iteration)のための方法及びシステムに関する。
続きを表示(約 4,200 文字)
【背景技術】
【0002】
Q学習は、オートメーション及びロボティクスにおいて幾つかの応用を有する、人気がある強化学習アルゴリズムである。強化学習アルゴリズムは、エージェントを介して制御方策を計算し、エージェントは、システムに対して直接(オンライン制御)、又はシステムのシミュレータとのインタラクションから(オフライン又はバッチ制御)、学習することができる。望ましい制御方策は、任意の初期状態から、エージェントによって経時的に累積される報酬を最大化する行動を選択するようなものである。Q学習は、行動価値モデルを使用し、これは、異なる状態に対処する関数を作成する。Q学習は、最適方策を段階方式で決定するために考えられた。
【0003】
状態表現全体が収束であると示された状態でのQ学習を通して、環境の状態が部分的に観測可能である場合(例えば、センサデバイスの不正確又は遅延)、最適方策を発見するための適した近似方法が要求される。有限かつ十分に小さい状態空間及び行動空間について、Q関数を表形式において表すことができるため、その(バッチにおける及びオンラインモードにおける)近似及び導出される制御方策は単純である。しかしながら、この手法は、連続的な又は非常に大きい離散的な状態行動若しくは行動空間、又はその両方に対処する場合には首尾よく使用することができない。回帰問題の大半における1つの重要な段階は、モデルから他のものを除去しながらの、応答を説明する変数の選択である[1][7]。通常、そのような手順は、特徴選択技法と称され、それらは、削減された変数空間とともに良好かつ単純な回帰器(regressor)を学習することを容易にする。回帰器をトレーニングするときに対処される必要がある別の重要な問題は、いわゆるハイパーパラメータ最適化である。これらのハイパーパラメータは、機械学習(ML)モデルの特定のタイプに固有であり、場合に応じて、ニューロンの数、カーネル関数及びそれらのパラメータ、正則化定数等であり得る[2]。それらは、性能又はコスト関数を与えられると最適モデルを取得するために調節されなければならない。これらの技法、すなわち、特徴選択及びハイパーパラメータ最適化の両方は、モデル品質、解釈可能性、トレーニング速度及びモデル評価速度に対して重大な影響を有し、ここで、最適解は、通常、これらのモデル特性間の妥協として得られる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
オフライン強化学習においてゼロ抑制決定図を使用したより高速の適合Q反復のための方法及びデバイスを提供する。
【課題を解決するための手段】
【0005】
一実施形態によれば、適合Q反復のための状態-行動価値関数を推定するコンピュータ実装方法が提供される。
前記コンピュータ実装方法は、タプルのセットD及び割引率γを取得する段階であって、前記タプルのセットの各々は、状態s、行動a、報酬r、及び結果として得られる状態s'を含む、段階と、前記タプルのセットの前記結果として得られる状態s'の各々について、特徴ベクトル
JPEG
2023038931000002.jpg
7
65
のゼロ抑制決定図(ZDD)を構築する段階であって、前記特徴ベクトルφ(s,a)は、疎ビットベクトル{0,1}
D
であり、
JPEG
2023038931000003.jpg
7
17
は、状態s'において適用可能な前記行動のセットである、段階と、状態-行動価値関数Q(s,a;w,θ)のパラメータ
JPEG
2023038931000004.jpg
6
21
、θを更新する段階と、tを増分することによって所定の回数、前記更新する段階を繰り返す段階とを備える。
【0006】
別の実施形態によれば、適合Q反復のための状態-行動価値関数を推定するコンピュータプログラム製品が提供される。前記コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え、前記プログラム命令は、コンピュータに、タプルのセットD及び割引率γを取得する手順であって、前記タプルのセットの各々は、状態s、行動a、報酬r、及び結果として得られる状態s'を含む、手順と、前記タプルのセットの前記結果として得られる状態s'の各々について、特徴ベクトル
JPEG
2023038931000005.jpg
7
65
のゼロ抑制決定図(ZDD)を構築する手順であって、前記特徴ベクトルφ(s,a)は、疎ビットベクトル{0,1}
D
であり、
JPEG
2023038931000006.jpg
7
17
は、状態s'において適用可能な前記行動のセットである、手順と、状態-行動価値関数Q(s,a;w,θ)のパラメータ
JPEG
2023038931000007.jpg
6
21
、θを更新する手順と、tを増分することによって所定の回数、前記更新する手順を繰り返す手順とを行わせる、前記コンピュータによって実行可能である。
【0007】
更に別の実施形態によれば、適合Q反復のための状態-行動価値関数を推定するシステムが提供される。前記システムは、メモリと、前記メモリと通信する1つ又は複数のプロセッサとを備え、前記1つ又は複数のプロセッサは、タプルのセットD及び割引率γを取得することであって、前記タプルのセットの各々は、状態s、行動a、報酬r、及び結果として得られる状態s'を含むことと、前記タプルのセットの前記結果として得られる状態s'の各々について、特徴ベクトル
JPEG
2023038931000008.jpg
7
65
のゼロ抑制決定図(ZDD)を構築することであって、前記特徴ベクトルφ(s,a)は、疎ビットベクトル{0,1}
D
であり、
JPEG
2023038931000009.jpg
7
17
は、状態s'において適用可能な前記行動のセットであることと、状態-行動価値関数Q(s,a;w,θ)のパラメータ
JPEG
2023038931000010.jpg
6
21
、θを更新することと、tを増分することによって所定の回数、前記更新することを繰り返すこととを行うように構成されている。
【0008】
別の実施形態によれば、適合Q反復のための状態-行動価値関数を推定するコンピュータ実装方法が提供される。前記コンピュータ実装方法は、タプルのセットD及び割引率γを取得する段階であって、前記タプルのセットの各々は、状態s、行動a、報酬r、及び結果として得られる状態s'を含む、段階と、前記タプルのセットの前記結果として得られる状態s'の各々について、特徴ベクトル
JPEG
2023038931000011.jpg
7
65
の二分決定図(BDD)を構築する段階であって、前記特徴ベクトルφ(s,a)は、疎ビットベクトル{0,1}
D
であり、
JPEG
2023038931000012.jpg
7
17
は、状態s'において適用可能な前記行動のセットである、段階と、状態-行動価値関数Q(s,a;w,θ)のパラメータ
JPEG
2023038931000013.jpg
6
21
、θを更新する段階と、tを増分することによって所定の回数、前記更新する段階を繰り返す段階とを備える。
【0009】
更に別の実施形態によれば、適合Q反復のための状態-行動価値関数を推定するコンピュータ実装方法が提供される。前記コンピュータ実装方法は、タプルのセットD及び割引率γを取得する段階であって、前記タプルのセットの各々は、状態s、行動a、報酬r、及び結果として得られる状態s'を含む、段階と、前記タプルのセットの前記結果として得られる状態s'の各々について、特徴ベクトル
JPEG
2023038931000014.jpg
7
65
の複数のゼロ抑制決定図(ZDD)を構築する段階であって、前記特徴ベクトルφ(s,a)は、疎ビットベクトル{0,1}
D
であり、
JPEG
2023038931000015.jpg
7
17
は、状態s'において適用可能な前記行動のセットである、段階と、
状態-行動価値関数Q(s,a;w,θ)のパラメータ
JPEG
2023038931000016.jpg
6
21
、θを更新する段階と、tを増分することによって所定の回数、前記更新する段階を繰り返す段階とを備える。
【0010】
例示的な実施形態は、異なる主題を参照して説明されることに留意されたい。特に、幾つかの実施形態は、方法型請求項を参照して説明される一方、他の実施形態は装置型請求項を参照して説明されている。しかしながら、当業者であれば、上記及び以下の説明から、別段に通知されない限り、主題のうちの1つの型に属する特徴の任意の組み合わせに加えて、異なる主題に関する特徴同士の間、特に、方法型請求項の特徴、及び装置型請求項の特徴同士の間の任意の組み合わせも本明細書内で説明されているものとみなされると推論するであろう。
(【0011】以降は省略されています)
特許ウォッチbot のツイート
この特許をJ-PlatPatで参照する
関連特許
個人
画像処理装置
28日前
個人
防犯システム
1か月前
個人
デジタル認証システム
21日前
個人
デジタル認証システム
24日前
個人
情報端末用タッチペン
1か月前
個人
改善会議システム
15日前
個人
商品取引システム
1か月前
個人
パーソナルコンピューター
11日前
凸版印刷株式会社
メタルカード
4日前
キーコム株式会社
花火プリンター
8日前
株式会社東京
情報提供方法
1日前
個人
オンライン学習支援システム
1か月前
個人
そろばん
1か月前
株式会社アジラ
対象追跡装置
28日前
凸版印刷株式会社
ICモジュール基板
8日前
個人
スポーツ用具管理システム
22日前
株式会社大野
遺骨合祀システム
11日前
東洋電装株式会社
操作装置
1か月前
学校法人早稲田大学
触覚提示装置
21日前
凸版印刷株式会社
金属製指紋認証カード
4日前
キヤノン株式会社
プリンタドライバ
1か月前
株式会社ノンピ
情報処理装置
8日前
株式会社日立国際電気
通信システム
11日前
アイリスオーヤマ株式会社
調理装置
11日前
株式会社サタケ
穀物乾燥機の選定システム
21日前
株式会社アクト
投票システム
1日前
個人
価値評価システム
10日前
株式会社知財事業研究所
金融システム
1か月前
花王株式会社
香り関連情報の抽出方法
1か月前
個人
広告装置およびプログラム
16日前
株式会社アスタリスク
読取装置
28日前
株式会社豊田自動織機
制御装置
1か月前
個人
商品管理システム及びプログラム
16日前
個人
取引システム、取引方法及びプログラム
4日前
富士通株式会社
異常検出
16日前
中部電力株式会社
情報処理装置
1か月前
続きを見る
他の特許を見る