TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025128512
公報種別公開特許公報(A)
公開日2025-09-03
出願番号2024025210
出願日2024-02-22
発明の名称車両走行態様評価装置
出願人株式会社NTTデータオートモビリジェンス研究所
代理人個人
主分類G09B 9/04 20060101AFI20250827BHJP(教育;暗号方法;表示;広告;シール)
要約【課題】様々な状況において車両の走行態様を適切に評価できるような車両走行態様評価装置を提供することである。
【解決手段】シミュレータを用いた対象車両の走行に関する強化学習において前記シミュレータでの前記対象車両の走行態様を評価する車両走行態様評価装置であって、前記シミュレータにて表され得る複数の状況それぞれに対してその状況のもとでの対象車両の走行態様についての評価基準が設定されており、前記複数の状況に対して設定された複数の前記評価基準から、前記強化学習の過程で前記シミュレータにて表される状況に対応した評価基準を選択する基準選択部(S3)と、前記強化学習の過程で前記シミュレータにて表される状況のもとでの前記対象車両の走行態様の評価を表す評価点を、前記基準選択部にて選択された前記評価基準に基づいて決定する評価点決定部(S4-1~S4-n)と、を有する構成となる。
【選択図】 図4
特許請求の範囲【請求項1】
シミュレータを用いた対象車両の走行に関する強化学習において前記シミュレータでの前記対象車両の走行態様を評価する車両走行態様評価装置であって、
前記シミュレータにて表され得る複数の状況それぞれに対してその状況のもとでの対象車両の走行態様についての評価基準が設定されており、
前記複数の状況に対して設定された複数の前記評価基準から、前記強化学習の過程で前記シミュレータにて表される状況に対応した評価基準を選択する基準選択部と、
前記強化学習の過程で前記シミュレータにて表される状況のもとでの前記対象車両の走行態様の評価を表す評価点を、前記基準選択部にて選択された前記評価基準に基づいて決定する評価点決定部と、を有する車両走行態様評価装置。
続きを表示(約 1,500 文字)【請求項2】
前記シミュレータにて表され得る複数の状況のそれぞれに対してその状況のもとでの前記対象車両の走行態様が前記強化学習において推奨される行動であるための条件が前記評価基準として設定されており、
前記評価点決定部は、
前記強化学習の過程で前記シミュレータにて表される状況のもとでの前記対象車両の走行態様が、当該状況のもとでの推奨される行動であるための条件を満足しているか否かを判定する判定部と、
前記判定部が前記推奨される行動であるための条件が満足されていると判定したときに、前記評価点を所定値に決定し、前記判定部が前記推奨される行動であるための条件が満足されていなと判定したときに、前記評価点を前記所定値が表す評価より低い評価を表す値に決定する値決定部とを含む、請求項1記載の車両走行態様評価装置。
【請求項3】
前記シミュレータにて表され得る複数の状況は、前記シミュレータにおいて道路上に前記対象車両が走行すべき経路が設定されているという状況を含み、その状況に対して前記対象車両が前記経路から逸脱する距離に応じた評価基準が設定されている、請求項1記載の車両走行態様評価装置。
【請求項4】
前記シミュレータにて表され得る複数の状況は、前記シミュレータにおいて前記対象車両が定速で走行するという状況を含み、その状況に対して前記対象車両の走行速度に応じた評価基準が設定されている、請求項1記載の車両走行態様評価装置。
【請求項5】
前記シミュレータにて表され得る複数の状況は、前記シミュレータにおいて前記対象車両が走行すべき道路に障害物が存在するという状況を含み、その状況に対して前記対象車両と前記障害物との距離に応じた評価基準が設定されている、請求項1記載の車両走行態様評価装置。
【請求項6】
前記シミュレータにて表され得る複数の状況は、前記シミュレータにおいて交通規則に基づいて前記対象車両が停止すべき場所があるという状況を含 み、その状況に対して前記対象車両と前記停止すべき場所との位置関係に応じた評価基準が設定されている、請求項1記載の車両走行態様評価装置。
【請求項7】
前記強化学習の過程で、前記シミュレータでの前記対象車両のある地点に至るまでの走行の履歴に基づいて前記対象車両の走行態様の評価を表す評価点を決定する学習経過評価点決定部、を有する請求項1記載の車両走行態様評価装置。
【請求項8】
シミュレータを用いた対象車両の走行に関する強化学習において前記シミュレータでの前記対象車両の走行態様を評価する車両走行態様評価装置であって、
前記シミュレータにおいて走行する前記対象車両がとり得る複数の走行態様が定義されるとともに、定義された前記複数の走行態様のそれぞれに対して評価基準が設定されており、
前記強化学習の過程において前記シミュレータにおいて走行する前記対象車両の走行態様が定義された前記複数の走行態様のうちのいずれであるかを判定する走行態様判定部と、
前記走行態様判定部での判定結果に係る走行態様に対応する評価基準に基づいて、前記対象車両の走行態様の評価を表す評価点を決定する評価点決定部と、を有する車両走行態様評価装置。
【請求項9】
定義された前記複数の走行態様は、定速走行の態様、加速走行の態様、減速走行の態様、及び停止の走行態様を含む、請求項8記載の車両走行態様評価装置。
【請求項10】
定義された前記複数の走行態様のそれぞれとして、車両の走行態様の状態遷移が定義されている、請求項8記載の車両走行態様評価装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、シミュレータを用いた対象車両の走行に関する強化学習において前記シミュレータでの前記対象車両の走行態様を評価する車両走行態様評価装置に関する。
続きを表示(約 2,500 文字)【背景技術】
【0002】
従来、車両(対象車両)の行動(走行態様)についての強化学習を行う学習装置が知られている(例えば、特許文献1参照)。一般的に、強化学習は、試行錯誤を通じてある環境において「価値を最大化するような行動」を学習するものである。具体的には、エージェント(行動体の制御器)が、ある環境内での行動を方策(ポリシー)に基づいて決定する。その行動は環境に影響を与え、その行動に影響されて変化した環境からその行動が良かったのかが評価され、その評価結果が報酬としてエージェントに与えられる。そして、その評価結果(報酬)に基づいて方策(ポリシー)が更新される。以後、方策に基づいたエージェントの行動の決定、その行動により影響される環境での当該行動の評価(報酬)、その評価結果に基づいた方策の更新が順次繰り返され、最終的に得られる報酬(評価)が最大となるように順次方策が更新されていく(学習される)。
【先行技術文献】
【特許文献】
【0003】
特開2020-35222号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
車両の自動運転を実現させるための車両の走行態様についての強化学習では、様々な状況において車両の走行態様を報酬として適切に評価することが重要である。そこで、本発明はこのような事情に鑑みてなされたもので、強化学習において様々な状況での車両の走行態様を適切に評価できるような車両走行態様評価装置を提供するものである。
【課題を解決するための手段】
【0005】
本発明に係る車両走行態様評価装置は、シミュレータを用いた対象車両の走行に関する強化学習において前記シミュレータでの前記対象車両の走行態様を評価する車両走行態様評価装置であって、前記シミュレータにて表され得る複数の状況それぞれに対してその状況のもとでの対象車両の走行態様についての評価基準が設定されており、前記複数の状況に対して設定された複数の前記評価基準から、前記強化学習の過程で前記シミュレータにて表される状況に対応した評価基準を選択する基準選択部と、前記強化学習の過程で前記シミュレータにて表される状況のもとでの前記対象車両の走行態様の評価を表す評価点を、前記基準選択部にて選択された前記評価基準に基づいて決定する評価点決定部と、を有する構成となる。
【0006】
このような構成により、シミュレータを用いた対象車両の走行に関する強化学習の過程で、前記シミュレータにて表される状況に対応した評価基準が選択され、その強化学習の過程で前記シミュレータにて表される状況のもとでの前記対象車両の走行態様の評価を表す評価点が、その選択された前記評価基準に基づいて決定される。例えば、その評価点に基づいた報酬を、前記強化学習において前記シミュレータにて表される前記状況を含む環境内での行動(走行態様)を決定するためのエージェントに提供することができる。
【0007】
本発明に係る車両走行態様評価装置において、前記シミュレータにて表され得る複数の状況のそれぞれに対してその状況のもとでの前記対象車両の走行態様が前記強化学習において推奨される行動であるための条件が前記評価基準として設定されており、前記評価点決定部は、前記強化学習の過程で前記シミュレータにて表される状況のもとでの前記対象車両の走行態様が、当該状況のもとでの推奨される行動であるための条件を満足しているか否かを判定する判定部と、前記判定部が前記推奨される行動であるための条件が満足されていると判定したときに、前記評価点を所定値に決定し、前記判定部が前記推奨される行動であるための条件が満足されていなと判定したときに、前記評価点を前記所定値が表す評価より低い評価を表す値に決定する値決定部とを含む、構成とすることができる。
【0008】
このような構成により、強化学習の過程でシミュレータにて表される状況のもとでの対象車両の走行態様が、当該状況のもとでの推奨される行動であるための条件を満足しているか否かが判定される。前記対象車両の走行態様が前記推奨される行動であるための条件を満足していると判定されると、前記評価点が所定値に決定される。一方、前記対象車両の走行態様が前記推奨される行動であるための条件を満足していないと判定されると、前記評価点が、前記所定値が表す評価より低い評価を表す値に決定される。その結果、強化学習の過程で前記シミュレータにて表される状況のもとでの前記対象車両の走行態様がその強化学習において当該状況のもとでの推奨される行動である場合には、その走行態様が強化学習において当該状況のもとでの推奨される行動でない場合に比べて高い評価を表す評価点を得ることができる。
【0009】
本発明に係る車両走行態様評価装置において、前記シミュレータにて表され得る複数の状況は、前記シミュレータにおいて道路上に前記対象車両が走行すべき経路が設定されているという状況を含み、その状況に対して前記対象車両が前記経路から逸脱する距離に応じた評価基準が設定されている、構成とすることができる。
【0010】
このような構成により、シミュレータを用いた対象車両の走行に関する強化学習の過程で、前記シミュレータにおいて道路上に前記対象車両が走行すべき経路が設定されている状況では、前記対象車両の走行態様の評価を表す評価点が、当該対象車両が前記経路から逸脱する距離に応じた評価基準に基づいて決定される。これにより、例えば、その強化学習の過程で前記シミュレータにおいて道路上に前記対象車両が走行すべき経路が設定されている状況のもとでの前記対象車両の走行態様の評価を表す評価点を、前記対象車両が前記経路から逸脱する距離が少ないほど高い評価を表す値に決定することができる。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

個人
4分割正積世界地図
4か月前
個人
回転式カード学習具
14日前
日本精機株式会社
発光装置
3か月前
日本精機株式会社
表示装置
29日前
個人
時刻表示機能つき手帳
1か月前
日本精機株式会社
表示装置
2か月前
日本精機株式会社
発光装置
3か月前
個人
地熱を利用した集客装置
3か月前
日本精機株式会社
車両用表示装置
1か月前
日本精機株式会社
車両用表示装置
1か月前
日本精機株式会社
車両用表示装置
1か月前
個人
注射針穿刺訓練用モデル
4か月前
個人
モデルで薔薇の花嫁様を描く為
9日前
トヨタ自動車株式会社
評価方法
1か月前
ブジョングループ
電子ラベル装置
3か月前
シャープ株式会社
表示装置
3か月前
シャープ株式会社
表示装置
3か月前
シャープ株式会社
表示装置
2か月前
株式会社一弘社
情報表示板
15日前
シャープ株式会社
表示装置
3か月前
個人
口唇閉鎖の訓練具
2か月前
個人
音楽教材
28日前
パイオニア株式会社
表示装置
2か月前
個人
広告設置構造及び広告支持部材
3か月前
EID SYSTEM株式会社
ラベル
3か月前
EID SYSTEM株式会社
ラベル
3か月前
株式会社半導体エネルギー研究所
半導体装置
1か月前
ニチレイマグネット株式会社
磁着式電飾装置
3か月前
矢崎総業株式会社
表示装置
4か月前
株式会社ノジマ
応対体験システム
2か月前
シチズンファインデバイス株式会社
液晶表示装置
7日前
シチズンファインデバイス株式会社
液晶表示装置
1か月前
株式会社バンダイ
情報処理装置およびプログラム
2か月前
BEST株式会社
吊り下げ表示部材
26日前
個人
サインポスト
1か月前
中国電力株式会社
危険予知訓練装置
3か月前
続きを見る