特許ウォッチ

公開番号2025091110
公報種別公開特許公報(A)
公開日2025-06-18
出願番号2023206158
出願日2023-12-06
発明の名称情報処理装置及び情報処理方法
出願人東芝ライテック株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06T 7/00 20170101AFI20250611BHJP(計算;計数)
要約【課題】精度の高い推定を可能にする。
【解決手段】本願に係る情報処理装置は、判定部と、実行部とを備える。判定部は、検知対象の撮像状況が所定の条件を満たすか否かを判定する。実行部は、判定部により所定の条件を満たすと判定された場合にVQA(Visual Question Answering)を用いた処理を実行する。
【選択図】図12
特許請求の範囲【請求項１】
検知対象の撮像状況が所定の条件を満たすか否かを判定する判定部と、
前記判定部により前記所定の条件を満たすと判定された場合にＶＱＡ（Visual Question Answering）を用いた処理を実行する実行部と、
を有することを特徴とする情報処理装置。
続きを表示（約 970 文字）【請求項２】
前記判定部は、
前記検知対象の撮像画像を用いて前記撮像状況が前記所定の条件を満たすか否かを判定する
ことを特徴とする請求項１に記載の情報処理装置。
【請求項３】
前記判定部は、
予め定められた高さの位置から撮像された前記撮像画像を用いて前記撮像状況が前記所定の条件を満たすか否かを判定する
ことを特徴とする請求項２に記載の情報処理装置。
【請求項４】
前記判定部は、
前記高さと撮像装置に応じた係数とに基づき決定された閾値に基づき、前記撮像状況が前記所定の条件を満たすか否かを判定する
ことを特徴とする請求項３に記載の情報処理装置。
【請求項５】
前記判定部は、
前記検知対象の座標データが前記所定の条件を満たすか否かを判定することで、前記検知対象の撮像状況が前記所定の条件を満たすか否かを判定する
ことを特徴とする請求項１に記載の情報処理装置。
【請求項６】
前記判定部は、
前記検知対象を示す所定形状の図形の全ての頂点の座標データが前記所定の条件を満たすか否かを判定する
ことを特徴とする請求項５に記載の情報処理装置。
【請求項７】
前記判定部は、
前記座標データが所定の閾値を超えているか否かを判定することで、前記検知対象の撮像状況が前記所定の条件を満たすか否かを判定する
ことを特徴とする請求項５に記載の情報処理装置。
【請求項８】
前記判定部は、
ＶＱＡの質問文と対応する範囲が所定の条件を満たすか否かを判定することで、前記検知対象の撮像状況が前記所定の条件を満たすか否かを判定する
ことを特徴とする請求項１に記載の情報処理装置。
【請求項９】
コンピュータが実行する情報処理方法であって、
検知対象の撮像状況が所定の条件を満たすか否かを判定する判定工程と、
前記判定工程により前記所定の条件を満たすと判定された場合にＶＱＡ（Visual Question Answering）を用いた処理を実行する実行工程と、
を含むことを特徴とする情報処理方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は、情報処理装置及び情報処理方法に関する。
続きを表示（約 1,700 文字）【背景技術】
【０００２】
従来、所定の情報に基づき特定の状態を推定する技術が知られている。例えば、ＶＱＡ（Visual Question Answering）と呼ばれるＡＩ技術を用いることで、撮像画像（現場画像）に基づいて安全マニュアルに違反した装備状態や危険な状態を推定する技術が知られている。
【先行技術文献】
【特許文献】
【０００３】
特開２０２２－０７１６７５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来の技術では、十分な状態の推定ができない場合でも状態を推定してしまう場合があるため、精度の高い推定を行うための更なる改善の余地があった。
【０００５】
本願は、上記に鑑みてなされたものであって、精度の高い推定を可能にする情報処理装置及び情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【０００６】
本願に係る情報処理装置は、検知対象の撮像状況が所定の条件を満たすか否かを判定する判定部と、前記判定部により前記所定の条件を満たすと判定された場合にＶＱＡ（Visual Question Answering）を用いた処理を実行する実行部と、を有することを特徴とする。
【発明の効果】
【０００７】
実施形態の一態様によれば、精度の高い推定を可能にすることができるという効果を奏する。
【図面の簡単な説明】
【０００８】
図１は、実施形態に係る情報処理システムの構成例を示す図である。
図２は、実施形態に係る判定対象を説明するための説明図である。
図３は、実施形態に係る撮像視点を説明するための説明図である。
図４は、実施形態に係る撮像視点を説明するための説明図である。
図５は、実施形態に係る判定対象範囲を説明するための説明図（その１）である。
図６は、実施形態に係る判定対象範囲を説明するための説明図（その２）である。
図７は、実施形態に係る閾値を説明するための説明図である。
図８は、実施形態に係る矩形のサイズに閾値を設定した場合の検知対象との関係性を説明するための説明図である。
図９は、実施形態に係る矩形のサイズを検知対象に適用した場合に判定対象となるか否かを説明するための説明図である。
図１０は、実施形態に係る情報処理の一例を示す図である。
図１１は、実施形態に係る端末装置の構成例を示す図である。
図１２は、実施形態に係る情報処理装置の構成例を示す図である。
図１３は、実施形態に係る想定回答記憶部の一例を示す図である。
図１４は、実施形態に係るＶＱＡモデル記憶部の一例を示す図である。
図１５は、実施形態に係る情報処理の一例を示すフローチャート（その１）である。
図１６は、実施形態に係る情報処理の一例を示すフローチャート（その２）である。
【発明を実施するための形態】
【０００９】
以下に、本願に係る情報処理装置及び情報処理方法を実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【００１０】
従来、所定の情報に基づき特定の状態を推定する技術が知られている。例えば、ＶＱＡと呼ばれるＡＩ技術を用いることで、撮像画像に基づいて安全マニュアルに違反した装備状態や危険な状態を推定する技術が知られている。ＶＱＡは、コンピュータビジョンと自然言語処理とを統合した技術であり、撮像画像内の物体やシーンに関する質問を自然言語で受け付け、それに対する回答を生成する。
（【００１１】以降は省略されています）

関連特許