特許ウォッチ

公開番号2024091177
公報種別公開特許公報(A)
公開日2024-07-04
出願番号2022207685
出願日2022-12-23
発明の名称特定プログラム、特定方法および情報処理装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06T 7/00 20170101AFI20240627BHJP(計算;計数)
要約【課題】画像から特定の物体を認識する精度を向上させることを課題とする。
【解決手段】情報処理装置は、物体を含む映像を取得し、複数の階層毎に物体の属性が対応付けられた参照元データを参照する機械学習モデルに対して、取得した映像を入力することで、第一の階層の物体の属性の中から、映像に含まれる物体の属性を絞り込み、絞り込んだ物体の属性を用いて、第一の階層の配下の第二の階層の物体の属性を識別し、取得した映像を、機械学習モデルに入力することで、第二の階層の物体の属性の中から、映像に含まれる物体の属性を特定する。
【選択図】図10
特許請求の範囲【請求項１】
物体を含む映像を取得し、
複数の階層毎に物体の属性が対応付けられた参照元データを参照する機械学習モデルに対して、取得した映像を入力することで、第一の階層の物体の属性の中から、前記映像に含まれる物体の属性を絞り込み、
絞り込んだ物体の属性を用いて、前記第一の階層の配下の第二の階層の物体の属性を識別し、
取得した映像を、前記機械学習モデルに入力することで、前記第二の階層の物体の属性の中から、前記映像に含まれる物体の属性を特定する、
処理をコンピュータに実行させることを特徴とする特定プログラム。
続きを表示（約 1,300 文字）【請求項２】
前記絞り込む処理は、前記機械学習モデルが有する画像エンコーダに対して前記映像を入力すると共に、前記機械学習モデルが有するテキストエンコーダに対して前記第一の階層の物体の属性ごとにテキストを入力し、前記画像エンコーダが出力する前記映像のベクトル及び前記テキストエンコーダが出力する前記テキストのベクトルの類似度に基づいて前記第一の階層の物体の属性のうち前記映像に含まれる物体の属性を絞り込む処理を含み、
前記特定する処理は、前記画像エンコーダに対して前記映像を入力すると共に、前記テキストエンコーダに対して前記第二の階層の物体の属性に対応するテキストを入力し、前記画像エンコーダが出力する前記映像のベクトル及び前記テキストエンコーダが出力する前記テキストのベクトルの類似度に基づいて前記第二の階層の物体の属性のうち前記映像に含まれる物体の属性を特定する処理を含む、
ことを特徴とする請求項１に記載の特定プログラム。
【請求項３】
前記絞り込む処理は、前記第一の階層の物体の属性のうち、前記映像のベクトルに対する類似度が最大であるテキストに対応する物体の属性に絞り込む処理を含み、
前記特定する処理は、前記第二の階層の物体の属性のうち、前記映像のベクトルに対する類似度が最大であるテキストに対応する物体の属性を特定する処理を含む、
ことを特徴とする請求項１に記載の特定プログラム。
【請求項４】
前記機械学習モデルは、ゼロショット画像分類器であることを特徴とする請求項１に記載の特定プログラム。
【請求項５】
前記第一の階層の物体の属性は、前記映像が撮影される店舗で販売される商品のカテゴリを含み、
前記第二の階層の物体の属性は、前記商品の価格を含む、
ことを特徴とする請求項１に記載の特定プログラム。
【請求項６】
物体を含む映像を取得し、
複数の階層毎に物体の属性が対応付けられた参照元データを参照する機械学習モデルに対して、取得した映像を入力することで、第一の階層の物体の属性の中から、前記映像に含まれる物体の属性を絞り込み、
絞り込んだ物体の属性を用いて、前記第一の階層の配下の第二の階層の物体の属性を識別し、
取得した映像を、前記機械学習モデルに入力することで、前記第二の階層の物体の属性の中から、前記映像に含まれる物体の属性を特定する、
処理をコンピュータが実行することを特徴とする特定方法。
【請求項７】
物体を含む映像を取得し、
複数の階層毎に物体の属性が対応付けられた参照元データを参照する機械学習モデルに対して、取得した映像を入力することで、第一の階層の物体の属性の中から、前記映像に含まれる物体の属性を絞り込み、
絞り込んだ物体の属性を用いて、前記第一の階層の配下の第二の階層の物体の属性を識別し、
取得した映像を、前記機械学習モデルに入力することで、前記第二の階層の物体の属性の中から、前記映像に含まれる物体の属性を特定する、
処理を実行する制御部を含むことを特徴とする情報処理装置。

発明の詳細な説明【技術分野】
【０００１】
本発明は、特定プログラム、特定方法および情報処理装置に関する。
続きを表示（約 3,000 文字）【背景技術】
【０００２】
画像から特定の物体を認識する画像認識技術は、広く普及している。この技術では、例えば、画像における特定の物体の領域がバウンディングボックス（Bbox）として特定される。また、物体の画像認識を機械学習を用いて行う技術も存在する。そして、このような画像認識技術は、例えば、店舗における顧客の購買動作の監視や、工場における作業者の作業管理に応用することが考えられている。
【０００３】
スーパーマーケットやコンビニエンスストア等の店舗において、セルフレジが普及している。セルフレジは、商品を購入するユーザ自身が、商品のバーコードの読み取りから精算までを行うＰＯＳ（Point of sale）レジシステムである。たとえば、セルフレジを導入することで、人口減少による人手不足の改善、人件費の抑制を実現することができる。
【先行技術文献】
【特許文献】
【０００４】
特開２０１９－２９０２１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記のセルフレジでは、商品コードのスキャンや精算がユーザ自身に委ねられるので、不正行為を検出することが困難である側面がある。たとえば、上記の不正行為を検出する側面から画像認識ＡＩ（Artificial Intelligence）を適用しようにも、画像認識ＡＩの訓練には大量の訓練データが必要となる。ところが、スーパーマーケットやコンビニエンスストア等の店舗では、多数の種類の商品が存在する上、個々の商品のライフサイクルも短いので、商品の入れ替えが頻繁に起こる。このような商品のライフサイクルに合わせて画像認識ＡＩをチューニングしたり、あるいは新たな画像認識ＡＩを訓練したりすることは困難である。
【０００６】
１つの側面では、画像から特定の物体を認識する精度を向上させることを実現できる特定プログラム、特定方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【０００７】
第１の案では、特定プログラムは、物体を含む映像を取得し、複数の階層毎に物体の属性が対応付けられた参照元データを参照する機械学習モデルに対して、取得した映像を入力することで、第一の階層の物体の属性の中から、前記映像に含まれる物体の属性を絞り込み、絞り込んだ物体の属性を用いて、前記第一の階層の配下の第二の階層の物体の属性を識別し、取得した映像を、前記機械学習モデルに入力することで、前記第二の階層の物体の属性の中から、前記映像に含まれる物体の属性を特定する、処理をコンピュータに実行させる。
【発明の効果】
【０００８】
一実施形態によれば、画像から特定の物体を認識する精度を向上させることを実現できる。
【図面の簡単な説明】
【０００９】
図１は、実施例１にかかるセルフレジシステムの全体構成例を示す図である。
図２は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。
図３は、第一の機械学習モデルの訓練データの例を説明する図である。
図４は、第一の機械学習モデルの機械学習を説明する図である。
図５は、第二の機械学習モデルの機械学習を説明する図である。
図６は、商品リストの一例を示す図である。
図７は、テンプレートの一例を示す図である。
図８は、階層構造データの生成を説明する図（１）である。
図９は、階層構造データの生成を説明する図（２）である。
図１０は、階層構造の一例を示す図である。
図１１は、手持ち商品画像の生成を説明する図（１）である。
図１２は、手持ち商品画像の生成を説明する図（２）である。
図１３は、セルフレジの表示例を示す図（１）である。
図１４は、セルフレジの表示例を示す図（２）である。
図１５は、手持ち商品画像の生成を説明する図（３）である。
図１６は、手持ち商品画像の生成を説明する図（４）である。
図１７は、商品アイテムを特定する事例１を示す模式図（１）である。
図１８は、商品アイテムを特定する事例１を示す模式図（２）である。
図１９は、商品アイテムを特定する事例１を示す模式図（３）である。
図２０は、商品アイテムを特定する事例２を示す模式図（１）である。
図２１は、商品アイテムを特定する事例２を示す模式図（２）である。
図２２は、アラートの表示例を示す図（１）である。
図２３は、アラートの表示例を示す図（２）である。
図２４は、アラートの表示例を示す図（３）である。
図２５は、アラートの表示例を示す図（４）である。
図２６は、実施例１にかかるデータ生成処理の流れを示すフローチャートである。
図２７は、実施例１にかかる映像取得処理の流れを示すフローチャートである。
図２８は、実施例１にかかる第一の検出処理の流れを示すフローチャートである。
図２９は、実施例１にかかる第二の検出処理の流れを示すフローチャートである。
図３０は、実施例１にかかる特定処理の流れを示すフローチャートである。
図３１は、階層構造の応用例１を示す図である。
図３２は、商品アイテムを特定する事例３を示す模式図（１）である。
図３３は、商品アイテムを特定する事例３を示す模式図（２）である。
図３４は、商品アイテムを特定する事例３を示す模式図（３）である。
図３５は、アラートの表示例を示す図（５）である。
図３６は、アラートの表示例を示す図（６）である。
図３７は、応用例１にかかる第一の検出処理の流れを示すフローチャートである。
図３８は、階層構造の応用例２を示す図である。
図３９は、セルフレジの表示例を示す図（３）である。
図４０は、商品アイテムを特定する事例４を示す模式図（１）である。
図４１は、商品アイテムを特定する事例４を示す模式図（２）である。
図４２は、商品アイテムを特定する事例４を示す模式図（３）である。
図４３は、アラートの表示例を示す図（７）である。
図４４は、アラートの表示例を示す図（８）である。
図４５は、応用例２にかかる第二の検出処理の流れを示すフローチャートである。
図４６は、階層構造の応用例３を示す図である。
図４７は、階層構造の応用例４を示す図である。
図４８は、情報処理装置のハードウェア構成例を説明する図である。
図４９は、セルフレジのハードウェア構成例を説明する図である。
【発明を実施するための形態】
【００１０】
以下に、本願の開示する特定プログラム、特定方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
【実施例】
（【００１１】以降は省略されています）

関連特許