特許ウォッチ

公開番号2025108996
公報種別公開特許公報(A)
公開日2025-07-24
出願番号2024002621
出願日2024-01-11
発明の名称マーキング方法及びプログラム
出願人富士通株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06V 10/82 20220101AFI20250716BHJP(計算;計数)
要約【課題】元の画像に含まれる文字や記号との混同を回避したマーキングを付与する。
【解決手段】第1画像から文字又は記号を検出し、検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、前記第1画像を物体に相当する領域毎に分割し、前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する。
【選択図】図3
特許請求の範囲【請求項１】
第１画像から文字又は記号を検出し、
検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、
前記第１画像を物体に相当する領域毎に分割し、
前記第１画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、
前記第１画像に領域の分割結果及び付与されたマーキングが重畳された第２画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する、
ことを含む処理をコンピュータが実行するマーキング方法。
続きを表示（約 720 文字）【請求項２】
前記第１画像から前記文字又は記号を検出することは、前記マーキングに使用する文字又は記号として予め定めた種別の文字又は記号を検出することを含む請求項１に記載のマーキング方法。
【請求項３】
前記検出された数が最小の種別の文字又は記号には、前記予め定めた種別の文字又は記号のうち、検出数が０の種別の文字又は記号を含む請求項２に記載のマーキング方法。
【請求項４】
前記第１画像から前記文字又は記号を検出することは、前記第１画像に物体検出アルゴリズムを適用して、前記予め定めた種別の文字又は記号を含む物体と一致する物体を検出することを含む請求項２又は請求項３に記載のマーキング方法。
【請求項５】
前記大規模マルチモーダルモデルは、前記マーキングに使用する種別の文字又は記号を認識可能な機械学習モデルである請求項１～請求項３のいずれか１項に記載のマーキング方法。
【請求項６】
第１画像から文字又は記号を検出し、
検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、
前記第１画像を物体に相当する領域毎に分割し、
前記第１画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、
前記第１画像に領域の分割結果及び付与されたマーキングが重畳された第２画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する、
ことを含む処理をコンピュータに実行させるためのマーキングプログラム。

発明の詳細な説明【技術分野】
【０００１】
開示の技術は、マーキング方法、及びマーキングプログラムに関する。
続きを表示（約 1,500 文字）【背景技術】
【０００２】
従来、機械学習モデルに入力する画像に対する前処理として、文字や記号等のマーキングを付すことが行われている。例えば、原稿の文書画像から所望の文書要素の箇所のみを取り出して構成した文書画像（サマリや目次）を自動的に作成する文書処理装置が提案されている。この装置は、文書画像を複数の文書要素に分割し、分割された各々の文書要素に、タイトル、著者等の文書要素の意味付けを表す識別子を付与する。そして、この装置は、識別子が付与された要素群から、サマリ作成や目次作成等に必要な識別子を有する要素を抽出し、抽出された要素に対応する部分画像を基に出力画像を生成する。
【０００３】
また、ビジュアルプロンプトにおける画像理解の精度向上を図る技術も提案されている。この技術は、インタラクティブセグメンテーションモデルを使用して、画像を様々な粒度レベルで領域に分割し、各領域にマーキングを付与し、付与した識別子を元の画像に重畳した画像を大規模マルチモーダルモデルへの入力とする。
【先行技術文献】
【特許文献】
【０００４】
特開平５－３４２３２６号公報
【非特許文献】
【０００５】
Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao, "Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V," arXiv:2310.11441v2 [cs.CV] 6 Nov 2023.
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、画像にマーキングを重畳する従来技術では、大規模マルチモーダルモデルにおける画像認識の際に、元の画像に含まれる文字や記号と、付与したマーキングとの混同が生じる可能性がある、という問題がある。この従来技術には、元の画像コンテンツと競合を避けるようなマーキングを付与する旨の記載はあるが、その具体的手法については開示されていない。
【０００７】
また、上記従来技術の文書処理装置は、大規模マルチモーダルモデルを用いたビジュアルプロンプトとは関係ないため、上記の元の画像に含まれる文字や記号と、付与したマーキングとの混同が生じる可能性がある、という問題を解決することができない。
【０００８】
一つの側面として、開示の技術は、元の画像に含まれる文字や記号との混同を回避したマーキングを付与することを目的とする。
【課題を解決するための手段】
【０００９】
一つの態様として、開示の技術は、第１画像から文字又は記号を検出し、検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択する。また、開示の技術は、前記第１画像を物体に相当する領域毎に分割し、前記第１画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与する。そして、開示の技術は、前記第１画像に領域の分割結果及び付与されたマーキングが重畳された第２画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する。
【発明の効果】
【００１０】
一つの側面として、元の画像に含まれる文字や記号との混同を回避したマーキングを付与することができる、という効果を有する。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許