TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025108996
公報種別
公開特許公報(A)
公開日
2025-07-24
出願番号
2024002621
出願日
2024-01-11
発明の名称
マーキング方法及びプログラム
出願人
富士通株式会社
代理人
弁理士法人太陽国際特許事務所
主分類
G06V
10/82 20220101AFI20250716BHJP(計算;計数)
要約
【課題】元の画像に含まれる文字や記号との混同を回避したマーキングを付与する。
【解決手段】第1画像から文字又は記号を検出し、検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、前記第1画像を物体に相当する領域毎に分割し、前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する。
【選択図】図3
特許請求の範囲
【請求項1】
第1画像から文字又は記号を検出し、
検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、
前記第1画像を物体に相当する領域毎に分割し、
前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、
前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する、
ことを含む処理をコンピュータが実行するマーキング方法。
続きを表示(約 720 文字)
【請求項2】
前記第1画像から前記文字又は記号を検出することは、前記マーキングに使用する文字又は記号として予め定めた種別の文字又は記号を検出することを含む請求項1に記載のマーキング方法。
【請求項3】
前記検出された数が最小の種別の文字又は記号には、前記予め定めた種別の文字又は記号のうち、検出数が0の種別の文字又は記号を含む請求項2に記載のマーキング方法。
【請求項4】
前記第1画像から前記文字又は記号を検出することは、前記第1画像に物体検出アルゴリズムを適用して、前記予め定めた種別の文字又は記号を含む物体と一致する物体を検出することを含む請求項2又は請求項3に記載のマーキング方法。
【請求項5】
前記大規模マルチモーダルモデルは、前記マーキングに使用する種別の文字又は記号を認識可能な機械学習モデルである請求項1~請求項3のいずれか1項に記載のマーキング方法。
【請求項6】
第1画像から文字又は記号を検出し、
検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、
前記第1画像を物体に相当する領域毎に分割し、
前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、
前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する、
ことを含む処理をコンピュータに実行させるためのマーキングプログラム。
発明の詳細な説明
【技術分野】
【0001】
開示の技術は、マーキング方法、及びマーキングプログラムに関する。
続きを表示(約 1,500 文字)
【背景技術】
【0002】
従来、機械学習モデルに入力する画像に対する前処理として、文字や記号等のマーキングを付すことが行われている。例えば、原稿の文書画像から所望の文書要素の箇所のみを取り出して構成した文書画像(サマリや目次)を自動的に作成する文書処理装置が提案されている。この装置は、文書画像を複数の文書要素に分割し、分割された各々の文書要素に、タイトル、著者等の文書要素の意味付けを表す識別子を付与する。そして、この装置は、識別子が付与された要素群から、サマリ作成や目次作成等に必要な識別子を有する要素を抽出し、抽出された要素に対応する部分画像を基に出力画像を生成する。
【0003】
また、ビジュアルプロンプトにおける画像理解の精度向上を図る技術も提案されている。この技術は、インタラクティブセグメンテーションモデルを使用して、画像を様々な粒度レベルで領域に分割し、各領域にマーキングを付与し、付与した識別子を元の画像に重畳した画像を大規模マルチモーダルモデルへの入力とする。
【先行技術文献】
【特許文献】
【0004】
特開平5-342326号公報
【非特許文献】
【0005】
Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao, "Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V," arXiv:2310.11441v2 [cs.CV] 6 Nov 2023.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、画像にマーキングを重畳する従来技術では、大規模マルチモーダルモデルにおける画像認識の際に、元の画像に含まれる文字や記号と、付与したマーキングとの混同が生じる可能性がある、という問題がある。この従来技術には、元の画像コンテンツと競合を避けるようなマーキングを付与する旨の記載はあるが、その具体的手法については開示されていない。
【0007】
また、上記従来技術の文書処理装置は、大規模マルチモーダルモデルを用いたビジュアルプロンプトとは関係ないため、上記の元の画像に含まれる文字や記号と、付与したマーキングとの混同が生じる可能性がある、という問題を解決することができない。
【0008】
一つの側面として、開示の技術は、元の画像に含まれる文字や記号との混同を回避したマーキングを付与することを目的とする。
【課題を解決するための手段】
【0009】
一つの態様として、開示の技術は、第1画像から文字又は記号を検出し、検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択する。また、開示の技術は、前記第1画像を物体に相当する領域毎に分割し、前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与する。そして、開示の技術は、前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する。
【発明の効果】
【0010】
一つの側面として、元の画像に含まれる文字や記号との混同を回避したマーキングを付与することができる、という効果を有する。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
医用画像処理方法
12日前
富士通株式会社
転倒検出方法及び装置
4日前
富士通株式会社
制御装置及び基地局制御方法
19日前
富士通株式会社
マーキング方法及びプログラム
25日前
富士通株式会社
量子ビットデバイスの製造方法
18日前
富士通株式会社
データ転送制御装置および情報処理装置
4日前
富士通株式会社
データ転送制御装置および情報処理装置
4日前
富士通株式会社
学習プログラム、学習方法および情報処理装置
18日前
富士通株式会社
学習プログラム、学習方法、及び情報処理装置
3日前
富士通株式会社
描画プログラム、描画方法および情報処理装置
14日前
富士通株式会社
データ処理装置、プログラム及びデータ処理方法
13日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
11日前
富士通株式会社
電源制御回路,情報処理装置および電源制御方法
今日
富士通株式会社
表示制御プログラム、表示制御方法及び情報処理装置
11日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
6日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
13日前
富士通株式会社
調達管理プログラム,調達管理方法,及び情報処理装置
6日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
14日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
17日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
17日前
富士通株式会社
カメラ制御プログラム、カメラ制御方法及び情報処理装置
25日前
富士通株式会社
カメラ制御プログラム、カメラ制御方法及び情報処理装置
25日前
富士通株式会社
量子演算評価プログラム、量子演算評価方法および情報処理装置
17日前
富士通株式会社
量子計算支援プログラム、量子計算支援方法、および情報処理装置
17日前
個人
対話装置
2か月前
個人
情報処理装置
2か月前
個人
裁判のAI化
1か月前
個人
情報処理システム
1か月前
個人
フラワーコートA
11日前
個人
工程設計支援装置
3日前
個人
記入設定プラグイン
1か月前
個人
検査システム
1か月前
個人
情報処理装置
2か月前
個人
介護情報提供システム
18日前
個人
設計支援システム
24日前
個人
携帯情報端末装置
4日前
続きを見る
他の特許を見る