TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025108996
公報種別
公開特許公報(A)
公開日
2025-07-24
出願番号
2024002621
出願日
2024-01-11
発明の名称
マーキング方法及びプログラム
出願人
富士通株式会社
代理人
弁理士法人太陽国際特許事務所
主分類
G06V
10/82 20220101AFI20250716BHJP(計算;計数)
要約
【課題】元の画像に含まれる文字や記号との混同を回避したマーキングを付与する。
【解決手段】第1画像から文字又は記号を検出し、検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、前記第1画像を物体に相当する領域毎に分割し、前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する。
【選択図】図3
特許請求の範囲
【請求項1】
第1画像から文字又は記号を検出し、
検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、
前記第1画像を物体に相当する領域毎に分割し、
前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、
前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する、
ことを含む処理をコンピュータが実行するマーキング方法。
続きを表示(約 720 文字)
【請求項2】
前記第1画像から前記文字又は記号を検出することは、前記マーキングに使用する文字又は記号として予め定めた種別の文字又は記号を検出することを含む請求項1に記載のマーキング方法。
【請求項3】
前記検出された数が最小の種別の文字又は記号には、前記予め定めた種別の文字又は記号のうち、検出数が0の種別の文字又は記号を含む請求項2に記載のマーキング方法。
【請求項4】
前記第1画像から前記文字又は記号を検出することは、前記第1画像に物体検出アルゴリズムを適用して、前記予め定めた種別の文字又は記号を含む物体と一致する物体を検出することを含む請求項2又は請求項3に記載のマーキング方法。
【請求項5】
前記大規模マルチモーダルモデルは、前記マーキングに使用する種別の文字又は記号を認識可能な機械学習モデルである請求項1~請求項3のいずれか1項に記載のマーキング方法。
【請求項6】
第1画像から文字又は記号を検出し、
検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、
前記第1画像を物体に相当する領域毎に分割し、
前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、
前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する、
ことを含む処理をコンピュータに実行させるためのマーキングプログラム。
発明の詳細な説明
【技術分野】
【0001】
開示の技術は、マーキング方法、及びマーキングプログラムに関する。
続きを表示(約 1,500 文字)
【背景技術】
【0002】
従来、機械学習モデルに入力する画像に対する前処理として、文字や記号等のマーキングを付すことが行われている。例えば、原稿の文書画像から所望の文書要素の箇所のみを取り出して構成した文書画像(サマリや目次)を自動的に作成する文書処理装置が提案されている。この装置は、文書画像を複数の文書要素に分割し、分割された各々の文書要素に、タイトル、著者等の文書要素の意味付けを表す識別子を付与する。そして、この装置は、識別子が付与された要素群から、サマリ作成や目次作成等に必要な識別子を有する要素を抽出し、抽出された要素に対応する部分画像を基に出力画像を生成する。
【0003】
また、ビジュアルプロンプトにおける画像理解の精度向上を図る技術も提案されている。この技術は、インタラクティブセグメンテーションモデルを使用して、画像を様々な粒度レベルで領域に分割し、各領域にマーキングを付与し、付与した識別子を元の画像に重畳した画像を大規模マルチモーダルモデルへの入力とする。
【先行技術文献】
【特許文献】
【0004】
特開平5-342326号公報
【非特許文献】
【0005】
Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao, "Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V," arXiv:2310.11441v2 [cs.CV] 6 Nov 2023.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、画像にマーキングを重畳する従来技術では、大規模マルチモーダルモデルにおける画像認識の際に、元の画像に含まれる文字や記号と、付与したマーキングとの混同が生じる可能性がある、という問題がある。この従来技術には、元の画像コンテンツと競合を避けるようなマーキングを付与する旨の記載はあるが、その具体的手法については開示されていない。
【0007】
また、上記従来技術の文書処理装置は、大規模マルチモーダルモデルを用いたビジュアルプロンプトとは関係ないため、上記の元の画像に含まれる文字や記号と、付与したマーキングとの混同が生じる可能性がある、という問題を解決することができない。
【0008】
一つの側面として、開示の技術は、元の画像に含まれる文字や記号との混同を回避したマーキングを付与することを目的とする。
【課題を解決するための手段】
【0009】
一つの態様として、開示の技術は、第1画像から文字又は記号を検出し、検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択する。また、開示の技術は、前記第1画像を物体に相当する領域毎に分割し、前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与する。そして、開示の技術は、前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する。
【発明の効果】
【0010】
一つの側面として、元の画像に含まれる文字や記号との混同を回避したマーキングを付与することができる、という効果を有する。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
富士通株式会社
測定装置
2か月前
富士通株式会社
医用画像処理方法
1か月前
富士通株式会社
転倒検出方法及び装置
25日前
富士通株式会社
ハイブリッド光増幅器
7日前
富士通株式会社
量子デバイスの製造方法
19日前
富士通株式会社
信号相関量の確定装置と方法
2か月前
富士通株式会社
データセット特徴タイプ推論
2か月前
富士通株式会社
制御装置及び基地局制御方法
1か月前
富士通株式会社
マーキング方法及びプログラム
1か月前
富士通株式会社
量子ビットデバイスの製造方法
1か月前
富士通株式会社
光伝送装置および光伝送システム
2か月前
富士通株式会社
双方向光リンクの異常モニタリング
2か月前
富士通株式会社
ポイントクラウドレジストレーション
19日前
富士通株式会社
バイアスのための生成人工知能の検査
2か月前
富士通株式会社
制御プログラム、制御方法及び決済装置
2か月前
富士通株式会社
視線誘導方法および視線誘導プログラム
14日前
富士通株式会社
情報処理プログラムおよび情報処理方法
2か月前
富士通株式会社
データ転送制御装置および情報処理装置
25日前
富士通株式会社
データ転送制御装置および情報処理装置
25日前
富士通株式会社
大規模言語モデルを使用したデータ調整
2か月前
富士通株式会社
選択プログラム、選択装置、及び選択方法
2か月前
富士通株式会社
圧縮プログラム、圧縮方法および圧縮装置
2か月前
富士通株式会社
量子デバイス及び量子デバイスの制御方法
1か月前
富士通株式会社
無線アクセスネットワークプロビジョニング
2か月前
富士通株式会社
赤外線センサ、及び赤外線センサの製造方法
2か月前
富士通株式会社
広告画像を生成する方法、装置及び記憶媒体
2か月前
富士通株式会社
光送信機サブ信号光位相差の確定装置と方法
2か月前
富士通株式会社
生成人工知能を使用したデータセット符号化
今日
富士通株式会社
推定プログラム、推定方法および情報処理装置
12日前
富士通株式会社
描画プログラム、描画方法および情報処理装置
1か月前
富士通株式会社
学習プログラム、学習方法、及び情報処理装置
24日前
富士通株式会社
画像を記述する構造化テキストを生成する方法
13日前
富士通株式会社
学習プログラム、学習方法および情報処理装置
1か月前
富士通株式会社
推定プログラム、推定方法および情報処理装置
18日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
2か月前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
1か月前
続きを見る
他の特許を見る