TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025163332
公報種別公開特許公報(A)
公開日2025-10-29
出願番号2024066470
出願日2024-04-17
発明の名称画像処理装置、画像処理システム、出力装置、画像処理方法、及び画像処理プログラム
出願人シャープ株式会社
代理人個人,個人,個人
主分類G06V 30/194 20220101AFI20251022BHJP(計算;計数)
要約【課題】特定文字の認識精度を向上させることが可能な画像処理装置、画像処理システム、出力装置、画像処理方法、及び画像処理プログラムを提供する。
【解決手段】画像処理装置1は、文字画像データを取得する取得処理部111と、文字画像データに対して所定の拡張処理を実行して学習用データを生成する生成処理部112とを備える。生成処理部112は、文字画像データが特定文字である場合に、特定文字に対して、特定文字以外の文字画像データに対する拡張処理とは異なる拡張処理を実行して学習用データを生成する。
【選択図】図1
特許請求の範囲【請求項1】
文字画像データを取得する取得処理部と、
前記文字画像データに対して所定の拡張処理を実行して学習用データを生成する生成処理部と、
を備え、
前記生成処理部は、前記文字画像データが特定文字である場合に、前記特定文字に対して、前記特定文字以外の前記文字画像データに対する拡張処理とは異なる拡張処理を実行して前記学習用データを生成する、画像処理装置。
続きを表示(約 1,000 文字)【請求項2】
前記生成処理部は、前記特定文字に背景画像を合成する合成処理、又は、前記特定文字を回転させる回転処理について、前記特定文字以外の前記文字画像データに対する処理とは異なる処理を実行する、
請求項1に記載の画像処理装置。
【請求項3】
前記生成処理部は、前記文字画像データが直線状の部位を含む前記特定文字である場合に、直線状の画像を含む背景画像を合成する前記合成処理を実行しないで前記学習用データを生成する、
請求項2に記載の画像処理装置。
【請求項4】
前記生成処理部は、前記文字画像データが直線状の部位を含む前記特定文字である場合に、前記特定文字の種別に応じた角度範囲で前記回転処理を実行して前記学習用データを生成する、
請求項2に記載の画像処理装置。
【請求項5】
前記特定文字は、帳票の所定の項目に記載される手書き文字である、
請求項1に記載の画像処理装置。
【請求項6】
前記特定文字は、前記帳票の金額欄又は日付け欄に記載される手書き文字である、
請求項5に記載の画像処理装置。
【請求項7】
前記生成処理部は、前記文字画像データに前記拡張処理を施した拡張データを、機械学習に利用される前記学習用データとして生成する、
請求項1~6のいずれかに記載の画像処理装置。
【請求項8】
請求項7に記載の画像処理装置と、
前記画像処理装置により生成される前記学習用データを用いて機械学習を行うことにより学習済みモデルを生成する学習装置と、
を備える画像処理システム。
【請求項9】
請求項8に記載の学習装置により生成される前記学習済みモデルを用いて、入力画像に対して文字認識処理を実行し、文字認識結果を出力する出力装置。
【請求項10】
文字画像データを取得することと、
前記文字画像データに対して所定の拡張処理を実行して学習用データを生成すること、
前記文字画像データが特定文字である場合に、前記特定文字に対して、前記特定文字以外の前記文字画像データに対する拡張処理とは異なる拡張処理を実行して前記学習用データを生成することと、
を一又は複数のプロセッサーが実行する画像処理方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、画像に対して文字認識等の画像処理を実行する技術に関する。
続きを表示(約 1,400 文字)【背景技術】
【0002】
従来、文書、帳票等の書類の画像から文字列を抽出する技術が知られている。例えば、領収書などの帳票に手書きされた文字の認識精度を高めるために、入力画像に対してノイズを付与(データ拡張;Data Augmentation)した学習用データを生成する技術が知られている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
特開2022-191771号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、従来の技術では、例えば特定の文字について、データ拡張した前記学習用データが悪影響して認識精度が低下する問題が生じる。例えば、数字の「7」に対して、横線(下線、罫線など)の背景画像を付与した学習用データを生成すると、入力画像「7」をOCR処理した場合に「2」と誤認識してしまう問題が生じる。
【0005】
本開示の目的は、特定文字の認識精度を向上させることが可能な画像処理装置、画像処理システム、出力装置、画像処理方法、及び画像処理プログラムを提供することにある。
【課題を解決するための手段】
【0006】
本開示の一の態様に係る画像処理装置は、取得処理部と生成処理部とを備える。前記取得処理部は、文字画像データを取得する。前記生成処理部は、前記文字画像データに対して所定の拡張処理を実行して学習用データを生成する。また、前記生成処理部は、前記生成処理部は、前記文字画像データが特定文字である場合に、前記特定文字に対して、前記特定文字以外の前記文字画像データに対する拡張処理とは異なる拡張処理を実行して前記学習用データを生成する。
【0007】
本開示の一の態様に係る画像処理システムは、前記画像処理装置と、前記画像処理装置により生成される前記学習用データを用いて機械学習を行うことにより学習済みモデルを生成する学習装置と、を備える。
【0008】
本開示の他の態様に係る出力装置は、前記学習装置により生成される前記学習済みモデルを用いて、入力画像に対して文字認識処理を実行し、文字認識結果を出力する。
【0009】
本開示の他の態様に係る画像処理方法は、文字画像データを取得することと、前記文字画像データに対して所定の拡張処理を実行して学習用データを生成すること、前記文字画像データが特定文字である場合に、前記特定文字に対して、前記特定文字以外の前記文字画像データに対する拡張処理とは異なる拡張処理を実行して前記学習用データを生成することと、を一又は複数のプロセッサーが実行する画像処理方法である。
【0010】
本開示の他の態様に係る画像処理プログラムは、文字画像データを取得することと、前記文字画像データに対して所定の拡張処理を実行して学習用データを生成すること、前記文字画像データが特定文字である場合に、前記特定文字に対して、前記特定文字以外の前記文字画像データに対する拡張処理とは異なる拡張処理を実行して前記学習用データを生成することと、を一又は複数のプロセッサーに実行させるための画像処理プログラムである。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

シャープ株式会社
筐体構造
11日前
シャープ株式会社
通信端末
20日前
シャープ株式会社
表示装置
26日前
シャープ株式会社
加熱機器
11日前
シャープ株式会社
端末装置
13日前
シャープ株式会社
端末装置
18日前
シャープ株式会社
走行装置
18日前
シャープ株式会社
表示装置
12日前
シャープ株式会社
画像形成装置
13日前
シャープ株式会社
アンテナ装置
12日前
シャープ株式会社
画像形成装置
25日前
シャープ株式会社
画像形成装置
6日前
シャープ株式会社
画像形成装置
6日前
シャープ株式会社
イオン発生装置
18日前
シャープ株式会社
緩衝材及び梱包体
13日前
シャープ株式会社
回収装置及び清掃具
1か月前
シャープ株式会社
回収装置及び清掃具
1か月前
シャープ株式会社
回収装置及び清掃具
1か月前
シャープ株式会社
端末装置および通信方法
19日前
シャープ株式会社
通信装置および制御方法
27日前
シャープ株式会社
トナー及びその製造方法
25日前
シャープ株式会社
端末装置および測定方法
8日前
シャープ株式会社
端末および端末の制御方法
25日前
シャープ株式会社
決済システム及び決済方法
14日前
シャープ株式会社
情報処理装置及び設定方法
11日前
シャープ株式会社
補助電源回路および電源装置
28日前
シャープ株式会社
動画像符号化装置、復号装置
11日前
シャープ株式会社
定着装置および画像形成装置
19日前
シャープ株式会社
動画像符号化装置、復号装置
14日前
シャープ株式会社
給紙装置および画像形成装置
19日前
シャープ株式会社
端末装置、および、基地局装置
13日前
シャープ株式会社
端末装置、および、基地局装置
19日前
シャープ株式会社
端末装置、方法、および集積回路
1か月前
シャープ株式会社
端末装置、方法、および集積回路
1か月前
シャープ株式会社
端末装置、方法、および集積回路
1か月前
シャープ株式会社
給油管理装置、及び給油システム
11日前
続きを見る