特許ウォッチ

公開番号2025011976
公報種別公開特許公報(A)
公開日2025-01-24
出願番号2023114465
出願日2023-07-12
発明の名称画像処理方法、画像処理装置およびプログラム
出願人日本電信電話株式会社,国立大学法人九州大学
代理人弁理士法人志賀国際特許事務所
主分類G06V 10/82 20220101AFI20250117BHJP(計算;計数)
要約【課題】画像から特定の文字列のみを選択的に消去することを可能にする技術を提供することである。
【解決手段】画像処理方法は、背景抽出部が、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出し、文字列抽出部が、入力画像と背景画像を用いて、文字列を抽出し、文字列消去部が、抽出された文字列の画像から指定の文字列を消去し、再構成部が、背景画像と、指定の文字列が消去された文字列の画像と、を統合する。
【選択図】図10
特許請求の範囲【請求項１】
背景抽出部が、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出し、
文字列抽出部が、前記入力画像と前記背景画像を用いて、前記文字列を抽出し、
文字列消去部が、抽出された前記文字列の画像から指定の文字列を消去し、
再構成部が、前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する、
画像処理方法。
続きを表示（約 1,500 文字）【請求項２】
画像処理装置が、
背景抽出と文字列抽出と文字列消去と再構成の各処理を個別に最適化のため、事前学習を行い、
全処理部の処理を同時に最適化するために、同期学習を行い、
学習された前記背景抽出部と前記文字列抽出部と前記文字列消去部と前記再構成部を用いて、前記入力画像から、前記背景画像と、前記指定の文字列が消去された文字列の画像とを統合して、選択的文字列消去を行う、
請求項１に記載の画像処理方法。
【請求項３】
前記背景抽出部が、学習時、学習用入力画像から、全ての前記文字列が消去された推定背景画像を抽出し、前記推定背景画像と、教師データである背景画像との間の損失関数を用いて、前記背景抽出部のパラメータを学習する、
請求項１に記載の画像処理方法。
【請求項４】
前記文字列抽出部が、学習用入力画像と学習用背景画像を用いて、前記文字列を抽出し、抽出した前記文字列の推定文字列画像と、教師データである文字列画像との間の損失関数を用いて、前記文字列抽出部のパラメータを学習する、
請求項１に記載の画像処理方法。
【請求項５】
前記文字列消去部が、学習用文字列画像から学習用入力ラベルで指定される文字列を消去した消去文字列画像と、学習用消去文字列画像との間の損失関数を用いて、前記文字列消去部のパラメータを学習する、
請求項１に記載の画像処理方法。
【請求項６】
前記再構成部が、前記文字列を含む入力画像から指定の文字列が消去された画像と、前記背景画像とを合成し、前記合成した画像と、学習用目標画像との間の損失関数を用いて、前記再構成部のパラメータを学習する、
請求項１に記載の画像処理方法。
【請求項７】
前記背景抽出部が、学習用入力画像から背景画像を抽出し、
前記文字列抽出部が、前記背景画像と学習用入力画像を用いて、前記文字列の画像の文字列画像を抽出し、
前記再構成部が、前記文字列を含む入力画像から指定の文字列が消去された画像と、前記背景画像とを合成して再構成し、
再構成損失計算部が、前記合成した画像と学習用目標画像との間の再構成損失を計算し、
再構成部係数更新部が、前記再構成損失に基づいて、前記再構成部のパラメータである再構成部係数を更新し、
文字列消去部係数更新部が、学習用文字列画像から学習用入力ラベルで指定される文字列を消去した消去文字列画像と学習用消去文字列画像との間の文字列消去損失関数に基づいて、前記文字列消去部のパラメータである文字列消去部係数を更新し、
文字列抽出部係数更新部が、抽出された前記文字列画像と、学習用文字列画像との間の文字列抽出損失関数に基づいて、前記文字列抽出部のパラメータである文字列抽出部係数を更新し、
背景抽出部係数更新部が、前記背景画像と学習用背景画像との間の背景抽出損失に基づいて、前記背景抽出部のパラメータである背景抽出部係数を更新する、
請求項１に記載の画像処理方法。
【請求項８】
文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出する背景抽出部と、
前記入力画像と前記背景画像を用いて、前記文字列を抽出する文字列抽出部と、
抽出された前記文字列の画像から指定の文字列を消去する文字列消去部と、
前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する再構成部と、
を備える画像処理装置。
【請求項９】
コンピューターを、
請求項８に記載の画像処理装置として機能させるためのプログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、画像処理方法、画像処理装置およびプログラムの技術に関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
テキストが含まれている画像から、テキスト領域を除去ＳＴＲ（Scene Text Removal）する手法の開発が進められている（例えば、非特許文献１、２参照）。
シーンテキスト除去（ＳＴＲ）またはシーンテキスト消しゴムは、シーン画像のテキスト領域を除去するタスクである。ＳＴＲの結果、シーン画像内のテキスト領域は、周囲の領域の一部のように塗りつぶされる。この結果、画像から文字情報が消える。なお、従来のＳＴＲ手法は、シーン画像中の全てのテキスト領域を除去しようと試みる。
【先行技術文献】
【非特許文献】
【０００３】
Nakamura, Zhu, Yanai, Uchida, "Scene text eraser,",Proc. International Conference on Document Analysis and Recognition, (ICDAR), 2017.
Tursun, Zeng, Denman, Sivapalan, Sridharan, Fookes, "MTR-Net: A generic scene text eraser,", Proc. International Conference on Document Analysis and Recognition (ICDAR), 2019.
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来技術では、すべてのシーンテキストを除去するように設計されているため、削除するテキストを選択することができなかった。文字には多くの有用な情報が含まれているため、すべてのシーンテキストを除去することは、大きな情報損失となるという問題がった。
【０００５】
上記事情に鑑み、本発明は、画像から特定の文字列のみを選択的に消去することを可能にする技術を提供することである。
【課題を解決するための手段】
【０００６】
本発明の一態様は、背景抽出部が、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出し、文字列抽出部が、前記入力画像と前記背景画像を用いて、前記文字列を抽出し、文字列消去部が、抽出された前記文字列の画像から指定の文字列を消去し、再構成部が、前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する、画像処理方法である。
【０００７】
本発明の一態様は、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出する背景抽出部と、前記入力画像と前記背景画像を用いて、前記文字列を抽出する文字列抽出部と、抽出された前記文字列の画像から指定の文字列を消去する文字列消去部と、前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する再構成部と、を備える画像処理装置である。
【０００８】
本発明の一態様は、コンピューターを、上述の画像処理装置として機能させるためのプログラムである。
【発明の効果】
【０００９】
本発明により、画像から特定の文字列のみを選択的に消去することを可能にする。
【図面の簡単な説明】
【００１０】
文字列除去例を示す図である。
実施形態の画像処理装置の構成例を示す図である。
実施形態の構成と処理の概要を示す図である。
実施形態で行う処理手順の概要のフローチャートである。
事前学習における第１の処理手順のフローチャートである。
事前学習における第２の処理手順のフローチャートである。
事前学習における第３の処理手順のフローチャートである。
事前学習における第４の処理手順のフローチャートである。
同期学習処理手順のフローチャートである。
選択的文字列消去処理手順のフローチャートである。
学習で使用した画像の一例を示す図である。
評価結果例を示す図である。
評価結果例を示す図である。
定量評価結果例を示す図である。
文字フォント画像データセットを用いた評価結果例を示す図である。
生成した画像例を示す図である。
【発明を実施するための形態】
（【００１１】以降は省略されています）

関連特許