特許ウォッチ

公開番号2025044152
公報種別公開特許公報(A)
公開日2025-04-01
出願番号2024156521
出願日2024-09-10
発明の名称画像解析のための、コンピュータにより実施される方法、データ処理装置、及びコンピュータプログラム
出願人富士通株式会社
代理人弁理士法人ITOH
主分類G06T 7/00 20170101AFI20250325BHJP(計算;計数)
要約【課題】画像解析のための機械学習モデルを訓練する、コンピュータにより実施される方法等を提供する。
【解決手段】方法は、実際の訓練データ及び拡張された訓練データを含む入力訓練データセットを受け取ることと、訓練済みエンコーダを得るよう機械学習モデルのエンコーダを繰り返し訓練することとを有し、繰り返し訓練することは、訓練済み弁別器を得るよう入力訓練データセットを用いて弁別器損失関数を最小化することによって弁別器モデルを訓練し、訓練済み弁別器は、入力データが実際のデータか或いは拡張されたデータかを弁別するよう構成される、ことと、訓練済みエンコーダを得るよう入力訓練データセット及び訓練済み弁別器を用いて弁別器エラーを最大化することによってエンコーダを訓練し、訓練済みエンコーダは、実際のデータ及び拡張されたデータを同じ表現空間に不変的に符号化するよう構成される、こととを含む。
【選択図】図4

特許請求の範囲【請求項１】
画像解析のための機械学習モデルを訓練する、コンピュータにより実施される方法であって、
実際のモダリティに対応する実際の訓練データと、拡張された訓練データとを含む入力訓練データセットを受け取ることと、
訓練済みエンコーダを得るよう前記機械学習モデルのエンコーダを繰り返し訓練することと、を有し、
前記繰り返し訓練することは、
訓練済み弁別器を得るよう前記入力訓練データセットを用いて弁別器損失関数を最小化することによって弁別器モデルを訓練することであり、前記訓練済み弁別器は、入力データが実際のデータか或いは拡張されたデータかを弁別するよう構成される、ことと、
前記訓練済みエンコーダを得るよう前記入力訓練データセット及び前記訓練済み弁別器を用いて弁別器エラーを最大化することによって前記エンコーダを訓練することであり、前記訓練済みエンコーダは、表現が前記実際のモダリティに関する情報を保つように、実際のデータ及び拡張されたデータを実際の表現空間に不変的に符号化するよう構成される、ことと
を有する、
方法。
続きを表示（約 990 文字）【請求項２】
前記機械学習モデルは追加的下流レイヤを更に有し、前記追加的下流レイヤは、前記訓練済みエンコーダとともに、入力データの解析結果を出力するよう訓練によって構成される、
請求項１に記載の方法。
【請求項３】
訓練済みの追加的下流レイヤを得るよう前記入力訓練データセット及び前記訓練済みエンコーダを用いて多目的最適化プロシージャによって前記追加的下流レイヤの反復訓練を更に有する、
請求項２に記載の方法。
【請求項４】
前記追加的下流レイヤはトランスフォーマエンコーダ、リアセンブリモジュール、及び融合モジュールを含む、
請求項２又は３に記載の方法。
【請求項５】
入力画像を受け取ることと、
前記入力画像の解析結果を得るよう訓練済み機械学習モデルを用いて前記入力画像を処理することと、を更に有する
請求項１に記載の方法。
【請求項６】
前記機械学習モデルは水画像のセグメンテーション用であり、前記入力訓練データセットは、実際の訓練用水画像及びシミュレーションされた訓練用水画像とを含む、
請求項１に記載の方法。
【請求項７】
入力された水画像をリアルタイムで受け取ることと、
前記入力された水画像の水域セグメンテーション結果を得るよう訓練済み機械学習モデルを用いて前記入力された水画像を処理することと、を更に有する
請求項６に記載の方法。
【請求項８】
前記水域セグメンテーション結果が閾値を超えるとの決定に応答して、アラームを出力することを更に有する
請求項７に記載の方法。
【請求項９】
前記機械学習モデルは、医用画像のセグメンテーション又は分類用であり、前記入力訓練データセットは、訓練用医用画像及び対応するゲノム訓練データを含む、
請求項１に記載の方法。
【請求項１０】
入力された医用画像をリアルタイムで受け取ることと、
前記入力された医用画像の医用セグメンテーション又は分類結果を得るよう訓練済み機械学習モデルを用いて前記入力されたいよう画像を処理することと、を更に有する
請求項９に記載の方法。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、コンピュータビジョンの分野における画像解析の方法に関係がある。より具体的に、本発明は、画像解析のための機械学習モデルを訓練する方法、画像解析の方法、並びに関連するデータ処理装置、コンピュータプログラム、及びコンピュータ可読記憶媒体に関係がある。
続きを表示（約 2,100 文字）【背景技術】
【０００２】
画像セグメンテーションのコンピュータビジョン技術は、画像内のピクセルの分類及びターゲット領域のマーキング又はマスキングにより画像を画像セグメントに分割するプロセスを指す。画像セグメンテーションは、医用画像解析、無人運転における対象検出、並びに地理及び地質のモニタリングなどの技術分野で広く適用された技術である。
【０００３】
例えば、地理のモニタリングの分野において、洪水の監視は活発に研究されている分野ある。リアルタイムのビデオカメラ映像及び画像データセットの解析による洪水の監視は、通常、セグメンテーション機械学習モデルを必要とする。得られたセグメント又はマスクは洪水の範囲を確定するために使用されることがあり、これは、次いで、緊急警報及び災害管理システムに通知するために使用されることがある。
【０００４】
洪水は、英国で最も一般的な自然災害であり、ヨーロッパで最も被害が大きい自然災害として認識されているところ、近年では、洪水による被害額は推定で数千万ユーロに上っている。洪水検知は重要な安全対策とみなされており、世界中のさまざまな研究グループや技術グループから幅広い関心を集めている。洪水を検知するための既存のアプローチは、一般的に、センサ、衛星画像、ビデオカメラ映像に基づいている。
【０００５】
しかし、センサ及び衛星画像にはいくつかの欠点がある。センサは高価であり、設置が難しいことがある。衛星や航空機による光学技術は、日中にしか使用できないことと、雲や植生の下の洪水をマッピングできないことが障害となっている。ＳＡＲイメージングは、上記の制限の一部を緩和できるかもしれないが、ＳＡＲ衛星のオーバーパスは頻繁ではないため（１日に１回か２回程度）、水位の上昇部分を捉えることはまれである。
【０００６】
結果として、河川ビデオカメラが、人気のある代替手段として登場した。利点としては、ライブ画像を継続的に放送でき、メンテナンスや設置にかかるコストが低く、標準ブロードバンドやモバイルブロードバンドを通じて映像を簡単に通信できることが挙げられる。
【０００７】
河川のビデオカメラ映像を活用するには、通常、水域セグメンテーションモデルを使用する必要がある。図１は、Vandaele, R. et al.（Hydrology and Earth System Sciences. 25. 4435-4453. 10.5194/hess-25-4435-2021）の研究を基に改変された水域セグメンテーションモデルの適用例を示している。パネルＡは河川の画像を示している（元の画像にはカラーデータが含まれていることに留意されたい。）。パネルＢはセグメンテーション結果を示しており、水域セグメンテーションモデルによって水域として分類された懸念領域を白でマスクしている
【０００８】
水域セグメンテーションとの関連で、セグメンテーションの現在の最先端技術は、ネットワークバックボーンとして畳み込みニューラルネットワーク（ＣＮＮ）ベースのモデルであるＰＳＰＮｅｔを使用するＡｑｕａＮＥＴ（Erfani, S. et al，ATLANTIS: A benchmark for semantic segmentation of waterbody images. Environmental Modelling & Software，105333の論文を参照。）を使用して達成されると考えられている。
【０００９】
しかし、水は大きく異なる形で現れることがあるため、全ての形を忠実に表現するのに十分な実データの収集は不可能である。図２は、水域セグメンテーションモデルが遭遇する可能性のある水の画像のさまざまなバリエーションを示している。これには、最良のシナリオと比較した画像品質のバリエーション（ＩＳＯノイズの増加、雨滴によるカメラの視界の遮蔽）、画像取得技術のバリエーション（赤外線照明）、照明品質のバリエーション（反射する水、夜間の画像取得）、降水の有無（雪、雨、霧）、及び関心のある水自体の性質（泥水又は濁った水、泡立った水、物体が沈んでいる水）が含まれる。
【００１０】
従って、理想的な水域セグメンテーションモデルは、推論中に実際の分布内（Ｉｎ－Ｄｉｓｔｒｉｂｕｔｉｏｎ）画像のサブセットにしかアクセスできないにもかかわらず、水が出現する可能性のある全ての分布外（Ｏｕｔ－ｏｆ－Ｄｉｓｔｒｉｂｕｔｉｏｎ，ＯｏＤ）シナリオに一般化される必要がある。ＯｏＤシナリオを合成的にモデル化するシミュレーション又は拡張は、制御された方法で人工画像を生成することにより、このギャップを埋め、データ不足の懸念に対処するのに役立つ。構造的には実際の画像に似ているが、このような人工画像は、データ生成プロセスが実際のデータと根本的に異なるため、モダリティシフトを示す。
（【００１１】以降は省略されています）

関連特許