特許ウォッチ

公開番号2024168754
公報種別公開特許公報(A)
公開日2024-12-05
出願番号2023085680
出願日2023-05-24
発明の名称情報処理装置、セグメンテーション方法、及びプログラム
出願人日本電信電話株式会社,学校法人早稲田大学
代理人弁理士法人ITOH,個人,個人,個人
主分類G06T 7/00 20170101AFI20241128BHJP(計算;計数)
要約【課題】空中画像に対するセグメンテーションを適切に行うための技術を提供する。
【解決手段】画像に対するセグメンテーションを行う情報処理装置であって、前記画像を入力する入力部と、前記画像から得られた複数のレベルの第1特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第2特徴マップを生成し、複数のレベルの前記第2特徴マップからセグメンテーション結果を生成する演算部とを備える。
【選択図】図3
特許請求の範囲【請求項１】
画像に対するセグメンテーションを行う情報処理装置であって、
前記画像を入力する入力部と、
前記画像から得られた複数のレベルの第１特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第２特徴マップを生成し、複数のレベルの前記第２特徴マップからセグメンテーション結果を生成する演算部と
を備える情報処理装置。
続きを表示（約 770 文字）【請求項２】
前記複数のマルチヘッドセルフアテンションモジュールは、カスケード接続されている
請求項１に記載の情報処理装置。
【請求項３】
前記複数のマルチヘッドセルフアテンションモジュールにおける各マルチヘッドセルフアテンションモジュールは、入力される特徴マップを複数のウィンドウに分割し、各ウィンドウでセルフアテンションを計算する
請求項１に記載の情報処理装置。
【請求項４】
カスケード接続される前記複数のマルチヘッドセルフアテンションモジュールにおいて、ある段のマルチヘッドセルフアテンションモジュールにおけるウィンドウのサイズは、当該マルチヘッドセルフアテンションモジュールの後段に接続されるマルチヘッドセルフアテンションモジュールにおけるウィンドウのサイズよりも小さい
請求項３に記載の情報処理装置。
【請求項５】
前記演算部は、特徴ピラミッドネットワークを用いて複数のレベルの前記第１特徴マップを生成する
請求項１に記載の情報処理装置。
【請求項６】
画像に対するセグメンテーションを行う情報処理装置が実行するセグメンテーション方法であって、
前記画像を入力するステップと、
前記画像から得られた複数のレベルの第１特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第２特徴マップを生成し、複数のレベルの前記第２特徴マップからセグメンテーション結果を生成するステップと
を備えるセグメンテーション方法。
【請求項７】
コンピュータを、請求項１ないし５のうちいずれか１項に記載の情報処理装置における各部として機能させるためのプログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、空中画像に対してセグメンテーションを行う技術に関連するものである。
続きを表示（約 1,900 文字）【背景技術】
【０００２】
以下の説明において、参考文献については［１］等の番号で表記し、番号に対応する文献名は明細書の最後に記載した。
【０００３】
高空間解像度(HSR: High Spatial Resolution)リモートセンシング技術が知られている。当該技術により得られた画像には、建物、車両、船舶などを含む、興味の対象物の意味と位置情報を提供する地理空間情報が豊富に含まれているという特徴がある。これらの情報を理解することは、都市の監視、環境変化の監視、災害対応、ルート計画など、さまざまな実用的な目的に不可欠である。
【０００４】
HSRリモートセンシング画像を効果的に活用するために、空中画像セグメンテーションが重要なコンピュータビジョンのタスクとなる。当該タスクは、空中の視点から見た各画像のピクセルに意味ラベルを割り当てる一方で、前景オブジェクトと背景領域を分離（セグメント化）することを目的としている。
【０００５】
近年、多くのVision Transformerベースの手法がセマンティックセグメンテーション分野で提案されている。これらの手法により、微小で曖昧な物体に対して正確な予測を生成することができるが、空中画像における大きなスケール変動の問題を解決できていない。
【０００６】
また、非特許文献２に開示された高密度のアフィニティ学習ベースの手法[9]では、そのセグメンテーション結果は複雑な背景とノイズコンテキストによって劣化する。Pointflow [9]は、空中画像セグメンテーション研究分野におけるSoTAセグメンテーション結果を示す最新の研究であり、非特許文献１に開示された特徴ピラミッドネットワーク(FPN)[4]における隣接するスケール特徴間の顕著な点を選択してマッチさせることによるスパースなアフィニティ学習を採用している。当該技術により、複雑な背景やノイズを扱うことができるが、この方法では、小さなオブジェクトが失われたり、大きなオブジェクトの境界の予測が弱くなったりすることがある。
【先行技術文献】
【非特許文献】
【０００７】
Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 2117-2125, 2017.
Xiangtai Li, Hao He, Xia Li, Duo Li, Guangliang Cheng, Jianping Shi, Lubin Weng, Yunhai Tong, and Zhouchen Lin. Pointflow: Flowing semantics through points for aerial image segmentation. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), 2021
【発明の概要】
【発明が解決しようとする課題】
【０００８】
従来のセマンティックセグメンテーション技術では、空中画像に対するセグメンテーション（領域識別）を適切に行うことができないという課題がある。
【０００９】
本発明は上記の点に鑑みてなされたものであり、空中画像に対するセグメンテーションを適切に行うための技術を提供することを目的とする。
【課題を解決するための手段】
【００１０】
開示の技術によれば、画像に対するセグメンテーションを行う情報処理装置であって、
前記画像を入力する入力部と、
前記画像から得られた複数のレベルの第１特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第２特徴マップを生成し、複数のレベルの前記第２特徴マップからセグメンテーション結果を生成する演算部と
を備える情報処理装置が提供される。
【発明の効果】
（【００１１】以降は省略されています）

関連特許