1080ti だけで、リモートセンシング画像内のピクセルレベルでターゲットを見つけることができます。コードデータセットがオープンソース化されました!

長すぎて読めない

この論文では、新しいタスクである方向リモートセンシング画像セグメンテーション (RRSIS) と、新しい方法である回転マルチスケール相互作用ネットワーク (RMSIN) を紹介します。 RRSIS は、テキスト記述に基づいてリモートセンシング画像内のターゲットオブジェクトのピクセルレベルの位置特定を実現することを目的としています。既存のデータセットのサイズと範囲の制限に対処するために、この論文では、さまざまなスケールと角度を持つ複数の空間解像度とセグメンテーションオブジェクトの画像をカバーする新しい大規模 RRSIS データセット (RRSIS-D) を構築します (現在、公開されています)。

同時に、リモートセンシング画像の複雑さを処理するために、マルチスケール相互作用モジュールと回転畳み込み (オープンソース!) が提案されています。実験では、RMSIN メソッドが RRSIS タスクにおける現在の最先端のメソッドよりも優れていることが示され、将来の研究のための強力なベースラインを提供します。 (1080tiでも動作します!)

論文アドレス: https://arxiv.org/abs/2312.12470

コードアドレス: https://github.com/Lsan2401/RMSIN

研究の背景と意義

方向性リモートセンシング画像セグメンテーション (RRSIS) は、コンピュータービジョンと自然言語処理を組み合わせた最先端のテクノロジです。 RRSIS は、指定されたテキスト記述に基づいて、リモートセンシング画像内のピクセルレベルでターゲットオブジェクトを特定できます。

しかし、RRSIS ミッションの開発は、既存のデータセットのサイズと範囲が限られているために制約を受けています。リモートセンシング画像は特殊な鳥瞰図であるため、自然画像との間には大きな意味的ギャップがあり、対象物体には豊富なスケールと角度のバリエーションがあるため、データセットの注釈付けの難易度が大幅に高まり、多くの人的資源と時間コストが必要になります。これらの要因により、既存のデータセットのサイズと注釈の精度が制限され、重要なタスクで実際に使用するためにモデルをトレーニングするために必要な精度レベルを既存のデータセットが満たせなくなります。

さらに、自然画像の有向セグメンテーション (RIS) に基づく既存の方法は、リモートセンシング画像に適用する場合、限界に直面します。図 1 に示すように、リモートセンシング画像には、一般的にさまざまな大規模な空間変化があり、オブジェクトが複数の方向に現れます。このような大きな意味の違いにより、自然画像でトレーニングされた SOTA 手法は、リモートセンシング画像ではパフォーマンスが低下します。

現在の RIS 手法は、通常、視覚的特徴と言語的特徴の整合に重点を置いています。これらの手法は境界が明確なコンテキストでは優れたパフォーマンスを発揮しますが、リモートセンシング画像の雑然とした非構造化の性質に直面すると、精度が大幅に低下し、RRSIS タスクではパフォーマンスに大きなギャップが生じます。これらの問題を解決するには、リモートセンシング画像に対するより堅牢で包括的なアプローチが必要です。

上記の問題に対処するため、著者らは、以前のデータセットの 3 倍のサイズである新しい大規模 RRSIS データセット RRSIS-D を構築しました。このデータセットは、さまざまな空間解像度の画像をカバーするだけでなく、セグメント化されたターゲットには、大幅なスケールと角度の多様性があります。

同時に、著者らは回転マルチスケール相互作用ネットワーク (RMSIN) を提案しました。 RMSIN の構造には、RRSIS の複雑さに対処するためのマルチスケール相互作用モジュールと回転畳み込みが含まれています。

図 1: リモートセンシング画像セグメンテーションにおける一般的な問題。

具体的には、本研究の貢献は以下のようにまとめることができます。

新しい方向性リモートセンシング画像セグメンテーションベンチマークデータセット RRSIS-D が構築されました。 RRSIS-D は SAM の強力なセグメンテーション機能に基づいており、さまざまな空間解像度とオブジェクトの方向のデータに対応するように手動で調整されています。新しいデータセットは、従来の RIS 手法をリモートセンシング分野に移行するための基盤を提供できます。
リモートセンシング画像に遍在する複数の空間スケールと方向によってもたらされる課題に対処するために、回転マルチスケール相互作用ネットワーク (RMSIN) が提案されています。
レイヤー内スケール相互作用モジュールとレイヤー間スケール相互作用モジュールは、スケール内およびスケール間のきめ細かい情報を処理するように設計されています。同時に、著者らはセグメント化されたデコーダー側で回転適応畳み込みを導入し、モデルの堅牢性を高め、RRSIS における普遍的な回転現象に効果的に対処しました。
広範囲にわたる実験により、この論文の RMSIN は現在の SOTA 方式よりも優れており、さまざまな評価基準で一貫して最高のパフォーマンスを示し、その後の RRSIS 研究のための強力なベースラインを提供することが実証されています。

RRSIS-Dデータセット

著者らは、リモートセンシング画像のセグメンテーション専用の大規模データセット RRSIS-D を提案しました。 Segment Anything Model (SAM) は優れたセグメンテーションパフォーマンスを実現します。著者らは、SAM に基づいて、境界ボックスと SAM を使用してピクセルレベルのマスクを生成する半自動方式を採用し、データセットに注釈を付けることで、注釈付けプロセスのコストを節約しました。

データセット RRSIS-D は、17,402 個の画像-説明-マスクのペアで構成されています。すべての画像の解像度は、高さ 800 ピクセル、幅 800 ピクセルに統一されています。20 個のリモートセンシングシーンと複数のオブジェクトカテゴリが含まれています。画像の説明は、7 つの属性で構成されています。図 2 は、データセットマスクと画像全体のサイズ (θ) の比率と、代表的なデータセットの例を示しています。セグメンテーションターゲットには、非常に大きなスケール変化と非常に小さなスケール変化を持つターゲットが含まれていることがわかります。画像の種類が豊富なため、データセットの作成が困難です。

図 2: データセットマスクと画像の合計サイズの比率を示します。

方法

RMSIN モデルのプロセスを図 3 に示します。与えられた入力画像と説明に対して、説明 E はまずテキストバックボーンを介してテキスト特徴に変換されます。

同時に、画像は Compound Scale Interaction Encoder (CSIE) によって処理され、テキスト機能と相互作用して、十分なセマンティクスを備えた複数のスケールにわたる融合機能を生成します。 CSIE は、スケール内相互作用モジュール (IIM) とスケール間相互作用モジュール (CIM) で構成されています。エンコーダーの各レイヤーでは、スケール内相互作用ブランチが適用されてローカル視覚モデリングが強化され、対称視覚言語融合ブランチによって視覚機能と言語機能が調整されて、その後の画像機能抽出が改善されます。

その後、エンコーダーの各レイヤーの特徴が CIM に渡され、マルチスケールアテンションを通じて情報の相互作用と空間関係の最適化が促進されます。最後に、著者らは、適応回転畳み込み (ARC) に基づく方向認識デコーダー (OAD) を提案し、CSIE の複数の段階からの特徴を並列推論してセグメンテーションマスクを生成します。

図 3: RMSIN モデルプロセスの概略図。

スケール内インタラクションモジュール

エンコーダーの各レイヤーは、スケール内相互作用モジュール (IIM) を通じて各スケール内の豊富な情報をさらにマイニングし、視覚と言語のモダリティ間の相互作用を促進します。 IIM は、次のように表される 4 段階の階層に基づいています。テキストバックボーン（Cはチャネル数を表す）を通じてテキスト特徴を取得した後、ステージiでのIIMの出力特徴は次のように記述できます。

そのうち、ビジュアルバックボーンから抽出したのがI入力です。具体的には、ステージ i では、入力特徴に対してダウンサンプリングと MLP の組み合わせを適用してスケールを縮小し、特徴次元を統一し、を取得します。ダウンサンプリングされた特徴は 2 つのブランチに送られ、それぞれ視覚的な事前分布を強化し、マルチモーダル情報を融合するために使用されます。

さまざまな受容

特徴は、異なる畳み込みカーネルサイズを持つ J 畳み込みブランチを介して変換され、次のように表現できる異なる受容野を持つ特徴が生成されます。

このうち、は畳み込みの j 番目のブランチを表し、 σ はシグモイド関数を表します。この式は、異なる畳み込み設定を使用してすべてのピクセル間で重みをバランスさせる方法を表します。重みは次のように機能を強化します。

出力はビジョンゲートαによって調整され、元の画像特徴のローカルな細粒度情報の補完的な特徴として機能します。ビジュアルゲートの具体的な実装方法は次のとおりです。

。

このうち、LN(⋅)はカーネルサイズが1×1の畳み込みであり、Tanh(⋅)とReLU(⋅)は活性化関数を表しています。

クロスモーダルアライメント

クロスモーダルアライメントブランチは、モデルが自然言語を理解できるようにするための鍵となる、マルチモーダル機能アライメント用に設計されています。具体的には、入力と言語の特徴の場合、まずをクエリとして使用し、をキーと値として使用して、スケールされたドット積アテンションを実装し、マルチモーダル特徴を取得します。

次に、注意をと組み合わせることで、言語誘導画像特徴が得られます。

の出力操作と同様に、得られた出力は言語ゲートβ（Language Gate）によって調整され、補助的な言語特徴として元の画像特徴に追加されます。言語ゲートβの構造は視覚ゲートの構造と同じです。したがって、ステージiにおけるスケール内相互作用モジュールの全体的な出力特性は次のように表すことができます。

クロススケールインタラクションモジュール

著者らは、スケール内特徴相互作用を通じて言語特徴によって導かれるローカルマルチスケール特徴を取得することに基づいて、リモートセンシング画像の大規模な変化に対処するために、粗粒度特徴と細粒度特徴間の相互作用をさらに強化するクロススケール相互作用モジュールを提案している。具体的には、このモジュールは、前述のスケール内相互作用モジュールの各層の出力を入力として受け取り、多段階の相互作用を実行します。まず、マルチスケール特徴結合を実行し、特徴を空間次元で同じサイズにダウンサンプリングし、チャネル次元に沿って接合します。式は次のように表されます。

。

このうち、ダウンサンプリング後の新しい特徴量を表し、ダウンサンプリング（⋅）は平均プーリングによって実装され、チャネル次元に沿って接合されたマルチスケール特徴量、つまり、操作によってチャネル次元で接合されて得られたマルチスケール特徴量を表します。次に、マルチスケールの特徴は、深いマルチスケール相互作用を実現するために異なる受容野に入力され、次のように定義される異なるサイズとステップによって異なるスケールに調整されます。

ここで、は調整されたスケールの数、は m 番目の深さ方向畳み込みのカーネルサイズ、はの高さと重量です。このセットを取得することで、すべての要素を空間次元で平坦化し、マルチスケールの知覚特徴のシーケンスに接合することができます。元の機能をクエリとして使用し、マルチスケール知覚機能をキーと値として使用して、クロススケール注意を実行します。

局所的な詳細をより適切に保存するために、クロススケールアテンション出力に並行して局所的な関係の補正が追加され、クロススケールアテンションの最終出力が得られます。

ここで、DWConv (⋅) は深い畳み込みを表し、Hardswish (⋅) はマルチスケールのローカル情報の抽出を強化するための活性化関数です。

最後に、各部分について、対応する部分からの知覚ゲート正規化が実行され、スケール間の相互作用の重みが得られます。重みは、スケール内の特徴モジュールの出力の補助残差として考慮されます。計算式は以下のとおりです。

で。知覚ゲートの出力は、後続のデコーダーの最終的なマスク予測に使用されます。

適応回転ダイナミック畳み込み

リモートセンシング画像内のオブジェクトインスタンスは通常、異なる方向を示すため、静的な水平畳み込みカーネルを使用してマスクを生成すると、精度が低下する可能性があります。回転した物体の検出に着想を得て、著者らは、セグメンテーションデコーダーで適応回転動的畳み込みを使用して、より優れたマスク予測を実現することを提案しています。

適応回転畳み込みは、入力特徴から角度情報を取得し、畳み込みカーネルの重みパラメータを動的に再パラメータ化して冗長な特徴をフィルタリングします。具体的には、方向の特徴を抽出し、入力に基づいて n 個の角度と対応する重みを予測します。入力Χ、θ、λの予測値は次の通りです: 、

静的畳み込みカーネルの重みは、特徴マップ同次方程式の2次元カーネル空間内の特定の方向のサンプリングポイントからサンプリングされた値と見なすことができます。したがって、畳み込みカーネルの回転は回転再サンプリングプロセスです。具体的には、畳み込みカーネルの重みは、次のように予測角度 (回転ブロック) に応じて再パラメータ化されます。

このうち、は元の畳み込みカーネルのサンプリング点の座標、は座標原点の周りのアフィン変換の回転行列の逆行列、補間 (⋅) は双線形補間によって実現されます。最後に、得られた畳み込みカーネルを使用して特徴をフィルタリングし、重み付けして合計し、方向を認識した特徴を生成します。

トップダウンマスク予測の全体的なプロセスは、次のように要約できます。

、

ここで、Seg（⋅）は、3×3畳み込み層、バッチ正規化層、およびセグメンテーション特徴空間の非線形性を高めるReLU活性化関数で構成される非線形モジュールを指します。 Proj (⋅) は、最終的な特徴をバイナリ分類マスクにマッピングするために使用される線形変換関数です。注目すべきは、入力適応回転動的畳み込み ARC で最適化された特徴が取得され、特徴空間内の方向情報が利用されるため、冗長性が排除され、境界の詳細の精度が向上することです。

実験

実験では、著者らは、RRSIS-D データセット上で RMSIN のパフォーマンスを既存の最先端の自然画像参照画像セグメンテーション手法と比較しました。公平な比較のために、著者はこれらのメソッドの元の実装の詳細に従います。

検証セットでは、RMSIN はすべてのメトリックにおいて比較対象のすべての方法よりも優れています。特に、RMSIN は、最近の最高のパフォーマンスを誇る LAVT 法と比較して、mIoU を 3.54% 向上させます。この大幅な改善は、非常に小さいオブジェクトや回転したオブジェクトなどの複雑なケースを処理する場合に特に顕著で、[email protected]、[email protected]、[email protected] でそれぞれ 5.12%、4.71%、4.25% の改善が見られました。これらの結果は、RMSIN が詳細なローカルおよび特定の方向情報を取得できるため、より正確なセグメンテーションが可能になることを強調しています。

アブレーション

著者らは、RMSIN ネットワークの主要コンポーネントの有効性を評価するために、RRSIS-D でさまざまなアブレーション実験を実施しました。

視覚化

RMSIN を直感的に理解するために、著者らは予測結果をベースラインと定性的に比較しました。図 4 に示すように、RMSIN は、さまざまなスケールのオブジェクトをその表現に基づいて正確に識別する優れた能力を発揮します。さらに、ノイズの多い背景にある小規模なオブジェクトの位置を特定し、さまざまな角度で現れるオブジェクトを堅牢に予測することもできます。対照的に、ベースラインモデルによって生成された予測マスクには、部分的な欠落や明らかなシフトなどの欠陥があります。

図4: RMSINの予測結果とベースラインの定性的な比較。

図 5 では、ARC と CSIE を除去したトレーニング中に RMSIN によって生成された特徴マップを視覚化しています。スケール相互作用と回転畳み込みの助けを借りて、RMSIN が境界情報を正確に取得できることは明らかです。 CSIE のスケール相互作用と ARC の方向抽出により、RMSIN は指定されたターゲットにさらに鮮明に焦点を合わせることができます。最初の行と比較すると、CSIE はより正確なディープセマンティクスを提供しますが、ARC は回転オブジェクトのセグメンテーションに非常に重要な空間事前確率を提供します。

図 5: ARC と CSIE を除去したトレーニング中に RMSIN によって生成された特徴マップ。

結論は

本論文では、RRSIS における複雑な空間スケールと方向の問題に対する新しいソリューションである回転マルチスケール相互作用ネットワーク (RMSIN) を提案します。 RMSIN で導入された「スケール内相互作用モジュール」と「スケール間相互作用モジュール」は、航空写真におけるさまざまな空間スケールの課題に対処するために特別に設計されています。さらに、RMSIN には適応回転畳み込みも統合されており、このような画像のさまざまな方向の特徴を効果的に処理するための強力なソリューションを提供します。新しく開発された包括的な RRSIS-D データセットの広範な検証により、RMSIN の優れたパフォーマンスが実証されています。

<<:

>>: LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない