ビジュアルMambaモデルのSwinの瞬間：中国科学院、HuaweiなどがVMambaを発表

大型模型の分野におけるトランスフォーマーの地位は揺るぎない。しかし、モデルのサイズが拡大し、処理する必要があるシーケンスが長くなるにつれて、この大規模 AI モデルの主流のアーキテクチャの制限がますます顕著になってきました。 Mamba の出現は、これらすべてを強力に変えています。その優れたパフォーマンスは、すぐに AI 界を沸かせました。

先週の木曜日、Vision Mamba (Vim) が発表され、ビジョンベースモデルの次世代バックボーンとなる大きな可能性を示しました。わずか 1 日後、中国科学院、Huawei、Pengcheng Laboratory の研究者らが、グローバル受容野と線形複雑性を備えた視覚的な Mamba モデルである VMamba を提案しました。この作品は、Visual Mamba モデルにとって Swin の瞬間を象徴するものです。

論文タイトル: VMamba: 視覚状態空間モデル
論文アドレス: https://arxiv.org/abs/2401.10166
コードアドレス: https://github.com/MzeroMiko/VMamba

CNN と Visual Transformer (ViT) は現在、最も主流の 2 つの基本視覚モデルです。 CNN には線形複雑性がありますが、ViT はより強力なデータフィッティング機能を備えていますが、計算の複雑性が高くなります。研究者たちは、ViT が強力なフィッティング能力を持つ理由は、グローバル受容野と動的重みを備えているためだと考えています。 Mamba モデルにヒントを得て、研究者たちは線形複雑性の下でこれら 2 つの優れた特性を両方とも備えたモデル、つまり Visual State Space Model (VMamba) を設計しました。広範囲にわたる実験により、VMamba がさまざまな視覚タスクで優れたパフォーマンスを発揮することが実証されています。下の図に示すように、VMamba-S は ImageNet-1K で 83.5% の精度を達成しており、これは Vim-S よりも 3.2%、Swin-S よりも 0.5% 高い数値です。

方法の紹介

VMamba の成功の鍵は、選択スキャン空間状態シーケンシャルモデル (S6 モデル) の使用にあります。このモデルはもともと、自然言語処理 (NLP) タスクを解決するために設計されました。 ViT の注意メカニズムとは異なり、S6 は 1D ベクトル (テキストシーケンスなど) の各要素をその前にスキャンされた情報と相互作用させ、実質的に 2 次複雑度を線形に削減します。

しかし、視覚信号（画像など）はテキストシーケンスのような自然な順序を持たないため、S6 のデータスキャン方法を視覚信号に直接適用することはできません。この目的のために、研究者はクロススキャンスキャン機構を設計しました。クロススキャンモジュール (CSM) は、4 方向スキャン戦略、つまり特徴マップの 4 つのコーナーから同時にスキャンする戦略を採用しています (上図を参照)。この戦略により、フィーチャ内の各要素がさまざまな方向にある他のすべての位置からの情報を統合し、線形計算の複雑さを増大させることなくグローバル受容フィールドを形成することが保証されます。

著者らは CSM に基づいて 2D 選択スキャン (SS2D) モジュールを設計しました。上の図に示すように、SS2D は次の 3 つのステップで構成されます。

スキャン拡張は、2D フィーチャを 4 つの異なる方向 (左上、右下、左下、右上) に沿って 1D ベクトルに平坦化します。
S6 ブロックは、前のステップで取得した 4 つの 1D ベクトルを個別に S6 操作に入力します。
スキャンマージは、取得した 4 つの 1D ベクトルを 2D フィーチャ出力に融合します。

上図は、この記事で提案する VMamba 構造図です。 VMamba の全体的なフレームワークは主流のビジュアルモデルに似ていますが、主な違いは基本モジュール (VSS ブロック) で使用されるさまざまな演算子にあります。 VSS ブロックは、上で紹介した 2D 選択スキャン操作、つまり SS2D を使用します。 SS2D は、線形複雑性を犠牲にして VMamba がグローバル受容野を実現することを保証します。

実験結果

ImageNet分類

実験結果を比較すると、同様のパラメータと FLOP の場合、次のことが容易にわかります。

VMamba-T は82.2% のパフォーマンスを達成し、RegNetY-4G を 2.2%、DeiT-S を 2.4%、Swin-T を 0.9% 上回りました。
VMamba-S は83.5% のパフォーマンスを達成し、RegNetY-8G を 1.8%、Swin-S を 0.5% 上回りました。
VMamba-B は83.2% のパフォーマンスを達成しました (バグがあります。正しい結果はできるだけ早く Github ページに更新されます)。これは RegNetY よりも 0.3% 高い値です。

これらの結果は Vision Mamba (Vim) モデルよりもはるかに高く、VMamba の潜在能力を十分に検証しています。

COCO オブジェクト検出

COOCO データセットでも、VMamba は優れたパフォーマンスを維持しています。12 エポックの微調整後、VMamba-T/S/B はそれぞれ 46.5%/48.2%/48.5% mAP を達成し、Swin-T/S/B を 3.8%/3.6%/1.6% mAP、ConvNeXt-T/S/B を 2.3%/2.8%/1.5% mAP 上回りました。これらの結果は、VMamba が下流の視覚実験で完全に機能し、主流の基本視覚モデルを置き換える可能性を実証していることを証明しています。

ADE20Kセマンティックセグメンテーション

ADE20K でも、VMamba は優れたパフォーマンスを発揮します。 VMamba-T モデルは、512 × 512 解像度で 47.3% mIoU を達成し、ResNet、DeiT、Swin、ConvNeXt を含むすべての競合製品を上回るスコアを達成しました。この利点は、VMamba-S/B モデルでも維持されます。

分析実験

有効受容野

VMamba にはグローバルな有効受容野があり、他のモデルの中では DeiT だけがこの機能を備えています。ただし、DeiT のコストは 2 次複雑度であるのに対し、VMamaba は線形複雑度であることは注目に値します。

入力スケーリング

上図 (a) は、VMamba がさまざまな入力画像サイズで (微調整なしで) 最も安定したパフォーマンスを発揮することを示しています。興味深いことに、入力サイズが 224 × 224 から 384 × 384 に増加すると、VMamba のみがパフォーマンスの明確な上昇傾向を示し (VMamba-S は 83.5% から 84.0% に増加)、入力画像サイズの変化に対する堅牢性が強調されます。
上図(b)は、VMambaシリーズモデルの複雑さは入力が大きくなるにつれて直線的に増加することを示しており、これはCNNモデルと一致しています。

最後に、CNN や ViT と並んで、より多くの Mamba ベースのビジョンモデルが提案され、基本的なビジョンモデルの 3 番目のオプションが提供されることが期待されます。

<<:

>>: