ビジュアルMambaモデルのSwinの瞬間:中国科学院、HuaweiなどがVMambaを発表

ビジュアルMambaモデルのSwinの瞬間:中国科学院、HuaweiなどがVMambaを発表

大型模型の分野におけるトランスフォーマーの地位は揺るぎない。しかし、モデルのサイズが拡大し、処理する必要があるシーケンスが長くなるにつれて、この大規模 AI モデルの主流のアーキテクチャの制限がますます顕著になってきました。 Mamba の出現は、これらすべてを強力に変えています。その優れたパフォーマンスは、すぐに AI 界を沸かせました。

先週の木曜日、Vision Mamba (Vim) が発表され、ビジョンベース モデルの次世代バックボーンとなる大きな可能性を示しました。わずか 1 日後、中国科学院、Huawei、Pengcheng Laboratory の研究者らが、グローバル受容野と線形複雑性を備えた視覚的な Mamba モデルである VMamba を提案しました。この作品は、Visual Mamba モデルにとって Swin の瞬間を象徴するものです。


  • 論文タイトル: VMamba: 視覚状態空間モデル
  • 論文アドレス: https://arxiv.org/abs/2401.10166
  • コードアドレス: https://github.com/MzeroMiko/VMamba

CNN と Visual Transformer (ViT) は現在、最も主流の 2 つの基本視覚モデルです。 CNN には線形複雑性がありますが、ViT はより強力なデータ フィッティング機能を備えていますが、計算の複雑性が高くなります。研究者たちは、ViT が強力なフィッティング能力を持つ理由は、グローバル受容野と動的重みを備えているためだと考えています。 Mamba モデルにヒントを得て、研究者たちは線形複雑性の下でこれら 2 つの優れた特性を両方とも備えたモデル、つまり Visual State Space Model (VMamba) を設計しました。広範囲にわたる実験により、VMamba がさまざまな視覚タスクで優れたパフォーマンスを発揮することが実証されています。下の図に示すように、VMamba-S は ImageNet-1K で 83.5% の精度を達成しており、これは Vim-S よりも 3.2%、Swin-S よりも 0.5% 高い数値です。

方法の紹介

VMamba の成功の鍵は、選択スキャン空間状態シーケンシャル モデル (S6 モデル) の使用にあります。このモデルはもともと、自然言語処理 (NLP) タスクを解決するために設計されました。 ViT の注意メカニズムとは異なり、S6 は 1D ベクトル (テキスト シーケンスなど) の各要素をその前にスキャンされた情報と相互作用させ、実質的に 2 次複雑度を線形に削減します。

しかし、視覚信号(画像など)はテキストシーケンスのような自然な順序を持たないため、S6 のデータスキャン方法を視覚信号に直接適用することはできません。この目的のために、研究者はクロススキャンスキャン機構を設計しました。クロススキャン モジュール (CSM) は、4 方向スキャン戦略、つまり特徴マップの 4 つのコーナーから同時にスキャンする戦略を採用しています (上図を参照)。この戦略により、フィーチャ内の各要素がさまざまな方向にある他のすべての位置からの情報を統合し、線形計算の複雑さを増大させることなくグローバル受容フィールドを形成することが保証されます。

著者らは CSM に基づいて 2D 選択スキャン (SS2D) モジュールを設計しました。上の図に示すように、SS2D は次の 3 つのステップで構成されます。

  • スキャン拡張は、2D フィーチャを 4 つの異なる方向 (左上、右下、左下、右上) に沿って 1D ベクトルに平坦化します。
  • S6 ブロックは、前のステップで取得した 4 つの 1D ベクトルを個別に S6 操作に入力します。
  • スキャンマージは、取得した 4 つの 1D ベクトルを 2D フィーチャ出力に融合します。

上図は、この記事で提案する VMamba 構造図です。 VMamba の全体的なフレームワークは主流のビジュアル モデルに似ていますが、主な違いは基本モジュール (VSS ブロック) で使用されるさまざまな演算子にあります。 VSS ブロックは、上で紹介した 2D 選択スキャン操作、つまり SS2D を使用します。 SS2D は、線形複雑性を犠牲にして VMamba がグローバル受容野を実現することを保証します。

実験結果

ImageNet分類

実験結果を比較すると、同様のパラメータと FLOP の場合、次のことが容易にわかります。

  • VMamba-T は82.2% のパフォーマンスを達成し、RegNetY-4G を 2.2%、DeiT-S を 2.4%、Swin-T を 0.9% 上回りました。
  • VMamba-S は83.5% のパフォーマンスを達成し、RegNetY-8G を 1.8%、Swin-S を 0.5% 上回りました。
  • VMamba-B は83.2% のパフォーマンスを達成しました (バグがあります。正しい結果はできるだけ早く Github ページに更新されます)。これは RegNetY よりも 0.3% 高い値です。

これらの結果は Vision Mamba (Vim) モデルよりもはるかに高く、VMamba の潜在能力を十分に検証しています。

COCO オブジェクト検出

COOCO データセットでも、VMamba は優れたパフォーマンスを維持しています。12 エポックの微調整後、VMamba-T/S/B はそれぞれ 46.5%/48.2%/48.5% mAP を達成し、Swin-T/S/B を 3.8%/3.6%/1.6% mAP、ConvNeXt-T/S/B を 2.3%/2.8%/1.5% mAP 上回りました。これらの結果は、VMamba が下流の視覚実験で完全に機能し、主流の基本視覚モデルを置き換える可能性を実証していることを証明しています。

ADE20Kセマンティックセグメンテーション

ADE20K でも、VMamba は優れたパフォーマンスを発揮します。 VMamba-T モデルは、512 × 512 解像度で 47.3% mIoU を達成し、ResNet、DeiT、Swin、ConvNeXt を含むすべての競合製品を上回るスコアを達成しました。この利点は、VMamba-S/B モデルでも維持されます。

分析実験

有効受容野

VMamba にはグローバルな有効受容野があり、他のモデルの中では DeiT だけがこの機能を備えています。ただし、DeiT のコストは 2 次複雑度であるのに対し、VMamaba は線形複雑度であることは注目に値します。

入力スケーリング

  • 上図 (a) は、VMamba がさまざまな入力画像サイズで (微調整なしで) 最も安定したパフォーマンスを発揮することを示しています。興味深いことに、入力サイズが 224 × 224 から 384 × 384 に増加すると、VMamba のみがパフォーマンスの明確な上昇傾向を示し (VMamba-S は 83.5% から 84.0% に増加)、入力画像サイズの変化に対する堅牢性が強調されます。
  • 上図(b)は、VMambaシリーズモデルの複雑さは入力が大きくなるにつれて直線的に増加することを示しており、これはCNNモデルと一致しています。

最後に、CNN や ViT と並んで、より多くの Mamba ベースのビジョン モデルが提案され、基本的なビジョン モデルの 3 番目のオプションが提供されることが期待されます。

<<: 

>>: 

ブログ    
ブログ    

推薦する

ヴェノムのように変形・修復可能なロボットが登場、1.5mmの亀裂も楽々通過

映画「ヴェノム」を見たことがある友人なら、「シンビオート」が液体の形で現れることを知っているでしょう...

ディープニューラルネットワークをデバッグするにはどのような方法を使用しますか? 4つの簡単な方法をご紹介します

データセットの構築、ニューラル ネットワークのコーディング、モデルのトレーニングに何週間も費やした後...

ガートナー:今後2年間で、テクノロジープロバイダーの3分の1がAIに100万ドル以上を投資する

9月30日、ガートナーの最近の調査によると、人工知能技術計画を持つテクノロジーおよびサービスプロバイ...

...

...

AIの次の目的地はどこでしょうか?

[[318187]]私たちはインテリジェント変革の時代に生きており、人工知能技術はあらゆる分野の人...

...

...

農業革命: 世界市場における作物収穫ロボットの台頭

農業の世界は、世界の市場に革命を起こすであろう驚異的な技術である作物収穫ロボットの登場により、パラダ...

...

投票の未来: AI、ブロックチェーン、生体認証

投票攻撃は止まらない2016年の米国大統領選挙は紆余曲折を経て、最終的にトランプ氏が米国大統領に選出...

人工知能時代の到来とともに、私たちはどんな知識を学ぶべきでしょうか?

将来、AI知能ロボット翻訳は根本的な進歩を遂げ、筆記翻訳、口頭通訳、同時通訳など、人間による翻訳作業...

CMU、NUS、Fudanが共同でDataLabを立ち上げ:テキストフィールドでのデータ分析と処理のためのMatlabを作成

データ中心の人工知能の構築は、今後のトレンドになりつつあります。 1年以上前、アンドリュー・ン氏は「...

中国の博士が127ページの論文「自然言語処理におけるグラフニューラルネットワークの初心者からマスターまで」を発表

グラフは、複雑なシステムを記述およびモデル化するために使用できる一般的な言語です。グラフは、構文情報...