ビジュアルMambaモデルのSwinの瞬間:中国科学院、HuaweiなどがVMambaを発表

ビジュアルMambaモデルのSwinの瞬間:中国科学院、HuaweiなどがVMambaを発表

大型模型の分野におけるトランスフォーマーの地位は揺るぎない。しかし、モデルのサイズが拡大し、処理する必要があるシーケンスが長くなるにつれて、この大規模 AI モデルの主流のアーキテクチャの制限がますます顕著になってきました。 Mamba の出現は、これらすべてを強力に変えています。その優れたパフォーマンスは、すぐに AI 界を沸かせました。

先週の木曜日、Vision Mamba (Vim) が発表され、ビジョンベース モデルの次世代バックボーンとなる大きな可能性を示しました。わずか 1 日後、中国科学院、Huawei、Pengcheng Laboratory の研究者らが、グローバル受容野と線形複雑性を備えた視覚的な Mamba モデルである VMamba を提案しました。この作品は、Visual Mamba モデルにとって Swin の瞬間を象徴するものです。


  • 論文タイトル: VMamba: 視覚状態空間モデル
  • 論文アドレス: https://arxiv.org/abs/2401.10166
  • コードアドレス: https://github.com/MzeroMiko/VMamba

CNN と Visual Transformer (ViT) は現在、最も主流の 2 つの基本視覚モデルです。 CNN には線形複雑性がありますが、ViT はより強力なデータ フィッティング機能を備えていますが、計算の複雑性が高くなります。研究者たちは、ViT が強力なフィッティング能力を持つ理由は、グローバル受容野と動的重みを備えているためだと考えています。 Mamba モデルにヒントを得て、研究者たちは線形複雑性の下でこれら 2 つの優れた特性を両方とも備えたモデル、つまり Visual State Space Model (VMamba) を設計しました。広範囲にわたる実験により、VMamba がさまざまな視覚タスクで優れたパフォーマンスを発揮することが実証されています。下の図に示すように、VMamba-S は ImageNet-1K で 83.5% の精度を達成しており、これは Vim-S よりも 3.2%、Swin-S よりも 0.5% 高い数値です。

方法の紹介

VMamba の成功の鍵は、選択スキャン空間状態シーケンシャル モデル (S6 モデル) の使用にあります。このモデルはもともと、自然言語処理 (NLP) タスクを解決するために設計されました。 ViT の注意メカニズムとは異なり、S6 は 1D ベクトル (テキスト シーケンスなど) の各要素をその前にスキャンされた情報と相互作用させ、実質的に 2 次複雑度を線形に削減します。

しかし、視覚信号(画像など)はテキストシーケンスのような自然な順序を持たないため、S6 のデータスキャン方法を視覚信号に直接適用することはできません。この目的のために、研究者はクロススキャンスキャン機構を設計しました。クロススキャン モジュール (CSM) は、4 方向スキャン戦略、つまり特徴マップの 4 つのコーナーから同時にスキャンする戦略を採用しています (上図を参照)。この戦略により、フィーチャ内の各要素がさまざまな方向にある他のすべての位置からの情報を統合し、線形計算の複雑さを増大させることなくグローバル受容フィールドを形成することが保証されます。

著者らは CSM に基づいて 2D 選択スキャン (SS2D) モジュールを設計しました。上の図に示すように、SS2D は次の 3 つのステップで構成されます。

  • スキャン拡張は、2D フィーチャを 4 つの異なる方向 (左上、右下、左下、右上) に沿って 1D ベクトルに平坦化します。
  • S6 ブロックは、前のステップで取得した 4 つの 1D ベクトルを個別に S6 操作に入力します。
  • スキャンマージは、取得した 4 つの 1D ベクトルを 2D フィーチャ出力に融合します。

上図は、この記事で提案する VMamba 構造図です。 VMamba の全体的なフレームワークは主流のビジュアル モデルに似ていますが、主な違いは基本モジュール (VSS ブロック) で使用されるさまざまな演算子にあります。 VSS ブロックは、上で紹介した 2D 選択スキャン操作、つまり SS2D を使用します。 SS2D は、線形複雑性を犠牲にして VMamba がグローバル受容野を実現することを保証します。

実験結果

ImageNet分類

実験結果を比較すると、同様のパラメータと FLOP の場合、次のことが容易にわかります。

  • VMamba-T は82.2% のパフォーマンスを達成し、RegNetY-4G を 2.2%、DeiT-S を 2.4%、Swin-T を 0.9% 上回りました。
  • VMamba-S は83.5% のパフォーマンスを達成し、RegNetY-8G を 1.8%、Swin-S を 0.5% 上回りました。
  • VMamba-B は83.2% のパフォーマンスを達成しました (バグがあります。正しい結果はできるだけ早く Github ページに更新されます)。これは RegNetY よりも 0.3% 高い値です。

これらの結果は Vision Mamba (Vim) モデルよりもはるかに高く、VMamba の潜在能力を十分に検証しています。

COCO オブジェクト検出

COOCO データセットでも、VMamba は優れたパフォーマンスを維持しています。12 エポックの微調整後、VMamba-T/S/B はそれぞれ 46.5%/48.2%/48.5% mAP を達成し、Swin-T/S/B を 3.8%/3.6%/1.6% mAP、ConvNeXt-T/S/B を 2.3%/2.8%/1.5% mAP 上回りました。これらの結果は、VMamba が下流の視覚実験で完全に機能し、主流の基本視覚モデルを置き換える可能性を実証していることを証明しています。

ADE20Kセマンティックセグメンテーション

ADE20K でも、VMamba は優れたパフォーマンスを発揮します。 VMamba-T モデルは、512 × 512 解像度で 47.3% mIoU を達成し、ResNet、DeiT、Swin、ConvNeXt を含むすべての競合製品を上回るスコアを達成しました。この利点は、VMamba-S/B モデルでも維持されます。

分析実験

有効受容野

VMamba にはグローバルな有効受容野があり、他のモデルの中では DeiT だけがこの機能を備えています。ただし、DeiT のコストは 2 次複雑度であるのに対し、VMamaba は線形複雑度であることは注目に値します。

入力スケーリング

  • 上図 (a) は、VMamba がさまざまな入力画像サイズで (微調整なしで) 最も安定したパフォーマンスを発揮することを示しています。興味深いことに、入力サイズが 224 × 224 から 384 × 384 に増加すると、VMamba のみがパフォーマンスの明確な上昇傾向を示し (VMamba-S は 83.5% から 84.0% に増加)、入力画像サイズの変化に対する堅牢性が強調されます。
  • 上図(b)は、VMambaシリーズモデルの複雑さは入力が大きくなるにつれて直線的に増加することを示しており、これはCNNモデルと一致しています。

最後に、CNN や ViT と並んで、より多くの Mamba ベースのビジョン モデルが提案され、基本的なビジョン モデルの 3 番目のオプションが提供されることが期待されます。

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

世界初のグラフェン半導体がネイチャー誌に掲載され、中国チームがムーアの法則の寿命を10年延長しました!

シリコンはすべての電子機器の終焉をもたらすのか?この記録はグラフェンによって破られました!天津大学と...

アルゴリズム問題演習 - 大規模ブラックリスト IP マッチング

多くの IT 企業では、アルゴリズムは面接で非常に重要な部分を占めていますが、実際の仕事でアルゴリズ...

AIブームの中で、取締役会とCEOはAIを包括的に理解する必要がある

AIが私たちの日常生活の一部になっていることは否定できません。ほぼすべての業界のフォーチュン 100...

軍用殺人ロボットは人類の救世主か悪魔か?

[[230142]] 「リトルビー」殺人ロボットの背後にあるブラックテクノロジー学生たちが席に座っ...

sklearnのトレーニング速度が100倍以上向上、米「Fanli.com」がsk-distフレームワークをオープンソース化

この記事では、Ibotta (「Rebate Network」の米国版) の機械学習およびデータ サ...

...

少数ショット学習における SetFit によるテキスト分類

翻訳者 |陳俊レビュー | Chonglouこの記事では、「少量学習」の概念を紹介し、テキスト分類で...

第3回北京知源大会が開幕、世界最大のインテリジェントモデル「五道2.0」が発表

6月1日、北京知源人工知能研究所(以下、知源研究所)が主催する2021年北京知源会議が北京市中関村国...

Google内部関係者、Bardチャットボットの有用性に疑問

10月12日、ブルームバーグは昨夜、グーグルとDiscordが共同で自社のAIチャットボット「Bar...

AI(人工知能)はニッチな業界でお金を稼ぐ次のチャンスです

AI(人工知能)とは何ですか?と聞かれたら多くの人は、いくつかの単語を話すことはできるかもしれません...

住宅建設はよりスマートになる

スマートホーム革命はここしばらく本格的に始まっています。住宅所有者はデータと IoT テクノロジーを...

...

AI + リアルタイム監視技術が公共サービスを改善する10の方法

石油やガスの価格変動、運用コストの増加、サイバー/物理的な脅威の増大により、公益事業会社はセキュリテ...

...