ビジュアルMambaモデルのSwinの瞬間:中国科学院、HuaweiなどがVMambaを発表

ビジュアルMambaモデルのSwinの瞬間:中国科学院、HuaweiなどがVMambaを発表

大型模型の分野におけるトランスフォーマーの地位は揺るぎない。しかし、モデルのサイズが拡大し、処理する必要があるシーケンスが長くなるにつれて、この大規模 AI モデルの主流のアーキテクチャの制限がますます顕著になってきました。 Mamba の出現は、これらすべてを強力に変えています。その優れたパフォーマンスは、すぐに AI 界を沸かせました。

先週の木曜日、Vision Mamba (Vim) が発表され、ビジョンベース モデルの次世代バックボーンとなる大きな可能性を示しました。わずか 1 日後、中国科学院、Huawei、Pengcheng Laboratory の研究者らが、グローバル受容野と線形複雑性を備えた視覚的な Mamba モデルである VMamba を提案しました。この作品は、Visual Mamba モデルにとって Swin の瞬間を象徴するものです。


  • 論文タイトル: VMamba: 視覚状態空間モデル
  • 論文アドレス: https://arxiv.org/abs/2401.10166
  • コードアドレス: https://github.com/MzeroMiko/VMamba

CNN と Visual Transformer (ViT) は現在、最も主流の 2 つの基本視覚モデルです。 CNN には線形複雑性がありますが、ViT はより強力なデータ フィッティング機能を備えていますが、計算の複雑性が高くなります。研究者たちは、ViT が強力なフィッティング能力を持つ理由は、グローバル受容野と動的重みを備えているためだと考えています。 Mamba モデルにヒントを得て、研究者たちは線形複雑性の下でこれら 2 つの優れた特性を両方とも備えたモデル、つまり Visual State Space Model (VMamba) を設計しました。広範囲にわたる実験により、VMamba がさまざまな視覚タスクで優れたパフォーマンスを発揮することが実証されています。下の図に示すように、VMamba-S は ImageNet-1K で 83.5% の精度を達成しており、これは Vim-S よりも 3.2%、Swin-S よりも 0.5% 高い数値です。

方法の紹介

VMamba の成功の鍵は、選択スキャン空間状態シーケンシャル モデル (S6 モデル) の使用にあります。このモデルはもともと、自然言語処理 (NLP) タスクを解決するために設計されました。 ViT の注意メカニズムとは異なり、S6 は 1D ベクトル (テキスト シーケンスなど) の各要素をその前にスキャンされた情報と相互作用させ、実質的に 2 次複雑度を線形に削減します。

しかし、視覚信号(画像など)はテキストシーケンスのような自然な順序を持たないため、S6 のデータスキャン方法を視覚信号に直接適用することはできません。この目的のために、研究者はクロススキャンスキャン機構を設計しました。クロススキャン モジュール (CSM) は、4 方向スキャン戦略、つまり特徴マップの 4 つのコーナーから同時にスキャンする戦略を採用しています (上図を参照)。この戦略により、フィーチャ内の各要素がさまざまな方向にある他のすべての位置からの情報を統合し、線形計算の複雑さを増大させることなくグローバル受容フィールドを形成することが保証されます。

著者らは CSM に基づいて 2D 選択スキャン (SS2D) モジュールを設計しました。上の図に示すように、SS2D は次の 3 つのステップで構成されます。

  • スキャン拡張は、2D フィーチャを 4 つの異なる方向 (左上、右下、左下、右上) に沿って 1D ベクトルに平坦化します。
  • S6 ブロックは、前のステップで取得した 4 つの 1D ベクトルを個別に S6 操作に入力します。
  • スキャンマージは、取得した 4 つの 1D ベクトルを 2D フィーチャ出力に融合します。

上図は、この記事で提案する VMamba 構造図です。 VMamba の全体的なフレームワークは主流のビジュアル モデルに似ていますが、主な違いは基本モジュール (VSS ブロック) で使用されるさまざまな演算子にあります。 VSS ブロックは、上で紹介した 2D 選択スキャン操作、つまり SS2D を使用します。 SS2D は、線形複雑性を犠牲にして VMamba がグローバル受容野を実現することを保証します。

実験結果

ImageNet分類

実験結果を比較すると、同様のパラメータと FLOP の場合、次のことが容易にわかります。

  • VMamba-T は82.2% のパフォーマンスを達成し、RegNetY-4G を 2.2%、DeiT-S を 2.4%、Swin-T を 0.9% 上回りました。
  • VMamba-S は83.5% のパフォーマンスを達成し、RegNetY-8G を 1.8%、Swin-S を 0.5% 上回りました。
  • VMamba-B は83.2% のパフォーマンスを達成しました (バグがあります。正しい結果はできるだけ早く Github ページに更新されます)。これは RegNetY よりも 0.3% 高い値です。

これらの結果は Vision Mamba (Vim) モデルよりもはるかに高く、VMamba の潜在能力を十分に検証しています。

COCO オブジェクト検出

COOCO データセットでも、VMamba は優れたパフォーマンスを維持しています。12 エポックの微調整後、VMamba-T/S/B はそれぞれ 46.5%/48.2%/48.5% mAP を達成し、Swin-T/S/B を 3.8%/3.6%/1.6% mAP、ConvNeXt-T/S/B を 2.3%/2.8%/1.5% mAP 上回りました。これらの結果は、VMamba が下流の視覚実験で完全に機能し、主流の基本視覚モデルを置き換える可能性を実証していることを証明しています。

ADE20Kセマンティックセグメンテーション

ADE20K でも、VMamba は優れたパフォーマンスを発揮します。 VMamba-T モデルは、512 × 512 解像度で 47.3% mIoU を達成し、ResNet、DeiT、Swin、ConvNeXt を含むすべての競合製品を上回るスコアを達成しました。この利点は、VMamba-S/B モデルでも維持されます。

分析実験

有効受容野

VMamba にはグローバルな有効受容野があり、他のモデルの中では DeiT だけがこの機能を備えています。ただし、DeiT のコストは 2 次複雑度であるのに対し、VMamaba は線形複雑度であることは注目に値します。

入力スケーリング

  • 上図 (a) は、VMamba がさまざまな入力画像サイズで (微調整なしで) 最も安定したパフォーマンスを発揮することを示しています。興味深いことに、入力サイズが 224 × 224 から 384 × 384 に増加すると、VMamba のみがパフォーマンスの明確な上昇傾向を示し (VMamba-S は 83.5% から 84.0% に増加)、入力画像サイズの変化に対する堅牢性が強調されます。
  • 上図(b)は、VMambaシリーズモデルの複雑さは入力が大きくなるにつれて直線的に増加することを示しており、これはCNNモデルと一致しています。

最後に、CNN や ViT と並んで、より多くの Mamba ベースのビジョン モデルが提案され、基本的なビジョン モデルの 3 番目のオプションが提供されることが期待されます。

<<: 

>>: 

ブログ    
ブログ    

推薦する

AIを活用して都市の建物の特性を識別し、地震などの災害に対するリスクを予測する

人工知能は、ビジネスから工業デザイン、エンターテインメントまで、さまざまな分野で新たな機会を提供して...

...

2020年版ネイチャーインデックス年次リストが発表:中国の研究機関がリストを独占、中国科学院は8年連続で1位

科学研究機関の世界総合ランキングでは、中国科学院、中国科学技術大学、北京大学がトップ10にランクイン...

8 月の Github のトップ 10 ディープラーニング プロジェクト、あなたはどれを選びますか?

ビッグデータダイジェスト制作編集者: CoolBoyみなさん、こんにちは! 先月のトップ 10 の機...

MarketsandMarkets: AI ロボット市場は 2026 年までに 353 億ドルに達する

MarketsandMarketsが発表した最新の市場調査レポートによると、人工知能ロボット市場は2...

アルファベットのウィングがドローン配達サービスをダラス・フォートワース地域に導入

ドローンはまもなく、タイレノールとバンドエイドが詰まった小型容器を積んでダラス・フォートワース上空を...

AI規制に関するマスク氏の見解:規制は面倒だが、審判がいるのは良いことだ

現地時間11月3日、木曜日の2日間にわたる英国人工知能安全サミットで、テスラのイーロン・マスクCEO...

こんなに高い給料がもらえる機械学習の職種の面接を受けるにはどうしたらいいのでしょうか?

[[199809]]まず第一に、この質問は非常に広範囲にわたります。機械学習にはさまざまな方向性が...

...

...

...

ハーバード大学コンピュータサイエンス学部の旗艦プロジェクトはAIをメンターとして採用している

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

IoTと機械学習がビジネスを加速させる5つの方法

モノのインターネットと機械学習は、今日のビジネスにおいて最も破壊的なテクノロジーの 2 つです。さら...

新たな AI の冬を回避するにはどうすればよいでしょうか?

人工知能はここ数年で大きな進歩を遂げてきましたが、開発者の過剰な約束とエンドユーザーの非現実的な期待...

...