大型模型の分野におけるトランスフォーマーの地位は揺るぎない。しかし、モデルのサイズが拡大し、処理する必要があるシーケンスが長くなるにつれて、この大規模 AI モデルの主流のアーキテクチャの制限がますます顕著になってきました。 Mamba の出現は、これらすべてを強力に変えています。その優れたパフォーマンスは、すぐに AI 界を沸かせました。 先週の木曜日、Vision Mamba (Vim) が発表され、ビジョンベース モデルの次世代バックボーンとなる大きな可能性を示しました。わずか 1 日後、中国科学院、Huawei、Pengcheng Laboratory の研究者らが、グローバル受容野と線形複雑性を備えた視覚的な Mamba モデルである VMamba を提案しました。この作品は、Visual Mamba モデルにとって Swin の瞬間を象徴するものです。
CNN と Visual Transformer (ViT) は現在、最も主流の 2 つの基本視覚モデルです。 CNN には線形複雑性がありますが、ViT はより強力なデータ フィッティング機能を備えていますが、計算の複雑性が高くなります。研究者たちは、ViT が強力なフィッティング能力を持つ理由は、グローバル受容野と動的重みを備えているためだと考えています。 Mamba モデルにヒントを得て、研究者たちは線形複雑性の下でこれら 2 つの優れた特性を両方とも備えたモデル、つまり Visual State Space Model (VMamba) を設計しました。広範囲にわたる実験により、VMamba がさまざまな視覚タスクで優れたパフォーマンスを発揮することが実証されています。下の図に示すように、VMamba-S は ImageNet-1K で 83.5% の精度を達成しており、これは Vim-S よりも 3.2%、Swin-S よりも 0.5% 高い数値です。 方法の紹介VMamba の成功の鍵は、選択スキャン空間状態シーケンシャル モデル (S6 モデル) の使用にあります。このモデルはもともと、自然言語処理 (NLP) タスクを解決するために設計されました。 ViT の注意メカニズムとは異なり、S6 は 1D ベクトル (テキスト シーケンスなど) の各要素をその前にスキャンされた情報と相互作用させ、実質的に 2 次複雑度を線形に削減します。 しかし、視覚信号(画像など)はテキストシーケンスのような自然な順序を持たないため、S6 のデータスキャン方法を視覚信号に直接適用することはできません。この目的のために、研究者はクロススキャンスキャン機構を設計しました。クロススキャン モジュール (CSM) は、4 方向スキャン戦略、つまり特徴マップの 4 つのコーナーから同時にスキャンする戦略を採用しています (上図を参照)。この戦略により、フィーチャ内の各要素がさまざまな方向にある他のすべての位置からの情報を統合し、線形計算の複雑さを増大させることなくグローバル受容フィールドを形成することが保証されます。 著者らは CSM に基づいて 2D 選択スキャン (SS2D) モジュールを設計しました。上の図に示すように、SS2D は次の 3 つのステップで構成されます。
上図は、この記事で提案する VMamba 構造図です。 VMamba の全体的なフレームワークは主流のビジュアル モデルに似ていますが、主な違いは基本モジュール (VSS ブロック) で使用されるさまざまな演算子にあります。 VSS ブロックは、上で紹介した 2D 選択スキャン操作、つまり SS2D を使用します。 SS2D は、線形複雑性を犠牲にして VMamba がグローバル受容野を実現することを保証します。 実験結果ImageNet分類 実験結果を比較すると、同様のパラメータと FLOP の場合、次のことが容易にわかります。
これらの結果は Vision Mamba (Vim) モデルよりもはるかに高く、VMamba の潜在能力を十分に検証しています。 COCO オブジェクト検出 COOCO データセットでも、VMamba は優れたパフォーマンスを維持しています。12 エポックの微調整後、VMamba-T/S/B はそれぞれ 46.5%/48.2%/48.5% mAP を達成し、Swin-T/S/B を 3.8%/3.6%/1.6% mAP、ConvNeXt-T/S/B を 2.3%/2.8%/1.5% mAP 上回りました。これらの結果は、VMamba が下流の視覚実験で完全に機能し、主流の基本視覚モデルを置き換える可能性を実証していることを証明しています。 ADE20Kセマンティックセグメンテーション ADE20K でも、VMamba は優れたパフォーマンスを発揮します。 VMamba-T モデルは、512 × 512 解像度で 47.3% mIoU を達成し、ResNet、DeiT、Swin、ConvNeXt を含むすべての競合製品を上回るスコアを達成しました。この利点は、VMamba-S/B モデルでも維持されます。 分析実験有効受容野 VMamba にはグローバルな有効受容野があり、他のモデルの中では DeiT だけがこの機能を備えています。ただし、DeiT のコストは 2 次複雑度であるのに対し、VMamaba は線形複雑度であることは注目に値します。 入力スケーリング
最後に、CNN や ViT と並んで、より多くの Mamba ベースのビジョン モデルが提案され、基本的なビジョン モデルの 3 番目のオプションが提供されることが期待されます。 |
人工知能は、ビジネスから工業デザイン、エンターテインメントまで、さまざまな分野で新たな機会を提供して...
科学研究機関の世界総合ランキングでは、中国科学院、中国科学技術大学、北京大学がトップ10にランクイン...
ビッグデータダイジェスト制作編集者: CoolBoyみなさん、こんにちは! 先月のトップ 10 の機...
MarketsandMarketsが発表した最新の市場調査レポートによると、人工知能ロボット市場は2...
ドローンはまもなく、タイレノールとバンドエイドが詰まった小型容器を積んでダラス・フォートワース上空を...
現地時間11月3日、木曜日の2日間にわたる英国人工知能安全サミットで、テスラのイーロン・マスクCEO...
[[199809]]まず第一に、この質問は非常に広範囲にわたります。機械学習にはさまざまな方向性が...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
モノのインターネットと機械学習は、今日のビジネスにおいて最も破壊的なテクノロジーの 2 つです。さら...
人工知能はここ数年で大きな進歩を遂げてきましたが、開発者の過剰な約束とエンドユーザーの非現実的な期待...