具現化された知能の新時代！ VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します

既存の大規模言語モデル、画像生成モデルなどは、少数のモーダルデータに対してのみ動作し、人間のように物理世界と対話することはできません。

視覚-言語-行動 (VLA) モデルは、視覚刺激、言語入力、およびその他の環境関連データを認識でき、物理環境とデジタル環境で意味のある「具体化された行動」を生成して特定のタスクを完了できる自律エージェントです。

写真

2 次元のデジタル世界と 3 次元の物理世界の違いにより、既存の VLA モデルでは通常タスクが単純化され、マルチモーダル理解能力が弱くなり、タスクやドメイン全体にわたる一般化能力が不十分になります。

マイクロソフト、メリーランド大学、ウィスコンシン大学マディソン校、韓国科学技術院、ワシントン大学の研究者らは、マルチモーダル理解と行動予測を備えた基本的なインテリジェントエージェントモデル「マグマ」を開発した。視覚言語モデルの言語理解能力（言語知能）を保持するだけでなく、視覚空間世界で計画し行動する能力（時空間知能）も備え、ユーザーインターフェース（UI）ナビゲーションからロボット操作まで、さまざまなインテリジェントエージェントタスクを完了することができる。

写真

論文リンク: https://arxiv.org/pdf/2502.13130

コードリンク: https://microsoft.github.io/Magma

Magma に機能を与えるために、研究者は大量の画像、ビデオ、ロボットデータセットを使用して事前トレーニングを行いました。

画像では、アクション可能な視覚オブジェクト (ユーザーインターフェイス内のクリック可能なボタンなど) に「Set-of-Mark」(SoM) を使用して注釈が付けられ、アクションの場所を特定できるようになります。

ビデオでは、オブジェクトの動き（人間の手やロボットアームの動きの軌跡など）に「Trace-of-Mark」（ToM）を使用して注釈が付けられ、アクション計画をサポートします。

写真

実験結果では、SoM と ToM の良好な相乗効果が実証されており、Magma は UI ナビゲーションとロボット操作タスクで最高のパフォーマンス記録を達成し、画像やビデオ関連のマルチモーダルタスクでは他の一般的に使用されるマルチモーダルモデルよりも優れたパフォーマンスを発揮しました。

マルチモーダルエージェントモデリング

問題の定義

一般的なマルチモーダルAIエージェントπは、過去の視覚的観測L={I1, ..., Ik}とテキストによるタスク記述を入力として受け取り、少なくともT≥1個のトークンのセットOを出力し、マルチモーダル理解とアクション実行を同時に実行することができます。

写真

そのうち、ctxは文脈であり、l∈{verbal, spatial}はi番目のトークンが言語トークンか空間トークンかを示す。

2D スクリーンショットの UI ナビゲーションタスク: 「ホテルを予約する」タスクの場合、エージェントの出力には、アクションのセマンティックタイプ (入力、クリックなど) と、アクションが適用される特定の場所 (x、y) または四角形 (x、y、w、h) を表す言語トークンが含まれている必要があります。

3D の世界におけるロボット操作タスク: 「引き出しを閉める」タスクの場合、エージェントの出力には、エンドエフェクタの 6 自由度 (6-DoF) の変位 (x、y、z、ヨー、ピッチ、ロール) と、グリッパーが開いているか閉じているかを示す追加の次元が含まれます。

マルチモーダル理解タスク: 視覚的質問応答 (VQA) タスクなど、タスクが入力画像 L にのみ関連している場合、問題は「入力画像/ビデオのテキスト説明」または「ターゲットの場所」を生成することに簡略化されます。

タスクの出力形式は異なっているように見えますが、研究者は通常、モデルの学習を容易にするためにすべての出力をテキストトークンに変換します。

方法

研究者らは、「Set-of-Mark、SoM」と「Trace-of-Mark、ToM」を組み合わせてモデルを空間予測タスク（クリック可能なボタン）と時間次元に拡張し、2つの普遍的な問題を解決するシンプルで効果的な方法を提案しました。

1) 共同トレーニングを実現するための統一された事前トレーニングインターフェースを構築するにはどうすればよいでしょうか?

2) 既存の視覚言語行動データは量と多様性が限られており、モデルをスケールアップするのに十分なデータがありません。

マーカーセット（SoM）に基づくアクションローカリゼーション

「ラベル付きセット」プロンプト方式は、もともと GPT-4V の視覚的ローカリゼーション機能を強化するために提案されましたが、これまでの研究では主に SoM を使用して、既製の大規模マルチモーダルモデル (LMM) の視覚的言語ローカリゼーション機能を強化していました。研究者らは、SoM を使用してインテリジェントエージェントモデルをトレーニングし、特定のタスクで操作可能なポイントまたは領域を特定し、必要に応じて基本的なアクションをさらに予測することを提案しました。

時間ステップtで、エージェントがサイズがH×W×3（つまり、高さ、幅、および色チャネル）の画像Itを観察し、エージェントの入力にタスクの説明とコンテキスト情報も含まれているとします。

写真

まず、画像から操作可能な候補領域または点のセット P = {p1、...、pK} が抽出されます。ここで、各点 pk は、4 次元の長方形ボックス座標 (x、y、w、h など) または 2 次元の点座標 (x、y) になります。次に、マーカーと長方形ボックスが画像上の対応する位置に重ね合わされ、M = {1: p1、2: p2、...、K: pK} などのデジタルラベルが付けられ、ラベル付きの新しい画像が生成されます。

モデルは、候補マーカーから対応するマーカーを選択し、それを元の座標と組み合わせる必要があるため、インテリジェントモデルのアクションローカリゼーションタスクが大幅に簡素化されます。

写真

マークされた軌道（ToM）に基づく行動計画

ビデオデータには、人間の行動や活動に関する多くの情報が含まれており、インテリジェントモデルの機能を向上するために使用できますが、アクションラベルデータは非常に不足しています。

研究者らは、「マークを重ねる」戦略を静止画像から動的なビデオに拡張し、インテリジェントモデルがビデオからアクションを計画して実行することを効果的に学習できるようにする「Trace-of-Mark」（ToM）手法を提案した。

t番目のフレームItのK個のマーカーについて、次のIフレームのマーカーの対応する位置が抽出され、軌跡T = {Mt+1、...、Mt+l}として記録されます。モデルはさらに、有効なマーカーの将来の軌跡を予測する必要があります。ここで、trace[t+1:t+l]は、マーカーセットT内の有効なマーカーの軌跡シーケンスのサブセットです。

写真

ToM 予測方法はビデオデータを最大限に活用できるため、モデルはビデオ観測における時間的ダイナミクスを理解し、次のアクションを実行する前に「先を見通す」ことができます。より少ないトークンを使用して、より長い時間範囲にわたるアクション関連のターゲットダイナミクスをキャプチャし、無関係な周囲のコンテンツを無視します。

研究者らは、ポイント追跡モデル CoTracker を使用して ToM データを抽出しました。

モデリング

Magma に必要なマルチモーダル理解機能を維持するために、研究者はビジュアルエンコーダー V を使用して各フレームを複数のトークンにエンコードし、それらをシーケンスに連結して、タスクの説明をエンコードする言語トークンとともにデコーダーのみの言語モデル (LLM) に入力しました。

タスクの多様性のため、研究者は、さまざまな解像度の画像やビデオをシームレスに処理し、グローバルコンテキストを適切にキャプチャして、グローバルクロッピングとローカルクロッピングを組み合わせた方法に匹敵する結果を得ることができる ConvNeXt をビジュアルバックボーンネットワークとして選択しました。

写真

エージェントは自己回帰デコードプロセスとしてモデル化され、以前のすべての出力、ビジュアルエンコーダーによる画像エンコーディング、タスクの説明、およびコンテキスト情報に基づいて次の出力を生成します。

実験結果

エージェントの機能

研究者らは、ScreenSpot を使用してユーザーインターフェイス (UI) アクションのローカリゼーションとナビゲーション機能を評価し、VisualWebBench を使用して Web 環境でのパフォーマンスをテストし、SimplerEnv を使用してロボット操作タスクのパフォーマンスを評価しました。

写真

結果は、Magma が、すべてのテストにおいて、他の汎用大規模マルチモーダルモデル (LLaVA や Qwen-VL など) や、UI ナビゲーション用の SeeClick やロボット操作用の OpenVLA などのドメイン固有のエージェントモデルよりも一貫して優れていることを示しています。ユーザーインターフェイスタスクでは、Magma のゼロショットパフォーマンスは、最も高度なビジョンベースの方法 (GPT-4V と Omniparser を組み合わせたもの) を上回っています。

写真

Magma の事前トレーニング済みモデルの成功率は、2 位の OpenVLA よりも 19.6% 高く、平均成功率のほぼ 2 倍です。

空間推論

研究者らは、ユーザーインターフェイス (UI) ナビゲーションとロボット操作タスクにおける Magma モデルの優れたパフォーマンスは、空間推論機能の向上によるものだと結論付け、視覚空間推論 (VSR)、BLINK、SpatialEval ベンチマークで評価しました。

写真

結果から、Magma は VSR と SpatialEval の既存の方法よりも大幅に優れたパフォーマンスを発揮し、事前トレーニングでは約 2,900 万枚の画像しか使用していないことがわかります。これに対し、CogVLM は約 15 億枚の画像を使用します。2 つのモデルのパフォーマンスはほぼ同等です。アブレーション実験では、ラベル付きセット (SoM) とラベル付き軌跡 (ToM) の事前トレーニングタスクが Magma の空間推論機能の向上に役立つことが実証されています。

写真

マルチモーダル理解

画像命令の微調整:研究者らは Magma モデルを Magma-SFT-820K データセットで微調整し、その後、微調整された Magma モデルを、一般的に使用される一連の画像推論ベンチマークで既存の視覚言語モデル (VLM) と比較しました。結果、Magma はほとんどのタスク、特に TextVQA タスクと ChartQA タスクで最近提案された VLM よりも優れており、それぞれ約 5% と 22% の大幅な改善を達成しました。

写真

ビデオ指導の微調整:研究者らは、IntentQA、NextQA、VideoMME、MVBench などの複数のビデオ質問応答 (QA) ベンチマークにおける Magma モデルのパフォーマンスを報告し、事前トレーニングアプローチの有効性を実証しました。

写真

Magma は、さまざまなベンチマークで同等の数のパラメータを持つほとんどの最先端モデルを一貫して上回っており、Magma がビデオコンテンツを適切に理解して推論でき、複雑なタスクシナリオでも優れたパフォーマンスを発揮できることを示しています。

参照: https://huggingface.co/papers/2502.13130

<<: 「アンティーク」GPUでもDeepSeekと同じGRPOを実行できます。ビデオメモリは1/10しか必要とせず、コンテキストは10倍に増加します

>>: 先ほど、Manus Lianchuang は「サンドボックス脱獄」の問題に反応し、次のように述べました。「MCP は役に立たない!」さて、オープンソース化計画が正式に発表されました！