既存の大規模言語モデル、画像生成モデルなどは、少数のモーダルデータに対してのみ動作し、人間のように物理世界と対話することはできません。 視覚-言語-行動 (VLA) モデルは、視覚刺激、言語入力、およびその他の環境関連データを認識でき、物理環境とデジタル環境で意味のある「具体化された行動」を生成して特定のタスクを完了できる自律エージェントです。 写真 2 次元のデジタル世界と 3 次元の物理世界の違いにより、既存の VLA モデルでは通常タスクが単純化され、マルチモーダル理解能力が弱くなり、タスクやドメイン全体にわたる一般化能力が不十分になります。 マイクロソフト、メリーランド大学、ウィスコンシン大学マディソン校、韓国科学技術院、ワシントン大学の研究者らは、マルチモーダル理解と行動予測を備えた基本的なインテリジェントエージェントモデル「マグマ」を開発した。視覚言語モデルの言語理解能力(言語知能)を保持するだけでなく、視覚空間世界で計画し行動する能力(時空間知能)も備え、ユーザーインターフェース(UI)ナビゲーションからロボット操作まで、さまざまなインテリジェントエージェントタスクを完了することができる。 写真 論文リンク: https://arxiv.org/pdf/2502.13130 コードリンク: https://microsoft.github.io/Magma Magma に機能を与えるために、研究者は大量の画像、ビデオ、ロボットデータセットを使用して事前トレーニングを行いました。 画像では、アクション可能な視覚オブジェクト (ユーザー インターフェイス内のクリック可能なボタンなど) に「Set-of-Mark」(SoM) を使用して注釈が付けられ、アクションの場所を特定できるようになります。 ビデオでは、オブジェクトの動き(人間の手やロボットアームの動きの軌跡など)に「Trace-of-Mark」(ToM)を使用して注釈が付けられ、アクション計画をサポートします。 写真 実験結果では、SoM と ToM の良好な相乗効果が実証されており、Magma は UI ナビゲーションとロボット操作タスクで最高のパフォーマンス記録を達成し、画像やビデオ関連のマルチモーダルタスクでは他の一般的に使用されるマルチモーダルモデルよりも優れたパフォーマンスを発揮しました。 マルチモーダルエージェントモデリング問題の定義一般的なマルチモーダルAIエージェントπは、過去の視覚的観測L={I1, ..., Ik}とテキストによるタスク記述を入力として受け取り、少なくともT≥1個のトークンのセットOを出力し、マルチモーダル理解とアクション実行を同時に実行することができます。 写真 そのうち、ctxは文脈であり、l∈{verbal, spatial}はi番目のトークンが言語トークンか空間トークンかを示す。 2D スクリーンショットの UI ナビゲーション タスク: 「ホテルを予約する」タスクの場合、エージェントの出力には、アクションのセマンティック タイプ (入力、クリックなど) と、アクションが適用される特定の場所 (x、y) または四角形 (x、y、w、h) を表す言語トークンが含まれている必要があります。 3D の世界におけるロボット操作タスク: 「引き出しを閉める」タスクの場合、エージェントの出力には、エンド エフェクタの 6 自由度 (6-DoF) の変位 (x、y、z、ヨー、ピッチ、ロール) と、グリッパーが開いているか閉じているかを示す追加の次元が含まれます。 マルチモーダル理解タスク: 視覚的質問応答 (VQA) タスクなど、タスクが入力画像 L にのみ関連している場合、問題は「入力画像/ビデオのテキスト説明」または「ターゲットの場所」を生成することに簡略化されます。 タスクの出力形式は異なっているように見えますが、研究者は通常、モデルの学習を容易にするためにすべての出力をテキスト トークンに変換します。 方法研究者らは、「Set-of-Mark、SoM」と「Trace-of-Mark、ToM」を組み合わせてモデルを空間予測タスク(クリック可能なボタン)と時間次元に拡張し、2つの普遍的な問題を解決するシンプルで効果的な方法を提案しました。 1) 共同トレーニングを実現するための統一された事前トレーニング インターフェースを構築するにはどうすればよいでしょうか? 2) 既存の視覚言語行動データは量と多様性が限られており、モデルをスケールアップするのに十分なデータがありません。 マーカーセット(SoM)に基づくアクションローカリゼーション「ラベル付きセット」プロンプト方式は、もともと GPT-4V の視覚的ローカリゼーション機能を強化するために提案されましたが、これまでの研究では主に SoM を使用して、既製の大規模マルチモーダル モデル (LMM) の視覚的言語ローカリゼーション機能を強化していました。研究者らは、SoM を使用してインテリジェント エージェント モデルをトレーニングし、特定のタスクで操作可能なポイントまたは領域を特定し、必要に応じて基本的なアクションをさらに予測することを提案しました。 時間ステップtで、エージェントがサイズがH×W×3(つまり、高さ、幅、および色チャネル)の画像Itを観察し、エージェントの入力にタスクの説明とコンテキスト情報も含まれているとします。 写真 まず、画像から操作可能な候補領域または点のセット P = {p1、...、pK} が抽出されます。ここで、各点 pk は、4 次元の長方形ボックス座標 (x、y、w、h など) または 2 次元の点座標 (x、y) になります。次に、マーカーと長方形ボックスが画像上の対応する位置に重ね合わされ、M = {1: p1、2: p2、...、K: pK} などのデジタル ラベルが付けられ、ラベル付きの新しい画像が生成されます。 モデルは、候補マーカーから対応するマーカーを選択し、それを元の座標と組み合わせる必要があるため、インテリジェント モデルのアクション ローカリゼーション タスクが大幅に簡素化されます。 写真 マークされた軌道(ToM)に基づく行動計画ビデオ データには、人間の行動や活動に関する多くの情報が含まれており、インテリジェント モデルの機能を向上するために使用できますが、アクション ラベル データは非常に不足しています。 研究者らは、「マークを重ねる」戦略を静止画像から動的なビデオに拡張し、インテリジェントモデルがビデオからアクションを計画して実行することを効果的に学習できるようにする「Trace-of-Mark」(ToM)手法を提案した。 t番目のフレームItのK個のマーカーについて、次のIフレームのマーカーの対応する位置が抽出され、軌跡T = {Mt+1、...、Mt+l}として記録されます。モデルはさらに、有効なマーカーの将来の軌跡を予測する必要があります。ここで、trace[t+1:t+l]は、マーカーセットT内の有効なマーカーの軌跡シーケンスのサブセットです。 写真 ToM 予測方法はビデオ データを最大限に活用できるため、モデルはビデオ観測における時間的ダイナミクスを理解し、次のアクションを実行する前に「先を見通す」ことができます。より少ないトークンを使用して、より長い時間範囲にわたるアクション関連のターゲット ダイナミクスをキャプチャし、無関係な周囲のコンテンツを無視します。 研究者らは、ポイント追跡モデル CoTracker を使用して ToM データを抽出しました。 モデリングMagma に必要なマルチモーダル理解機能を維持するために、研究者はビジュアル エンコーダー V を使用して各フレームを複数のトークンにエンコードし、それらをシーケンスに連結して、タスクの説明をエンコードする言語トークンとともにデコーダーのみの言語モデル (LLM) に入力しました。 タスクの多様性のため、研究者は、さまざまな解像度の画像やビデオをシームレスに処理し、グローバル コンテキストを適切にキャプチャして、グローバル クロッピングとローカル クロッピングを組み合わせた方法に匹敵する結果を得ることができる ConvNeXt をビジュアル バックボーン ネットワークとして選択しました。 写真 エージェントは自己回帰デコード プロセスとしてモデル化され、以前のすべての出力、ビジュアル エンコーダーによる画像エンコーディング、タスクの説明、およびコンテキスト情報に基づいて次の出力を生成します。 実験結果エージェントの機能研究者らは、ScreenSpot を使用してユーザー インターフェイス (UI) アクションのローカリゼーションとナビゲーション機能を評価し、VisualWebBench を使用して Web 環境でのパフォーマンスをテストし、SimplerEnv を使用してロボット操作タスクのパフォーマンスを評価しました。 写真 結果は、Magma が、すべてのテストにおいて、他の汎用大規模マルチモーダル モデル (LLaVA や Qwen-VL など) や、UI ナビゲーション用の SeeClick やロボット操作用の OpenVLA などのドメイン固有のエージェント モデルよりも一貫して優れていることを示しています。ユーザー インターフェイス タスクでは、Magma のゼロ ショット パフォーマンスは、最も高度なビジョン ベースの方法 (GPT-4V と Omniparser を組み合わせたもの) を上回っています。 写真 Magma の事前トレーニング済みモデルの成功率は、2 位の OpenVLA よりも 19.6% 高く、平均成功率のほぼ 2 倍です。 空間推論研究者らは、ユーザー インターフェイス (UI) ナビゲーションとロボット操作タスクにおける Magma モデルの優れたパフォーマンスは、空間推論機能の向上によるものだと結論付け、視覚空間推論 (VSR)、BLINK、SpatialEval ベンチマークで評価しました。 写真 結果から、Magma は VSR と SpatialEval の既存の方法よりも大幅に優れたパフォーマンスを発揮し、事前トレーニングでは約 2,900 万枚の画像しか使用していないことがわかります。これに対し、CogVLM は約 15 億枚の画像を使用します。2 つのモデルのパフォーマンスはほぼ同等です。アブレーション実験では、ラベル付きセット (SoM) とラベル付き軌跡 (ToM) の事前トレーニング タスクが Magma の空間推論機能の向上に役立つことが実証されています。 写真 マルチモーダル理解 画像命令の微調整:研究者らは Magma モデルを Magma-SFT-820K データセットで微調整し、その後、微調整された Magma モデルを、一般的に使用される一連の画像推論ベンチマークで既存の視覚言語モデル (VLM) と比較しました。結果、Magma はほとんどのタスク、特に TextVQA タスクと ChartQA タスクで最近提案された VLM よりも優れており、それぞれ約 5% と 22% の大幅な改善を達成しました。 写真 ビデオ指導の微調整:研究者らは、IntentQA、NextQA、VideoMME、MVBench などの複数のビデオ質問応答 (QA) ベンチマークにおける Magma モデルのパフォーマンスを報告し、事前トレーニング アプローチの有効性を実証しました。 写真 Magma は、さまざまなベンチマークで同等の数のパラメータを持つほとんどの最先端モデルを一貫して上回っており、Magma がビデオ コンテンツを適切に理解して推論でき、複雑なタスク シナリオでも優れたパフォーマンスを発揮できることを示しています。 参照: https://huggingface.co/papers/2502.13130 |
<<: 「アンティーク」GPUでもDeepSeekと同じGRPOを実行できます。ビデオメモリは1/10しか必要とせず、コンテキストは10倍に増加します
>>: 先ほど、Manus Lianchuang は「サンドボックス脱獄」の問題に反応し、次のように述べました。「MCP は役に立たない!」さて、オープンソース化計画が正式に発表されました!
ニューラルネットワークがうまく動作しない場合はどうすればいいでしょうか?この記事の著者は、データの前...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
仮想現実ゲームの発展により、ゲームのプレイ方法や交流の仕方が急速に変化しています。仮想現実はゲームの...
1. 背景現在、仮想化やクラウドコンピューティングなどの新技術の普及により、企業のデータセンター内の...
車に乗り込み、コードをスキャンすると、運転手が操作しなくても黒い「タクシー」が動き出す。横断歩道では...
さあ、手払いについて学んでみましょう〜アマゾンはこのほど、自社が開発した手のひら認識技術「Amazo...
ケーキも食べて、ケーキも残したいです! BAIR は、正確性と解釈可能性のバランスをとったニューラル...
AV カメラは他のセンサーと比較して最も密度の高い情報を持っていることはよく知られており、自動運転車...
索引多層パーセプトロン (MLP) 入門ディープニューラルネットワークの活性化関数ディープニューラル...
英国の著名な分析機関オックスフォード・エコノミクスが発表したデータによると、今から10年後の2030...
GenAI に対する信頼はまちまちです。 VentureBeat は最近、製造業とサービス業の複数の...
このなぞなぞの答えを推測できますか?機械学習を学べば、どこにでも登場します...プログラマーであれば...