3Dタスク（知覚、推論、計画、行動）に精通した初の具現化されたジェネラリストエージェント

汎用人工知能へと進むには、人間の生活の現実世界を理解し、豊富なスキルを習得できる具現化された汎用インテリジェントエージェントを構築する必要があります。

今年、GPT-4（V）[1]、LLaVA[2]、PALM-E[3]などのマルチモーダル大規模言語モデル（MLM）は、自然言語処理、視覚理解、ロボット工学などのタスクで目覚ましい成功を収めました。しかし、これらのモデルは2次元の画像とテキストデータに基づいてトレーニングされており、3次元の世界を理解して対話する能力が欠けています。

この問題を解決するために、北京汎用人工知能研究所は、北京大学、カーネギーメロン大学、清華大学の研究者と共同で、 3次元世界で初めて具現化されたマルチタスクおよびマルチモーダルジェネラリストエージェントLEOを提案しました。

論文リンク: https://arxiv.org/abs/2311.12871
プロジェクトのホームページ: https://embodied-generalist.github.io/
コードリンク: https://github.com/embodied-generalist/embodied-generalist

ジェネラリストエージェント LEO は大規模な言語モデルに基づいており、知覚、グラウンディング、推論、計画、行動などのタスクを完了できます。

LEO の 3 次元視覚言語理解、具体化された推論、アクション実行機能は、幅広い応用シナリオと現実世界における大きな応用価値を備えています。将来のホームアシスタントとして、LEO は人々と対話し、ユーザーの好みに応じて家のレイアウトを調整したり、ユーザーが特定のアイテムを見つけるのを手伝ったり、さまざまなユーザーの問題に対する提案を提供したりといったシナリオ関連の質問に答えることができます。 LEO のナビゲーション機能は、ショッピングモールやオフィスビルでのインテリジェントな誘導に使用でき、その制御機能は、掃除、片付け、簡単なキッチン作業などのホームオートメーションタスク、および倉庫や物流センターでのアイテムの仕分けや移動に使用できます。

研究概要

図1. LEO機能図

ジェネラリストエージェント LEO は LLM に基づいており、さまざまなタスク間で共有アーキテクチャと重みを使用し、2 段階でトレーニングされます。

1) 3Dビジョンと言語の整合

2) 視覚・言語・運動指示の微調整。

上記の 2 段階のトレーニングを完了するために、著者らはオブジェクトレベルとシーンレベルを含む大規模なデータセットを収集および生成し、質問応答 (3D QA)、説明 (3D キャプション)、具体化された推論、具体化されたナビゲーション、ロボット操作などの複数のタスクで LEO の優れた機能を実証しました。

この研究の主な貢献は次のように要約できます。

1) 私たちは、3次元の世界で認識、位置特定、推論、計画、行動実行ができる初の具現化されたインテリジェントエージェント LEO を構築しました。

2) オブジェクト中心の 3D 表現を LLM に接続し、具体化されたアクションタスクを追加して、3D 世界の視覚、言語、アクションのギャップを埋める効率的な学習戦略を提案します。

3) 高品質な3D視覚言語データを生成する方法を提案し、視覚言語アクション指示を微調整するための大規模データセットを構築します。

モデル紹介

図2. LEOの一般的なタスクシーケンスと自己回帰トレーニング目標

LEO モデルの全体的な設計コンセプトは、次の 2 つの中心点を中心に展開されます。

1) 一人称 2D 画像、3D シーン情報、自然言語コマンドを統一されたフレームワーク内で処理し、テキストとアクションの出力をサポートします。

2) 事前学習済みの言語モデルの事前情報を最大限に活用して、下流のタスクを促進できます。上記の 2 つの原則に基づいて、著者らは図 2 に示すように、すべてのマルチモーダル (2D、3D、テキスト) 入力を LLM のテキスト空間に揃えるモデルフレームワークを設計しました。

その中で、著者らはPointNet++を使用してシーンクラウド内のオブジェクトレベルの特徴を抽出し、空間エンコーダー（Spatial Transformer）を使用して空間位置関係をモデル化し、3次元のシーンレベルの特徴を取得しました。入力された 2 次元画像は、事前トレーニング済みモデル OpenCLIP ConvNext によって処理され、最初の視点の視覚的特徴が得られます。 2 次元および 3 次元の視覚的特徴は、最終的にプロジェクターによってテキスト空間にマッピングされます。

具体的なプロセスを図3に示します。

図3. 画像と3Dシーンの特徴抽出の概略図

LLM に関しては、著者らはトークンシーケンスを処理するための事前トレーニング済み言語モデルとして Vicuna-7B を使用しています。トレーニング中は、LoRA メソッドを使用して LLM を微調整します。トレーニングの目標を図 2 に示します。

データセット

データセットの概要

2段階のトレーニング戦略に従って、著者らはそれぞれ対応するデータを収集し、全体の概要を図4に示します。このデータセットは、Objaverse などの大規模 3D オブジェクトデータと、ScanNet、3RScan、Matterport3D などの 3D シーンデータセットをカバーしています。また、ロボット操作関連のデータセット CLIPort も含まれています。表 1 は、2 段階のトレーニングにおけるすべてのデータのソースと量の統計を示しています。

図4. LEOデータセットの概略図

表1.データセットの統計

LLM支援データ生成

3D シーンのビジュアル言語命令の微調整データが不十分であることと、既存の生成方法で得られるデータ品質が低いという現在の問題を解決するために、著者らは、3D シーングラフと改良手順に基づくデータ生成方法を提案し、高品質のデータを生成します。具体的なプロセスを図5に示します。

図5. LLMに基づく3Dビジョン言語指示微調整データ生成

LLM 生成データの信頼性を向上させるために、著者らは、生成された回答とシーン間の相関関係を改善し、出力の幻覚を減らし、さらに改良手順を通じて生成されたデータ内のエラーを修正する、オブジェクト中心の Chain-Of-Thought 法を提案しました。このプロセスを経て、最終的に高品質の命令微調整データが得られました。データセットの生成方法と統計結果の詳細については、論文の付録を参照してください。

モデル機能

3D視覚言語理解と具体化された推論

ビデオ 1. ScanQA、Scan2Cap、SQA およびその他のタスクにおける LEO のパフォーマンス

著者らは、3D シーンの質問応答データセット ScanQA、3D オブジェクト記述データセット Scan2Cap、および 3D シーンの具体化推論データセット SQA3D でモデルの機能をテストしました。これらのタスクはすべて、3D シーンと自然言語の指示を入力として使用します。SQA3D タスクには、質問時の位置と方向も含まれます。これらの入力に基づいて、モデルは上記のビデオに示すように対応する回答を提供する必要があります。

著者らは、3D-VisTA [4]や3D-LLM [5]などのさまざまな以前のデータセットでSOTA手法を比較しました。結果を表2に示します。実験結果によると、3D視覚言語理解タスクの複数の指標において、LEOは従来の方法よりも大幅に優れていることがわかりました。

表2 - 表4. 3D視覚言語理解タスクにおけるLEOのパフォーマンス

3D 世界での具現化されたアクションの実行

ビデオ 2. LEO の操作およびオブジェクトナビゲーションタスクのパフォーマンス

著者らは、ロボット操作データセット CLIPort で LEO のパフォーマンスをテストしました。このデータセットでは、ビデオ 2 に示すように、3 次元および 2 次元の知覚結果と自然言語の指示に基づいて、モデルがロボットアームの操作指示を出力する必要があります。著者らはCLIPort[6]のベースライン手法と比較し、その結果を表3に示す。この結果は提案手法の優位性を証明している。さらに、著者らは MP3D (ドメイン内) および HM3D (分布外) データセットで LEO のパフォーマンスもテストしました。このタスクは、3 次元シーン、一人称写真、自然言語の指示を入力として受け取り、ビデオ 3 に示すように、モデルは次のアクションを実行する必要があります。

この論文は、表4に示すように、最近の関連研究[7][8]と比較されている。提案された方法は、最短経路データの学習において優れたパフォーマンスを発揮し、SPL指標において以前のベースライン手法を上回っていることがわかります。ただし、LEOモデルは再帰構造を採用していないため、7万回の人間のデモンストレーションを学習する能力には限界があります。

図6. LEO機能の視覚化

3Dシーンでの会話と計画

図6は、さまざまなタスクにおけるLEOの視覚化結果を示しています。指示の微調整トレーニングプロセスにより、LEOは、ユーザーのニーズに応じてシーン内のオブジェクトを見つけたり、さまざまな要件に応じて部屋のオブジェクトを説明したり、提案したりするなど、シーンダイアログを複数回実行できることがわかります。シナリオ情報に基づいて、部屋を勉強スペースとして整理したり、部屋を掃除したり、部屋を模様替えしたりするなどのタスクを計画することもできます。プロジェクトのホームページに、さらに多くの例が掲載されています。

実験分析

図7.アブレーション実験結果

提案されたトレーニング戦略の有効性を研究するために、著者らはさまざまなデータセットとトレーニング段階で複数の比較実験を実施しました。図7-(a)は、複数のタスクで異なるトレーニングデータを使用して得られたモデルのパフォーマンスを示しており、図7-(b)は、異なるサイズのトークンでトレーニングされたモデルがテスト損失に与える影響を示しています。

実験から以下の結論を導き出すことができる：1) 指示微調整訓練はスケーリング則に従う[9]。 2) 提案された 2 段階のトレーニング戦略は重要であり、アライメント段階がないとパフォーマンスが大幅に低下します。 3) モデルパラメータのサイズを 7B から 13B に単純に増やすと、パフォーマンスが低下します。

結論は

本論文で提案されたインテリジェントエージェント LEO は、現在の LLM モデルの機能を 3 次元世界とアクション実行タスクに拡張します。この研究は、汎用的な具現化されたインテリジェントエージェントの構築に向けた重要なステップです。

この研究に基づいて、著者は将来的に以下の側面でさらなる調査を行うことができると考えています。

1) 大規模なシーンテキストデータペアによる3Dビジョン言語ローカリゼーション機能の向上。

2) 視覚言語能力と運動実行能力のギャップを埋める

3) 具現化された一般エージェントの調整と安全性の問題を調査します。

チームについて

この論文の中心チームは、北京総合人工知能研究所の総合視覚研究室から来ています。チームリーダーの黄思源博士は、3次元シーン理解、具現化知能、視覚ロボットなどの関連研究に長年従事してきました。チームには、フルタイムの研究者、エンジニア、インターンを含めて 30 人以上が所属しています。チームの長期的な目標は、未来の汎用的な具現化された知能/視覚ロボットを作成することです。

<<: ジェミニのオンライン初日：ユーザーからの評価はまちまち、デモは「偽物」と疑われ、Googleはそれを認めた

>>: Google BardとChatGPT、どちらを選ぶべきでしょうか?