AIエージェントに完全な人生を与えましょう！ HKU NYU Xie Sainingらによる最新の知的研究：仮想は現実である

より強力な AI エージェントを構築するにはどうすればよいでしょうか?

答えは、彼らに完全で現実的な世界を与えることです。

最近、香港大学のJihan Yang氏とニューヨーク大学のXie Saining氏が共同で、仮想環境で現実世界をシミュレートする新しい研究を発表しました。

論文アドレス: https://arxiv.org/abs/2402.03310

コードアドレス: https://github.com/VIRL-Platform/VIRL

V-IRL と名付けられたこのプロジェクトは、デジタル環境と人間が住む世界との間の大きなギャップを埋め、エージェントがシミュレートされた現実世界の環境でさまざまな複雑なタスクを実行できるようにします。

V-IRL の環境データはすべて現実世界から取得されます。地図、地理情報、ストリートビューなどです。V-IRL はエージェントに現実的で完全な生命を与えると言えます。

V-IRL は、地図、地理空間、ストリートビュー画像などの API を活用して、地球上の実際の都市に AI エージェントを埋め込むスケーラブルなプラットフォームです。

V-IRL は、これまでにない規模と多様性を備え、世界中の何千億もの画像への構造化されたアクセスを提供し、オープンワールドのコンピュータービジョンと具現化された AI の進歩を測定するための大規模なテストベッドとして機能します。

2022 年 5 月現在、Google ストリートビューだけでも 2,200 億枚を超える画像があり、環境を充実させるために統合できる画像やデータのソースは他にも多数あります。

V-IRLエージェント

研究者たちは、V-IRL を使用して、豊富な知覚および記述データに基づいてさまざまな現実世界のタスクを解決するさまざまなエージェントをインスタンス化しました。

たとえば、彭さんは訪問学生として登録するために、書類を取得するためにニューヨーク市内のいくつかの場所を訪問する必要がありました。

地理位置情報とマッピング機能を使用することで、Peng は最短経路をたどって時間を節約できます。

言語主導

以下のAriaでは近くのレストランを検索できます。その後、彼女は一般からのコメントを統合し、GPT-4 を通じて最終的な勧告を行いました。

四川省出身の学生ペンさんに、アリアさんは故郷の味がするスパイシーな中華料理店「チャウ・ハウス」を勧めた。

不動産業者の Vivek は、不動産 API を使用して、Peng の希望するエリアと価格帯に適したアパートを検索します。

Vivek は GPT-4 を使用して全体的な評価とそれに伴う理由を提供します。彼の一番のおすすめは、スーパーマーケット、バス停2つ、ジムに近い、月額1,986ドルのお得な1ベッドルームのアパートです。

ビジョン主導

RX-399は都市支援ロボットです。

以下のデモでは、彼は事前に定義された市内ルートに沿って移動し、オープンワールド検出器と地理位置情報モジュールを使用してすべてのビンをマークしています。

イマニは都市計画家です。

彼女はセントラルパークと関心のあるオブジェクトを通る RX-399 のルートを設定し、RX-399 はそれらのルートを横断して検出されたすべてのインスタンスを記録しました。

RX-399 がルートを完了すると、イマニは RX-399 によって収集されたデータをさまざまな詳細レベルで分析します。

イマニ氏は、RX-399 で収集したデータを活用して、ニューヨーク市のセントラルパークにあるゴミ箱、消火栓、公園のベンチを視覚化しました。上の地図は、公園内のゴミ箱、消火栓、ベンチの一般的な分布を示しており、Imani は特定のエリアを拡大表示することもできます。

Hiro は経験豊富な旅行者で、オープンワールド検出を使用してレストランを見つけ、VQA を使用して正しい道路を選択し、場所のレビューと LLM を使用して場所が自分に適しているかどうかを判断します。

ヒロの香港でのランチ探検はこちらです:

協力

人間は複雑な現実世界の課題を解決するために協力することがよくあります。複雑なタスクを単純なサブタスクに分割し、さまざまな分野の専門家に割り当てます。

したがって、エージェントが単独でタスクを完了できない場合は、ヘルプを求める必要があります。

Ling は、最初に地元の人からルートの説明を受ける観光客です。その後、V-IRL で、Ling はオープンワールド認識とマップを使用してルートを調整できます。

一方、路上の視覚的なランドマークを識別することで、GPT-4 はどこで曲がるか、どこに行くか、どこで止まるかについて適切な判断を下すことができます。

最後のディエゴはコンシェルジュの専門家です。

あなたの心身の状態や各アクティビティの予算を考慮するだけでなく、各アクティビティに参加したときにあなたの状態がどのように変化するか、またコストも予測します。

彼は、V-IRL プラットフォームによって提供される実際の移動時間を考慮し、別のレストラン推奨エージェントと協力して適切な食事プランを選択します。

ステータスを調整して Diego に通知すると、Diego は要件を満たすようにすぐにプランを変更します。

上の図に示すように、Diego は反復的な計画プロセスを使用します。まず、Diego は GPT-4 を使用して最初のアクティビティの初期ドラフト計画を作成し、ユーザーの履歴書、要件、および以前のアクティビティを作業メモリに組み込みます。

その後、草案は階層的な調整（実際の地理空間/位置情報）、感覚的な推定（活動コストと人間の状態への影響）、および監視（予算と潜在的な介入）を通じて改良されます。

システムの基本

V-IRL の階層化デザインは、世界中の現実の都市を巨大な仮想空間に変えます。ここでは、実用的なタスクを解決するためのインテリジェントエージェントを構築できます。

その中で、プラットフォームはシステム全体の基盤となり、インテリジェントエージェントに必要なコンポーネントとインフラストラクチャを提供します。

さらに、インテリジェントエージェントは、知覚、思考、行動、協力などのより高度な能力を発揮することができます。

最後に、エージェントはこれらの機能とユーザー定義の情報を使用して、特定のタスク用に設計された実行中のプログラムで問題の解決策を見つけます。

V-IRLベンチマーク

V-IRL ベンチマークの核となるのは、現実世界の感覚入力から地理的に多様なデータを処理し、Google Maps Platform (GMP) と対話するための便利な API を提供する機能です。

これを基に研究者らは、既存のビジュアルモデルがこの種のオープンワールドデータを処理する能力をテストするために、3 つの V-IRL ベンチマークを構築しました。

V-IRL ロケーション: ポジショニング

- モチベーション

人々は毎日街中を移動し、さまざまな目的でさまざまな場所へ行きます。

したがって、ストリートビュー画像とそれに関連する場所データを使用して、日常的な場所特定タスクにおける視覚モデルのパフォーマンスをテストできます。

- 設定

研究者らは、RX-399 エージェントを微調整し、20 種類の場所を特定して識別しながら多角形の領域を移動できるようにしました。

テストには、GroundingDINO、GLIP、Owl-ViT という 3 つのよく知られたオープンワールド検出モデルが含まれています。

さらに、研究者らは、CLIP を使用して GLIP によって提案された分類を再分類するシンプルなベンチマークモデルである CLIP (GLIP 提案と組み合わせた) を設定しました。

モデルは、位置特定試行の総数における位置特定された場所の数に対する、正しく位置特定された場所の数の比率である位置特定再現率に基づいて評価されます。

- 結果

下の表に示すように、GroundingDINO、Owl-ViT、GLIP などのオープンワールド検出器は、特定の場所の種類 (学校、カフェ、コンビニエンスストアなど) を明確に優先します。

対照的に、CLIP (GLIP 提案と組み合わせる) は、より広範囲の場所を識別できます。これは主に、通常は限られた語彙しか含まれていないオブジェクト検出データセットに存在するクラスバイアスによるものです。

したがって、Owl-ViT などの CLIP で初期化された検出器であっても、微調整後は語彙が少なくなります。

これらの調査結果は、ゼロショット認識技術を使用したオープンワールドの位置特定にクラスに依存しないオブジェクト提案を使用することが、オブジェクト検出データセットではあまり一般的ではないクラスに対して有望なアプローチであることを示唆しています。

V-IRLロケーション: 認識と視覚的な質問応答

- モチベーション

ストリートビュー画像で実行される複雑な V-IRL 場所特定タスクと比較すると、人々は現実の生活の中で注意深く観察することでさまざまな商業場所を簡単に識別できます。

これを踏まえて、研究者らは、2 つの位置重視の画像認識タスクで既存の視覚モデルを評価しました。

（１）特定の場所の種類を特定する。

（２）視覚的な質問応答（意図VQAとも呼ばれる）を通じて人間の意図を識別する。

- 設定

認識面では、研究者らは 10 個のオープンワールド認識モデルを評価しました。テストでは場所中心の画像が使用され、モデルは 96 の選択肢から場所の種類を識別する必要がありました。

意図 VQA に関しては、研究者らは 4 つの選択肢を含む多肢選択式の質問を通じて人間の考えられる意図を判断することにより、8 つのマルチモーダル大規模言語モデル (MM-LLM) も評価しました。

V-IRL ロケーション VQA のプロセスを下の図に示します。各質問に対する可能な回答と正解は GPT-4 によって自動的に生成されます。

- 結果

下の表に示すように、V-RL 場所認識タスクでは、CLIP (L/14@336px) が Eva-02-CLIP および SigLIP の最大バージョンよりも優れており、CLIP データの品質が高いことが強調されています。

表の下部は、意図的な VQA の場合、BLIP2、InstructBLIP、LLaVA-1.5 のパフォーマンスは良好であるのに対し、他のモデルのパフォーマンスは低いことを示しています。

最もパフォーマンスの良かった 3 つの MM-LLM は評価プロセス中に一貫した回答を出しましたが、他のモデルは選択に一貫性がなかったために失敗することが多いことがわかります。

V-IRL ビジュアル言語ナビゲーション

- モチベーション

Intentional Explorer エージェントと Tourist エージェントが複雑なタスクを完了するには、視覚モデルと言語モデルの両方を使用する必要があります。

そこで研究者らは、実際の街頭シーンを組み込んだ新しいタスクを導入して、V-IRL 視覚言語ナビゲーション (VLN) ベンチマークを作成しました。

- 設定

研究者らは、観光エージェントの認識コンポーネントを、ナビゲーション中に視覚的なランドマークを識別する役割を果たす別のベンチマークモデルに置き換えることで、観光エージェントの実装を微調整しました。次に、GPT-4 は認識結果に基づいて次のアクションを予測します。このうち、ナビゲーション指示はローカルエージェントによって生成されます。

ここで研究者たちは、ナビゲーション中にランドマークを識別する能力について 4 つの方法を評価しました。

（１）近くのランドマークを検索して近似する方法

（２）ゼロショット識別子CLIPおよびEVA-02-CLIP

（３）マルチモーダル大規模言語モデルLLaVA-1.5

（4）OCRモデルを使用して街頭シーンのテキストを認識し、GPTを通じて回答を解析します。

- 結果

下の表に示すように、Oracle ランドマーク情報を使用すると、強力な LLM がナビゲーション指示を正確に理解し、正しい決定を下すことができ、印象的です。

しかし、ストリートビューからランドマーク情報を取得するために視覚モデルに頼ると、成功率が大幅に低下します。これは、視覚モデルの認識が誤解を招き、LLM の決定に影響を与えることを示しています。

これらの認識装置の中で、CLIP と EVA-02-CLIP の大規模バージョンのパフォーマンスが優れており、モデルのスケーリングの利点が強調されています。

LLaVA-1.5 は、ビジュアルエンコーダーとして CLIP (L/14@336px) を使用するとパフォーマンスが低下します。これは、命令の微調整中にアライメントの問題が発生するためと考えられます。

さらに、PP-OCR（+ GPT-3.5）の成功率は28％であり、OCRが視覚的なランドマーク認識に非常に重要であることがわかります。

地理的多様性と課題

V-IRL ベンチマークは世界中の 12 の異なる都市をカバーしており、地域間の視覚モデルにおける潜在的なバイアスに関する独自の視点を提供します。

下のグラフが示すように、視覚モデルはナイジェリアのラゴス、日本の東京、中国の香港、アルゼンチンのブエノスアイレスではパフォーマンスが低下しています。

中でも東京、香港、ブエノスアイレスなどの都市では、一般的に英語以外の文字が使用されています。ラゴスの街の風景は先進都市のそれとは大きく異なっており、ほとんどすべての視覚モデルを困惑させています。

この現象は重要な問題を明らかにしています。現在の視覚モデルは、複数の言語を含む画像データの処理に課題を抱えています。

結論は

オープンソースプラットフォーム V-IRL は、もともとデジタル世界と現実世界の間の知覚ギャップを狭め、AI エージェントが仮想と現実の両方の環境で現実世界と対話できるようにするために設計されました。

V-IRL を使用すると、エージェントは実際の地理情報とストリートビュー画像に基づいて、環境に関する豊富な認識機能と理解力を開発できます。

研究者らは、さまざまなサンプルエージェントを構築し、パフォーマンス評価を実施することで、グローバル視覚データ処理における言語および視覚モデルに対するプラットフォームの幅広い応用可能性を実証し、環境を理解し、意思決定を行い、現実世界の情報を処理する AI の能力を向上させる新たな可能性を切り開きました。

空間コンピューティング技術とロボットシステムの人気の高まりに伴い、AI エージェントの需要と応用シナリオは拡大し続けるでしょう。

パーソナルアシスタントから都市計画、視覚障害者の生活支援ツールまで、私たちは周囲の世界を深く理解するインテリジェントエージェントの時代を待ち望んでいます。