AIエージェントに完全な人生を与えましょう! HKU NYU Xie Sainingらによる最新の知的研究:仮想は現実である

AIエージェントに完全な人生を与えましょう! HKU NYU Xie Sainingらによる最新の知的研究:仮想は現実である

より強力な AI エージェントを構築するにはどうすればよいでしょうか?

答えは、彼らに完全で現実的な世界を与えることです。

最近、香港大学のJihan Yang氏とニューヨーク大学のXie Saining氏が共同で、仮想環境で現実世界をシミュレートする新しい研究を発表しました。

論文アドレス: https://arxiv.org/abs/2402.03310

コードアドレス: https://github.com/VIRL-Platform/VIRL

V-IRL と名付けられたこのプロジェクトは、デジタル環境と人間が住む世界との間の大きなギャップを埋め、エージェントがシミュレートされた現実世界の環境でさまざまな複雑なタスクを実行できるようにします。

V-IRL の環境データはすべて現実世界から取得されます。地図、地理情報、ストリート ビューなどです。V-IRL はエージェントに現実的で完全な生命を与えると言えます。

V-IRL は、地図、地理空間、ストリートビュー画像などの API を活用して、地球上の実際の都市に AI エージェントを埋め込むスケーラブルなプラットフォームです。

V-IRL は、これまでにない規模と多様性を備え、世界中の何千億もの画像への構造化されたアクセスを提供し、オープンワールドのコンピューター ビジョンと具現化された AI の進歩を測定するための大規模なテストベッドとして機能します。

2022 年 5 月現在、Google ストリートビューだけでも 2,200 億枚を超える画像があり、環境を充実させるために統合できる画像やデータのソースは他にも多数あります。

V-IRLエージェント

研究者たちは、V-IRL を使用して、豊富な知覚および記述データに基づいてさまざまな現実世界のタスクを解決するさまざまなエージェントをインスタンス化しました。

たとえば、彭さんは訪問学生として登録するために、書類を取得するためにニューヨーク市内のいくつかの場所を訪問する必要がありました。

地理位置情報とマッピング機能を使用することで、Peng は最短経路をたどって時間を節約できます。

言語主導

以下のAriaでは近くのレストランを検索できます。その後、彼女は一般からのコメントを統合し、GPT-4 を通じて最終的な勧告を行いました。

四川省出身の学生ペンさんに、アリアさんは故郷の味がするスパイシーな中華料理店「チャウ・ハウス」を勧めた。

不動産業者の Vivek は、不動産 API を使用して、Peng の希望するエリアと価格帯に適したアパートを検索します。

Vivek は GPT-4 を使用して全体的な評価とそれに伴う理由を提供します。彼の一番のおすすめは、スーパーマーケット、バス停2つ、ジムに近い、月額1,986ドルのお得な1ベッドルームのアパートです。

ビジョン主導

RX-399は都市支援ロボットです。

以下のデモでは、彼は事前に定義された市内ルートに沿って移動し、オープン ワールド検出器と地理位置情報モジュールを使用してすべてのビンをマークしています。

イマニは都市計画家です。

彼女はセントラル パークと関心のあるオブジェクトを通る RX-399 のルートを設定し、RX-399 はそれらのルートを横断して検出されたすべてのインスタンスを記録しました。

RX-399 がルートを完了すると、イマニは RX-399 によって収集されたデータをさまざまな詳細レベルで分析します。

イマニ氏は、RX-399 で収集したデータを活用して、ニューヨーク市のセントラル パークにあるゴミ箱、消火栓、公園のベンチを視覚化しました。上の地図は、公園内のゴミ箱、消火栓、ベンチの一般的な分布を示しており、Imani は特定のエリアを拡大表示することもできます。

Hiro は経験豊富な旅行者で、オープン ワールド検出を使用してレストランを見つけ、VQA を使用して正しい道路を選択し、場所のレビューと LLM を使用して場所が自分に適しているかどうかを判断します。

ヒロの香港でのランチ探検はこちらです:

協力

人間は複雑な現実世界の課題を解決するために協力することがよくあります。複雑なタスクを単純なサブタスクに分割し、さまざまな分野の専門家に割り当てます。

したがって、エージェントが単独でタスクを完了できない場合は、ヘルプを求める必要があります。

Ling は、最初に地元の人からルートの説明を受ける観光客です。その後、V-IRL で、Ling はオープンワールド認識とマップを使用してルートを調整できます。

一方、路上の視覚的なランドマークを識別することで、GPT-4 はどこで曲がるか、どこに行くか、どこで止まるかについて適切な判断を下すことができます。

最後のディエゴはコンシェルジュの専門家です。

あなたの心身の状態や各アクティビティの予算を考慮するだけでなく、各アクティビティに参加したときにあなたの状態がどのように変化するか、またコストも予測します。

彼は、V-IRL プラットフォームによって提供される実際の移動時間を考慮し、別のレストラン推奨エージェントと協力して適切な食事プランを選択します。

ステータスを調整して Diego に通知すると、Diego は要件を満たすようにすぐにプランを変更します。

上の図に示すように、Diego は反復的な計画プロセスを使用します。まず、Diego は GPT-4 を使用して最初のアクティビティの初期ドラフト計画を作成し、ユーザーの履歴書、要件、および以前のアクティビティを作業メモリに組み込みます。

その後、草案は階層的な調整(実際の地理空間/位置情報)、感覚的な推定(活動コストと人間の状態への影響)、および監視(予算と潜在的な介入)を通じて改良されます。

システムの基本

V-IRL の階層化デザインは、世界中の現実の都市を巨大な仮想空間に変えます。ここでは、実用的なタスクを解決するためのインテリジェントエージェントを構築できます。

その中で、プラットフォームはシステム全体の基盤となり、インテリジェント エージェントに必要なコンポーネントとインフラストラクチャを提供します。

さらに、インテリジェントエージェントは、知覚、思考、行動、協力などのより高度な能力を発揮することができます。

最後に、エージェントはこれらの機能とユーザー定義の情報を使用して、特定のタスク用に設計された実行中のプログラムで問題の解決策を見つけます。

V-IRLベンチマーク

V-IRL ベンチマークの核となるのは、現実世界の感覚入力から地理的に多様なデータを処理し、Google Maps Platform (GMP) と対話するための便利な API を提供する機能です。

これを基に研究者らは、既存のビジュアル モデルがこの種のオープン ワールド データを処理する能力をテストするために、3 つの V-IRL ベンチマークを構築しました。

V-IRL ロケーション: ポジショニング

- モチベーション

人々は毎日街中を移動し、さまざまな目的でさまざまな場所へ行きます。

したがって、ストリートビュー画像とそれに関連する場所データを使用して、日常的な場所特定タスクにおける視覚モデルのパフォーマンスをテストできます。

- 設定

研究者らは、RX-399 エージェントを微調整し、20 種類の場所を特定して識別しながら多角形の領域を移動できるようにしました。

テストには、GroundingDINO、GLIP、Owl-ViT という 3 つのよく知られたオープン ワールド検出モデルが含まれています。

さらに、研究者らは、CLIP を使用して GLIP によって提案された分類を再分類するシンプルなベンチマーク モデルである CLIP (GLIP 提案と組み合わせた) を設定しました。

モデルは、位置特定試行の総数における位置特定された場所の数に対する、正しく位置特定された場所の数の比率である位置特定再現率に基づいて評価されます。

- 結果

下の表に示すように、GroundingDINO、Owl-ViT、GLIP などのオープンワールド検出器は、特定の場所の種類 (学校、カフェ、コンビニエンス ストアなど) を明確に優先します。

対照的に、CLIP (GLIP 提案と組み合わせる) は、より広範囲の場所を識別できます。これは主に、通常は限られた語彙しか含まれていないオブジェクト検出データセットに存在するクラスバイアスによるものです。

したがって、Owl-ViT などの CLIP で初期化された検出器であっても、微調整後は語彙が少なくなります。

これらの調査結果は、ゼロショット認識技術を使用したオープンワールドの位置特定にクラスに依存しないオブジェクト提案を使用することが、オブジェクト検出データセットではあまり一般的ではないクラスに対して有望なアプローチであることを示唆しています。

V-IRLロケーション: 認識と視覚的な質問応答

- モチベーション

ストリートビュー画像で実行される複雑な V-IRL 場所特定タスクと比較すると、人々は現実の生活の中で注意深く観察することでさまざまな商業場所を簡単に識別できます。

これを踏まえて、研究者らは、2 つの位置重視の画像認識タスクで既存の視覚モデルを評価しました。

(1)特定の場所の種類を特定する。

(2)視覚的な質問応答(意図VQAとも呼ばれる)を通じて人間の意図を識別する。

- 設定

認識面では、研究者らは 10 個のオープンワールド認識モデルを評価しました。テストでは場所中心の画像が使用され、モデルは 96 の選択肢から場所の種類を識別する必要がありました。

意図 VQA に関しては、研究者らは 4 つの選択肢を含む多肢選択式の質問を通じて人間の考えられる意図を判断することにより、8 つのマルチモーダル大規模言語モデル (MM-LLM) も評価しました。

V-IRL ロケーション VQA のプロセスを下の図に示します。各質問に対する可能な回答と正解は GPT-4 によって自動的に生成されます。

- 結果

下の表に示すように、V-RL 場所認識タスクでは、CLIP (L/14@336px) が Eva-02-CLIP および SigLIP の最大バージョンよりも優れており、CLIP データの品質が高いことが強調されています。

表の下部は、意図的な VQA の場合、BLIP2、InstructBLIP、LLaVA-1.5 のパフォーマンスは良好であるのに対し、他のモデルのパフォーマンスは低いことを示しています。

最もパフォーマンスの良かった 3 つの MM-LLM は評価プロセス中に一貫した回答を出しましたが、他のモデルは選択に一貫性がなかったために失敗することが多いことがわかります。

V-IRL ビジュアル言語ナビゲーション

- モチベーション

Intentional Explorer エージェントと Tourist エージェントが複雑なタスクを完了するには、視覚モデルと言語モデルの両方を使用する必要があります。

そこで研究者らは、実際の街頭シーンを組み込んだ新しいタスクを導入して、V-IRL 視覚言語ナビゲーション (VLN) ベンチマークを作成しました。

- 設定

研究者らは、観光エージェントの認識コンポーネントを、ナビゲーション中に視覚的なランドマークを識別する役割を果たす別のベンチマーク モデルに置き換えることで、観光エージェントの実装を微調整しました。次に、GPT-4 は認識結果に基づいて次のアクションを予測します。このうち、ナビゲーション指示はローカルエージェントによって生成されます。

ここで研究者たちは、ナビゲーション中にランドマークを識別する能力について 4 つの方法を評価しました。

(1)近くのランドマークを検索して近似する方法

(2)ゼロショット識別子CLIPおよびEVA-02-CLIP

(3)マルチモーダル大規模言語モデルLLaVA-1.5

(4)OCRモデルを使用して街頭シーンのテキストを認識し、GPTを通じて回答を解析します。

- 結果

下の表に示すように、Oracle ランドマーク情報を使用すると、強力な LLM がナビゲーション指示を正確に理解し、正しい決定を下すことができ、印象的です。

しかし、ストリートビューからランドマーク情報を取得するために視覚モデルに頼ると、成功率が大幅に低下します。これは、視覚モデルの認識が誤解を招き、LLM の決定に影響を与えることを示しています。

これらの認識装置の中で、CLIP と EVA-02-CLIP の大規模バージョンのパフォーマンスが優れており、モデルのスケーリングの利点が強調されています。

LLaVA-1.5 は、ビジュアル エンコーダーとして CLIP (L/14@336px) を使用するとパフォーマンスが低下します。これは、命令の微調整中にアライメントの問題が発生するためと考えられます。

さらに、PP-OCR(+ GPT-3.5)の成功率は28%であり、OCRが視覚的なランドマーク認識に非常に重要であることがわかります。

地理的多様性と課題

V-IRL ベンチマークは世界中の 12 の異なる都市をカバーしており、地域間の視覚モデルにおける潜在的なバイアスに関する独自の視点を提供します。

下のグラフが示すように、視覚モデルはナイジェリアのラゴス、日本の東京、中国の香港、アルゼンチンのブエノスアイレスではパフォーマンスが低下しています。

中でも東京、香港、ブエノスアイレスなどの都市では、一般的に英語以外の文字が使用されています。ラゴスの街の風景は先進都市のそれとは大きく異なっており、ほとんどすべての視覚モデルを困惑させています。

この現象は重要な問題を明らかにしています。現在の視覚モデルは、複数の言語を含む画像データの処理に課題を抱えています。

結論は

オープンソース プラットフォーム V-IRL は、もともとデジタル世界と現実世界の間の知覚ギャップを狭め、AI エージェントが仮想と現実の両方の環境で現実世界と対話できるようにするために設計されました。

V-IRL を使用すると、エージェントは実際の地理情報とストリートビュー画像に基づいて、環境に関する豊富な認識機能と理解力を開発できます。

研究者らは、さまざまなサンプルエージェントを構築し、パフォーマンス評価を実施することで、グローバル視覚データ処理における言語および視覚モデルに対するプラットフォームの幅広い応用可能性を実証し、環境を理解し、意思決定を行い、現実世界の情報を処理する AI の能力を向上させる新たな可能性を切り開きました。

空間コンピューティング技術とロボットシステムの人気の高まりに伴い、AI エージェントの需要と応用シナリオは拡大し続けるでしょう。

パーソナルアシスタントから都市計画、視覚障害者の生活支援ツールまで、私たちは周囲の世界を深く理解するインテリジェントエージェントの時代を待ち望んでいます。

著者について

ヤン・ジハン

論文の筆頭著者であるJihan Yangは現在、香港大学電子電気工学学院でXiaojuan Qi博士の指導の下、博士号取得を目指して研究している。

これに先立ち、彼は中山大学で学士号を取得しており、指導教員は梁林教授と李冠斌教授でした。

さらに、彼は Ruijia Xu、Shaoshuai Shi 博士、Unyu Ding、Zhe Wang 博士と緊密に協力しています。

<<:  ソラを解剖:技術的な詳細を推測するための37ページのリバースエンジニアリング、マイクロソフトも参加、中国チームが制作

>>:  黄氏の最新インタビュー:チップ不足はなかなか解消されず、次のトランスフォーマーはすでに登場している

推薦する

AIが再び大学入試小論文に挑戦、強力なハードコア技術で「数秒」の文章作成を実現

昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...

制御核融合における新たなマイルストーン! AIがプラズマの裂け目を予測することに成功し、ネイチャー誌に掲載され、クリーンエネルギーの「聖杯」に一歩近づいた。

制御された核融合に新たな進歩がありました!核融合は長い間、プラズマ不安定性の問題という「幽霊」に悩ま...

企業チームのスキルは AI 導入の障壁となるのでしょうか?

人工知能は驚くべきことを実現できますが、いくつかの障害にも直面しています。 2021年に3,500人...

...

...

AI時代が到来。プロの写真家は淘汰されるのか?

テクノロジー業界では、AI の進化により、プロの写真家を含む多くの仕事が置き換えられるだろうという意...

Baidu が公式発表: 自動運転車は 2018 年に量産開始予定!

たった今、百度が公式発表しました。自動運転車は2018年に量産される予定です。 Subversion...

JavaScript におけるいくつかの一般的なソートアルゴリズムの共有

説明する各ブラウザテストから取得されるデータは異なります。たとえば、Chrome を使用してテストす...

インターネットの後半、人工知能の春は始まったばかり

最近、インターネット企業における「人員最適化」問題が友人の間で話題になっており、多くの人がパニックに...

...

...

700 を超えるチームが登録し、「ICV アルゴリズム研究タスクの第 1 バッチ」の登録フェーズが成功裏に終了しました。

中国の自動車産業は、インテリジェンスとネットワーキングを核として、競争の後半期に突入しています。新世...

テキストマイニングの詳細: ツール、タスク、問題、解決策

[51CTO.com クイック翻訳] 現在、世界中のあらゆる場所で大量のデータが絶えず生成されており...

AI革命をリードする:企業がAIアプリケーションを推進するためのベストプラクティス

AI がより高度化し、普及するにつれて、多くの企業が最高 AI 責任者 (CAIO) を任命するかど...