AIモデルをGTAの5つ星プレイヤーにしよう、視覚ベースのプログラム可能なエージェントOctopusが登場

ビデオゲームは今日、現実世界のシミュレーションとなり、無限の可能性を示しています。ゲーム「グランド・セフト・オート（GTA）」を例に挙げてみましょう。GTAの世界では、プレイヤーは一人称視点でロスサントス（ゲーム内の仮想都市）での多彩な生活を体験できます。しかし、人間のプレイヤーはロスサントスを自由に歩き回り、いくつかのタスクを完了することができるので、GTA のキャラクターを制御し、タスクを実行する「プレイヤー」になる AI ビジュアルモデルも用意できるのでしょうか? GTA の AI プレイヤーは、5 つ星の善良な市民として行動し、交通ルールを守り、警察が犯罪者を捕まえるのを手伝い、さらには心優しい通行人となってホームレスが適切な住居を見つけるのを手伝うことができるでしょうか?

現在の視覚言語モデル (VLM) は、マルチモーダル知覚と推論において大きな進歩を遂げていますが、多くの場合、より単純な視覚的質問応答 (VQA) または視覚的キャプション (キャプション) タスクに基づいています。これらのタスク設定では、VLM が現実世界でタスクを実際に完了できないことは明らかです。実際のタスクでは、視覚情報の理解だけでなく、リアルタイムで更新される環境情報に基づいてモデルが計画、推論、フィードバックを提供する能力も必要となるためです。同時に、生成された計画は、タスクを現実的に完了するために、環境内のエンティティを操作できる必要もあります。

既存の言語モデル (LLM) は、提供された情報に基づいてタスクを計画できますが、視覚入力を理解することができないため、現実世界で特定のタスクを実行する際の言語モデルの適用範囲が大幅に制限されます。特に、一部の具現化された知能タスクでは、テキストベースの入力を詳細に記述することが困難であったり、複雑すぎたりすることが多く、言語モデルがそこから情報を効率的に抽出してタスクを完了することが不可能になります。現在の言語モデルはプログラム生成の調査に使用されてきましたが、視覚的な入力に基づいて構造化され、実行可能で、堅牢なコードを生成することについてはほとんど調査されていません。

大規模モデルを具体化してインテリジェント化し、正確に計画を立ててコマンドを実行できる自律的でコンテキストを認識するシステムを作成する方法という問題を解決するために、シンガポールの南洋理工大学、清華大学などの学者がOctopusを提案しました。 Octopus は、視覚入力から学習し、現実世界を理解し、実行可能なコードを生成する方法でさまざまな実用的なタスクを完了することを目的とした、視覚ベースのプログラム可能なエージェントです。視覚的な入力と実行可能なコードの大量のデータペアをトレーニングすることで、Octopus はビデオゲームのキャラクターを操作してゲームタスクを完了したり、複雑な家事を実行したりする方法を学びました。

論文アドレス: https://arxiv.org/abs/2310.08588
プロジェクトウェブサイト: https://choiszt.github.io/Octopus/
オープンソースコード: https://github.com/dongyh20/Octopus

データ収集とトレーニング

具現化された知能タスクを完了できる視覚言語モデルをトレーニングするために、研究者らは Octopus トレーニング用のトレーニングデータとテスト環境を提供する 2 つのシミュレーションシステムで構成される OctoVerse も開発しました。これら 2 つのシミュレーション環境は、VLM の具体化されたインテリジェンスに利用可能なトレーニングおよびテストシナリオを提供し、モデルの推論およびタスク計画機能に高い要求を課します。詳細は以下の通りです。

1. OctoGibson：スタンフォード大学が開発したOmniGibsonをベースに、実生活に沿った合計476の家庭内アクティビティが含まれています。シミュレーション環境全体には、155 の実際の家庭環境インスタンスをカバーする 16 種類の家庭シーンのカテゴリが含まれています。モデルは、多数のインタラクティブオブジェクトを操作して最終タスクを完了できます。

2. OctoGTA: Grand Theft Auto (GTA) ゲームに基づいて、合計 20 のミッションが構築され、5 つの異なるシナリオに一般化されました。プレイヤーは事前に設定されたプログラムによって固定された場所に設定され、タスクを完了するために必要なアイテムと NPC が提供され、タスクがスムーズに進行できるようにします。

次の図は、OctoGibson のタスク分類と、OctoGibson と OctoGTA のいくつかの統計結果を示しています。

構築された 2 つのシミュレーション環境でトレーニングデータを効率的に収集するために、研究者は完全なデータ収集システムを構築しました。研究者らは、GPT-4をタスクの実行者として導入することで、事前に実装された関数を使用して、シミュレーション環境で収集された視覚入力をテキスト情報に処理し、GPT-4に提供しました。GPT-4が現在のステップのタスク計画と実行コードを返した後、シミュレーション環境でコードを実行し、現在のステップのタスクが完了したかどうかを判断しました。成功した場合は、次のステップの視覚入力の収集を続行します。失敗した場合は、前のステップの開始位置に戻って再度データを収集します。

上の図は、OctoGibson 環境の Cook a Bacon タスクを例として使用し、データ収集の完全なプロセスを示しています。注目すべきは、データ収集の過程で、研究者らはタスク実行中の視覚情報やGPT-4から返された実行コードなどを記録しただけでなく、各サブタスクの成功も記録したということだ。これらは、その後の強化学習の導入の基礎となり、より効率的なVLMを構築するための基盤となる。 GPT-4 は強力ですが、無敵というわけではありません。エラーは、構文エラーやシミュレーターの物理的な問題など、さまざまな形で現れる可能性があります。たとえば、図 3 に示すように、状態 #5 と #6 の間では、エージェントが持っているベーコンとフライパンの間の距離が遠すぎるため、「ベーコンをフライパンに入れる」というアクションは失敗します。このような障害により、タスクは以前の状態にリセットされます。タスクが 10 ステップ後に完了しない場合は、失敗とみなされ、予算の問題によりタスクは終了します。このタスクのサブタスクのすべてのデータペアは失敗したとみなされます。

一定量のトレーニングデータを収集した後、研究者たちはこのデータを使用して、Octopus と呼ばれる具現化されたインテリジェントな視覚言語モデルをトレーニングしました。上の図は、完全なデータ収集とトレーニングのプロセスを示しています。最初の段階では、収集したデータを教師あり微調整に使用して、研究者は視覚情報を固定形式で入力および出力できる VLM モデルを構築しました。この段階で、モデルは視覚的な入力情報をタスクプランと実行可能コードにマッピングできるようになります。第2段階では、研究者らはRLEFを導入した。

(環境フィードバックによる強化学習) では、以前に収集されたサブタスクの成功を報酬信号として使用することにより、強化学習アルゴリズムを使用して VLM のタスク計画機能をさらに強化し、全体的なタスクの成功率を向上させます。

実験結果

研究者らは、構築された OctoGibson 環境で、現在主流となっている VLM と LLM をテストしました。次の表は、主な実験結果を示しています。さまざまなテストモデルの場合、ビジョンモデルには、さまざまなモデルで使用される視覚モデルがリストされます。LLM の場合、研究者は視覚情報を LLM の入力としてテキストに変換します。 O はシーン内のインタラクティブなオブジェクトに関する情報の提供を表し、R はシーン内のオブジェクトの相対的な関係に関する情報の提供を表し、GT は検出のための追加の視覚モデルを導入せずに実際の正確な情報を使用することを表します。

すべてのテストタスクについて、研究者は完全なテストアンサンブルパワーを報告します。これはさらに 4 つのカテゴリに分かれており、トレーニングセットに存在するシナリオで新しいタスクを完了する一般化能力、トレーニングセットに存在しないシナリオで新しいタスクを完了する能力、および単純な追跡タスクと複雑な推論タスクへの一般化能力を記録します。研究者らは、統計の各カテゴリについて、2 つの評価指標を報告しました。1 つ目はタスク完了率で、これは具現化された知能タスクを完了する際のモデルの成功率を測定します。2 つ目はタスク計画の精度で、これはモデルのタスク計画能力を反映するために使用されます。

さらに、研究者らは、OctoGibson シミュレーション環境で収集された視覚データにさまざまなモデルがどのように反応するかの例を示しました。下の図は、OctoGibson の視覚入力に対して TAPA+CodeLLaMA、Octopus、GPT-4V によって生成された応答を示しています。 TAPA + CodeLLaMA と教師あり微調整のみを実行した Octopus モデルと比較すると、RLEF でトレーニングされた Octopus モデルのタスク計画はより合理的であり、より曖昧なタスク指示 (カーボイを見つける) に対してもより完全な計画を提供できることがわかります。これらのパフォーマンスは、モデルのタスク計画と推論機能の向上における RLEF トレーニング戦略の有効性をさらに実証しています。

一般的に、シミュレーション環境における既存のモデルの実際のタスク完了機能とタスク計画機能には、まだ改善の余地が大いにあります。研究者らはいくつかの重要な調査結果を要約した。

1. CodeLLaMA はモデルのコード生成機能を向上させることができますが、タスク計画機能を向上させることはできません。

研究者らは、実験結果から CodeLLaMA がモデルのコード生成機能を大幅に向上できることが示されていると指摘した。従来の LLM と比較して、CodeLLaMA を使用すると、より優れた実行可能なコードを取得できます。ただし、一部のモデルではコード生成に CodeLLaMA を使用していますが、全体的なミッションの成功率は依然としてミッション計画機能によって制限されます。タスク計画能力が弱いモデルは、生成されたコードの実行率は高くなりますが、最終的なタスク成功率は依然として低いです。一方、Octopus は CodeLLaMA を使用していないためコードの実行率は低下しますが、強力なタスク計画能力により、全体的なタスク成功率は依然として他のモデルよりも優れています。

2. LLM は大量のテキスト情報入力を処理するのが困難です。

実際のテストの過程で、研究者はTAPAとCodeLLaMAの実験結果を比較し、言語モデルでは長いテキスト入力をうまく処理することが難しいという結論に達しました。研究者たちは TAPA のアプローチに従い、タスク計画に実際のオブジェクトの情報を使用しましたが、CodeLLaMA はより完全な情報を提供するためにオブジェクト間の相対的な位置関係を使用しました。しかし、実験中、研究者らは、環境内に大量の冗長情報が存在するため、環境が複雑になるとテキスト入力が大幅に増加し、LLMが大量の冗長情報から貴重な手がかりを抽出することが困難になり、タスクの成功率が低下することを発見しました。これは LLM の限界を反映したものでもあり、つまり、複雑なシーンを表現するためにテキスト情報を使用すると、大量の冗長で価値のない入力情報が生成されます。

3. タコは優れたタスク一般化能力を示します。

実験結果は、Octopus が強力なタスク一般化能力を持っていることを示しています。トレーニングセットに登場しなかった新しいシナリオでのタスクの完了とタスクの計画の成功率は、どちらも既存のモデルよりも優れています。これは、同じカテゴリのタスクに対して従来の LLM よりも一般化が優れている、視覚言語モデルの固有の利点も示しています。

4. RLEF はモデルのタスク計画機能を強化できます。

実験結果では、研究者らは、教師あり微調整の最初の段階のみを経たモデルと、RLEF トレーニング後のモデルのパフォーマンス比較を示しました。 RLEF トレーニング後、強力な推論とタスク計画機能を必要とするタスクにおいて、モデルの全体的な成功率と計画能力が大幅に向上したことがわかります。既存の VLM トレーニング戦略と比較して、RLEF もより効率的です。上の図に示す例は、RLEF トレーニング後のモデルのタスク計画能力の向上も反映しています。 RLEF トレーニング後、モデルはより複雑なタスクに直面したときに環境を探索する方法を理解できます。さらに、モデルはタスク計画においてシミュレーション環境の実際の要件をより適切に遵守できます (たとえば、モデルはインタラクションを開始する前にインタラクションするオブジェクトに移動する必要があります)。これにより、タスク計画の失敗率が低減します。

話し合う

アブレーション実験

研究者らは、モデルの実際の機能を評価した後、モデルのパフォーマンスに影響を与える可能性のあるいくつかの要因をさらに調査しました。下の図に示すように、研究者たちは3つの側面から実験を行いました。

1. トレーニングパラメータの重み

研究者らは、視覚モデルと言語モデルの連結層のみをトレーニングした場合、連結層と言語モデルをトレーニングした場合、および完全にトレーニングされたモデルのパフォーマンスを比較しました。トレーニングパラメータが増加すると、モデルのパフォーマンスが徐々に向上することがわかります。これは、トレーニングパラメータの数が、モデルがいくつかの固定シナリオでタスクを完了できるかどうかに非常に重要であることを示しています。

2. モデルサイズ

研究者らは、2 つのトレーニングフェーズにわたって、より小さな 3B パラメータモデルのパフォーマンスをベースライン 7B モデルと比較しました。比較すると、モデルパラメータの総数が多い場合、モデルのパフォーマンスが大幅に向上することがわかります。モデルが対応するタスクを完了する能力を持ちながら、モデルの軽量性と高速な推論速度を確保できるように、適切なモデルトレーニングパラメータを選択する方法が、今後の VLM 研究の重要なポイントになります。

3. 視覚入力の継続性

さまざまな視覚入力が実際の VLM パフォーマンスに与える影響を調査するために、研究者は視覚情報の入力順序に関する実験を実施しました。テスト中、モデルはシミュレーション環境内で順次回転し、一人称画像を収集し、2 つの鳥瞰図を収集し、これらの視覚画像が順番に VLM に入力されます。実験では、研究者が視覚画像の順序をランダムにシャッフルして VLM に入力したところ、VLM のパフォーマンスが大幅に低下しました。これは、一方では、VLM にとって完全かつ構造化された視覚情報の重要性を示しています。他方では、VLM が視覚入力に応答する際に、視覚イメージの本質的な接続に依存する必要があることも、ある程度反映しています。この視覚的な接続が破壊されると、VLM のパフォーマンスに大きな影響が及びます。

GPT-4

さらに、研究者らはシミュレーション環境でGPT-4とGPT-4Vのパフォーマンスをテストし、分析しました。

1. GPT-4

GPT-4 の場合、テストプロセス中に、研究者はトレーニングデータを収集するために使用されたのとまったく同じテキスト情報を入力として提供しました。テストタスクでは、GPT-4 はタスクの半分を完了することができました。これは、一方では、GPT-4 のような言語モデルと比較して、既存の VLM にはパフォーマンスの向上の余地がまだたくさんあることを示しています。他方では、GPT-4 のような高性能言語モデルであっても、具現化された知能タスクに直面した場合、タスクの計画と実行機能をさらに向上させる必要があることも示しています。

2. GPT-4V

GPT-4V は直接呼び出せる API をリリースしたばかりなので、研究者たちはそれを試す時間がありませんでしたが、GPT-4V のパフォーマンスを実証するためにいくつかの例を手動でテストしました。研究者たちは、いくつかの例を通して、GPT-4Vはシミュレーション環境のタスクに対して強力なゼロサンプル一般化機能を備えており、視覚的な入力に基づいて対応する実行可能コードを生成することもできると考えています。ただし、一部のタスク計画においては、シミュレーション環境で収集されたデータに基づいて微調整されたモデルよりもわずかに劣ります。

要約する

研究者らは、現在の研究のいくつかの限界を指摘している。

1. 現在の Octopus モデルは、より複雑なタスクでは満足のいくパフォーマンスを発揮しません。複雑なタスクに直面すると、Octopus は誤った計画を立てることが多く、環境からのフィードバックに大きく依存するため、最終的にはタスク全体を完了することが困難になります。

2. Octopus モデルはシミュレーション環境でのみトレーニングされるため、実際の世界に移行するには一連の問題が発生します。たとえば、実際の環境では、モデルがオブジェクトの比較的正確な相対位置情報を取得することは困難になり、オブジェクトがシーンを理解するように構築することがより困難になります。

3. Octopus の現在の視覚入力は個別の静止画像です。連続したビデオを処理できるようにする方法が今後の課題となります。連続したビデオは、タスクを完了する際のモデルのパフォーマンスをさらに向上させることができますが、連続した視覚入力を効率的に処理して理解する方法が、VLM パフォーマンスをさらに向上させる鍵となります。

<<:

>>: GPT-4 Turboがリリースされたが、人気が高すぎて翌日2時間ダウンした。