CMU PhD により、インテリジェント エージェントが現実世界で競争できるようになります。 GPT-4が勝利したが成功率はわずか10%

CMU PhD により、インテリジェント エージェントが現実世界で競争できるようになります。 GPT-4が勝利したが成功率はわずか10%

私たちは長い間、人工知能の進歩によって推進される自律的なインテリジェントエージェントを作成するというビジョンを抱いてきました。

これらのエージェントは、環境とインテリジェントに対話し、人間が設定した目標を達成することが期待されています。

既存の強化学習 (RL) フレームワークは、シミュレートされたゲームや閉じたドメインでは大きな成功を収めていますが、現実世界の複雑な物理環境には対応できません。

今日の自然言語処理 (NLP) テクノロジーは、デジタル世界における人間と大規模モデル間のインテリジェントな相互作用のための独自のスケーラブルな環境と学習の利点を提供します。

たとえば、WebShop は数百万の製品を含むショッピング Web サイト環境であり、エージェントは人間のようにショッピングを行うために Web ページを読み、クエリを入力し、ボタンをクリックする必要があります。

このようなデジタルタスクは、視覚的理解、読解力、意思決定など、知能の一般的な側面に挑戦し、他のプログラムで使用されるより多くの機能への拡張を可能にします。

このような「デジタル世界のインテリジェントエージェント」は、人工知能の実用化に有望な展望をもたらします。

7月26日、主に中国人で構成されるチームが、ネットワーク環境でタスクを実行するインテリジェントエージェントの実用的な有効性をテストするために、X(旧Twitter)上にWeb環境「WebArena」を立ち上げました。

WebArenaとは何ですか?

WebArena はスタンドアロンの自己ホスト型 Web 環境です。

開発者は、機能とデータの面で現実世界のコンテンツを模倣し、電子商取引、ソーシャル フォーラム、共同ソフトウェア開発、コンテンツ管理という 4 つの現実世界のカテゴリから独立した Web サイトを作成しました。

WebArena はツールや知識リソースを独立した Web サイトとして埋め込み、インテリジェント エージェントに人間の問題解決をシミュレートする機能を提供します。

ユーザーは、自然言語の指示を使用してインテリジェント エージェントをベンチマークし、Web との具体的なやり取りを実装できます。

開発者は、WebArena 環境に基づいて、タスク完了の機能的正確性の評価に重点を置いた一連のベンチマーク タスクをリリースしました。

ベンチマークのタスクは多様かつ長期にわたるもので、人間がインターネット上で頻繁に実行するタスクをシミュレートするように設計されています。

OneStopMarketのニュースレターを購読する

当店がこれまでに受け取った「最高」という言葉を含むレビューの数を教えてください

メイン州最大の都市に最も近い国立公園はどれですか?

注文307をキャンセル

カーネギーホールとUPMCシェイディサイド間の徒歩圏内

ピッツバーグ空港から車で1時間でピッツバーグのデュケイン大学に行けるかどうか確認してください

Gitlabのエージェント Gitlabのエージェント

「awesome_llm_reading という名前の新しい空のリポジトリを設定します」

ショッピングウェブサイトのエージェント

「最新の注文の状況と到着予定日を教えてください」

一般的に、ルートナビゲーション タスクを完了するには、インテリジェント エージェントが複雑な長期計画と推論を行う必要があります。タスクの目標を達成するには、インテリジェント エージェントは次のことを行う必要があります。

Wikipedia でピッツバーグの美術館を検索し、収集した情報に基づいて絞り込み、地図上で各美術館の位置を確認します。

ルート計画が完了したら、インテリジェント エージェントは、関連するコード リポジトリの README ファイルに結果を更新し、計画された博物館ツアー ルートをテキスト形式で追加する必要があります。

リアルで再現可能なウェブ環境

WebArena の目標は、現実的で再現可能な Web 環境を作成することです。

主な方法は 2 つあります。

まず、環境を自己完結型にして、再現性のためにライブ サイトに依存しないようにします。

次に、現実世界の多くの Web サイトのオープンソース ライブラリを構築し、それらの Web サイトからデータを環境にインポートして、リアリズムを実現しました。

このアプローチにより、WebArena は技術的な課題を回避することもできました。たとえば、ロボットが検証コードを渡す必要があること、コンテンツや構成が予期せず変更されることなどにより、一定期間にわたって異なるインテリジェント エージェントを公平に比較​​することが妨げられます。

評価する

非常にリアルな WebArena インタラクティブ環境は、ベンチマーク テストを実装するための条件を提供します。

他の同様のシミュレートされた Web 環境と比較して、WebArena のベンチマークは、人々が日常生活で遭遇する可能性のあるさまざまなタスクをカバーしています。

同時に、WebArena はタスク実行の機能的正確性をチェックするための評価メトリックも設計します。

したがって、WebArena のベンチマークは実際の環境に近くなり、インテリジェント エージェントのタスク実行結果も現実に近くなります。

WebArena で実行されているインテリジェント エージェントの精度を評価する方法は 2 つあります。

1 つ目は、情報検索タスクを実行する際の正確さを測定することです。予測された回答を注釈付きの参照回答と比較し、3 つの方法で実装できます。

2 番目のアプローチは、実行中に中間状態をプログラムでチェックし、インテントによって指定された期待されるプロパティがあるかどうかを確認することです。

全体として、WebArena は完全に機能し、非常に現実的なテスト環境と評価システムを提供します。エージェントが複雑なタスクを実行する全体的な能力を測定できます。

GPT-4エージェントが優勝

研究者らは、英語で書かれた目標とその目標を達成したネットワーク相互作用のテスト例を 812 個作成しました。

各タスクには検証機能が付加されており、タスクが実際に期待どおりに完了したかどうかをプログラムでチェックします。

これらのタスク全体で、最高のパフォーマンスを示した GPT-4 エージェントは、エンドツーエンドの限定的なタスク成功率 10.59% を達成しました。

10% 未満なので、明らかに改善の余地は十分にあります。

WebArena の実験もそのような未来を予感させます。

環境に統合される API が増えるにつれて、非常に多様でオープンなデジタル ツールとタスクのエコシステムが出現します。より汎用的で有能な自律型インテリジェントエージェントを開発します。

これにより、汎用人工知能 (AGI) への道に新たな方向性がもたらされます。

<<:  LK99最新ニュース:完全停止の難しさ、韓国の著者は「超伝導が唯一の可能な説明」と述べ、インドチームは3回の失敗で断念

>>:  VRの悪夢にさよならしましょう! Meta Reality Labs は仮想世界の問題点を解決し、新しい VR の世界を再構築します

ブログ    

推薦する

「アルゴリズムとデータ構造」二分木の美しさ

[[349809]]序文今回レビューする内容は、データ構造トピックの「ツリー」です。ツリーなどのデー...

Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

eSIM テクノロジーはどのようにしてグローバル BVLOS ドローンの運用を簡素化できるのでしょうか?

近年、ドローンは農業から物流、世界的な軍事作戦まで、多くの産業に革命をもたらしました。 これらの飛行...

...

よりスケーラブルになるにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

再帰アルゴリズムの深い理解、誤解された再帰

[[333118]]再帰は、プログラミングの本で説明するのが最も難しい部分である魔法のアルゴリズムで...

...

Pythonを使用して機械学習モデルを作成する方法

導入新しいモデルをトレーニングしたときに、Flask コード (Python Web フレームワーク...

人工知能を活用した新しい小売無人店舗の発展展望は?

[[253800]] 2017年にジャック・マーがニューリテールの概念を提唱して以来、雨後の筍のよ...

テクノロジーから製品まで、Apple Siriのディープラーニング音声合成技術の秘密が明らかに

[[201603]] Siri は、音声合成技術を使用して人間とコミュニケーションをとるパーソナルア...