CMU PhD により、インテリジェントエージェントが現実世界で競争できるようになります。 GPT-4が勝利したが成功率はわずか10％

私たちは長い間、人工知能の進歩によって推進される自律的なインテリジェントエージェントを作成するというビジョンを抱いてきました。

これらのエージェントは、環境とインテリジェントに対話し、人間が設定した目標を達成することが期待されています。

既存の強化学習 (RL) フレームワークは、シミュレートされたゲームや閉じたドメインでは大きな成功を収めていますが、現実世界の複雑な物理環境には対応できません。

今日の自然言語処理 (NLP) テクノロジーは、デジタル世界における人間と大規模モデル間のインテリジェントな相互作用のための独自のスケーラブルな環境と学習の利点を提供します。

たとえば、WebShop は数百万の製品を含むショッピング Web サイト環境であり、エージェントは人間のようにショッピングを行うために Web ページを読み、クエリを入力し、ボタンをクリックする必要があります。

このようなデジタルタスクは、視覚的理解、読解力、意思決定など、知能の一般的な側面に挑戦し、他のプログラムで使用されるより多くの機能への拡張を可能にします。

このような「デジタル世界のインテリジェントエージェント」は、人工知能の実用化に有望な展望をもたらします。

7月26日、主に中国人で構成されるチームが、ネットワーク環境でタスクを実行するインテリジェントエージェントの実用的な有効性をテストするために、X（旧Twitter）上にWeb環境「WebArena」を立ち上げました。

WebArenaとは何ですか?

WebArena はスタンドアロンの自己ホスト型 Web 環境です。

開発者は、機能とデータの面で現実世界のコンテンツを模倣し、電子商取引、ソーシャルフォーラム、共同ソフトウェア開発、コンテンツ管理という 4 つの現実世界のカテゴリから独立した Web サイトを作成しました。

WebArena はツールや知識リソースを独立した Web サイトとして埋め込み、インテリジェントエージェントに人間の問題解決をシミュレートする機能を提供します。

ユーザーは、自然言語の指示を使用してインテリジェントエージェントをベンチマークし、Web との具体的なやり取りを実装できます。

開発者は、WebArena 環境に基づいて、タスク完了の機能的正確性の評価に重点を置いた一連のベンチマークタスクをリリースしました。

ベンチマークのタスクは多様かつ長期にわたるもので、人間がインターネット上で頻繁に実行するタスクをシミュレートするように設計されています。

OneStopMarketのニュースレターを購読する

当店がこれまでに受け取った「最高」という言葉を含むレビューの数を教えてください

メイン州最大の都市に最も近い国立公園はどれですか?

注文307をキャンセル

カーネギーホールとUPMCシェイディサイド間の徒歩圏内

ピッツバーグ空港から車で1時間でピッツバーグのデュケイン大学に行けるかどうか確認してください

Gitlabのエージェント Gitlabのエージェント

「awesome_llm_reading という名前の新しい空のリポジトリを設定します」

ショッピングウェブサイトのエージェント
「最新の注文の状況と到着予定日を教えてください」

一般的に、ルートナビゲーションタスクを完了するには、インテリジェントエージェントが複雑な長期計画と推論を行う必要があります。タスクの目標を達成するには、インテリジェントエージェントは次のことを行う必要があります。

Wikipedia でピッツバーグの美術館を検索し、収集した情報に基づいて絞り込み、地図上で各美術館の位置を確認します。

ルート計画が完了したら、インテリジェントエージェントは、関連するコードリポジトリの README ファイルに結果を更新し、計画された博物館ツアールートをテキスト形式で追加する必要があります。

リアルで再現可能なウェブ環境

WebArena の目標は、現実的で再現可能な Web 環境を作成することです。

主な方法は 2 つあります。

まず、環境を自己完結型にして、再現性のためにライブサイトに依存しないようにします。

次に、現実世界の多くの Web サイトのオープンソースライブラリを構築し、それらの Web サイトからデータを環境にインポートして、リアリズムを実現しました。

このアプローチにより、WebArena は技術的な課題を回避することもできました。たとえば、ロボットが検証コードを渡す必要があること、コンテンツや構成が予期せず変更されることなどにより、一定期間にわたって異なるインテリジェントエージェントを公平に比較することが妨げられます。

評価する

非常にリアルな WebArena インタラクティブ環境は、ベンチマークテストを実装するための条件を提供します。

他の同様のシミュレートされた Web 環境と比較して、WebArena のベンチマークは、人々が日常生活で遭遇する可能性のあるさまざまなタスクをカバーしています。

同時に、WebArena はタスク実行の機能的正確性をチェックするための評価メトリックも設計します。

したがって、WebArena のベンチマークは実際の環境に近くなり、インテリジェントエージェントのタスク実行結果も現実に近くなります。

WebArena で実行されているインテリジェントエージェントの精度を評価する方法は 2 つあります。

1 つ目は、情報検索タスクを実行する際の正確さを測定することです。予測された回答を注釈付きの参照回答と比較し、3 つの方法で実装できます。

2 番目のアプローチは、実行中に中間状態をプログラムでチェックし、インテントによって指定された期待されるプロパティがあるかどうかを確認することです。

全体として、WebArena は完全に機能し、非常に現実的なテスト環境と評価システムを提供します。エージェントが複雑なタスクを実行する全体的な能力を測定できます。

GPT-4エージェントが優勝

研究者らは、英語で書かれた目標とその目標を達成したネットワーク相互作用のテスト例を 812 個作成しました。

各タスクには検証機能が付加されており、タスクが実際に期待どおりに完了したかどうかをプログラムでチェックします。

これらのタスク全体で、最高のパフォーマンスを示した GPT-4 エージェントは、エンドツーエンドの限定的なタスク成功率 10.59% を達成しました。

10% 未満なので、明らかに改善の余地は十分にあります。

WebArena の実験もそのような未来を予感させます。

環境に統合される API が増えるにつれて、非常に多様でオープンなデジタルツールとタスクのエコシステムが出現します。より汎用的で有能な自律型インテリジェントエージェントを開発します。

これにより、汎用人工知能 (AGI) への道に新たな方向性がもたらされます。

>>: VRの悪夢にさよならしましょう！ Meta Reality Labs は仮想世界の問題点を解決し、新しい VR の世界を再構築します

CMU PhD により、インテリジェントエージェントが現実世界で競争できるようになります。 GPT-4が勝利したが成功率はわずか10％

WebArenaとは何ですか?

リアルで再現可能なウェブ環境

評価する

「ロボット」は詐欺の標的になり得るのか？

AIは脳の信号をリアルタイムで解釈し、画像の主要な視覚的特徴を7倍の速度で復元するとルカン氏は述べた。

ChatGPT は学生の授業パフォーマンスを大幅に向上させたため、教授は怒ってこう叱責しました。「私はそれを使ってもいいが、あなたがそれを使うと不正行為になる！」

副操縦士をもっと追加してください!マイクロソフトは大きな進歩を遂げており、個人ユーザーはGPT-4 Turboへの優先アクセスを持っている

AIを拡張するための3つの成功要因

中国の 700 万人のプログラマーが足りない場合はどうすればいいでしょうか?北京大学のソフトウェア自動化の専門家、謝涛氏に聞いた。

自動運転におけるディープラーニングベースの予測と計画の融合手法のレビュー

生成AIは高価すぎるため、マイクロソフトやグーグルのような大手テクノロジー企業でさえも導入できない

報告書：人工知能は5年以内に人間の雇用を著しく脅かすだろう

推薦する

「アルゴリズムとデータ構造」二分木の美しさ

Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生

SGD を AI に置き換える? ResNet-50 をトレーニングする必要がなく、AI が 2400 万のパラメータすべてを数秒で 60% の精度で予測します。

eSIM テクノロジーはどのようにしてグローバル BVLOS ドローンの運用を簡素化できるのでしょうか?

マジックGPTは、1秒あたり1クロスの速度でオンライン記事を自動的に書き込み、宦官の作品に無制限の更新を提供することもできます。

よりスケーラブルになるにはどうすればよいでしょうか?

再帰アルゴリズムの深い理解、誤解された再帰

Pythonを使用して機械学習モデルを作成する方法

人工知能を活用した新しい小売無人店舗の発展展望は？

テクノロジーから製品まで、Apple Siriのディープラーニング音声合成技術の秘密が明らかに