私たちは長い間、人工知能の進歩によって推進される自律的なインテリジェントエージェントを作成するというビジョンを抱いてきました。 これらのエージェントは、環境とインテリジェントに対話し、人間が設定した目標を達成することが期待されています。 既存の強化学習 (RL) フレームワークは、シミュレートされたゲームや閉じたドメインでは大きな成功を収めていますが、現実世界の複雑な物理環境には対応できません。 今日の自然言語処理 (NLP) テクノロジーは、デジタル世界における人間と大規模モデル間のインテリジェントな相互作用のための独自のスケーラブルな環境と学習の利点を提供します。 たとえば、WebShop は数百万の製品を含むショッピング Web サイト環境であり、エージェントは人間のようにショッピングを行うために Web ページを読み、クエリを入力し、ボタンをクリックする必要があります。 このようなデジタルタスクは、視覚的理解、読解力、意思決定など、知能の一般的な側面に挑戦し、他のプログラムで使用されるより多くの機能への拡張を可能にします。 このような「デジタル世界のインテリジェントエージェント」は、人工知能の実用化に有望な展望をもたらします。 7月26日、主に中国人で構成されるチームが、ネットワーク環境でタスクを実行するインテリジェントエージェントの実用的な有効性をテストするために、X(旧Twitter)上にWeb環境「WebArena」を立ち上げました。 WebArenaとは何ですか?WebArena はスタンドアロンの自己ホスト型 Web 環境です。 開発者は、機能とデータの面で現実世界のコンテンツを模倣し、電子商取引、ソーシャル フォーラム、共同ソフトウェア開発、コンテンツ管理という 4 つの現実世界のカテゴリから独立した Web サイトを作成しました。 WebArena はツールや知識リソースを独立した Web サイトとして埋め込み、インテリジェント エージェントに人間の問題解決をシミュレートする機能を提供します。 ユーザーは、自然言語の指示を使用してインテリジェント エージェントをベンチマークし、Web との具体的なやり取りを実装できます。 開発者は、WebArena 環境に基づいて、タスク完了の機能的正確性の評価に重点を置いた一連のベンチマーク タスクをリリースしました。 ベンチマークのタスクは多様かつ長期にわたるもので、人間がインターネット上で頻繁に実行するタスクをシミュレートするように設計されています。 OneStopMarketのニュースレターを購読する 当店がこれまでに受け取った「最高」という言葉を含むレビューの数を教えてください メイン州最大の都市に最も近い国立公園はどれですか? 注文307をキャンセル カーネギーホールとUPMCシェイディサイド間の徒歩圏内 ピッツバーグ空港から車で1時間でピッツバーグのデュケイン大学に行けるかどうか確認してください Gitlabのエージェント Gitlabのエージェント 「awesome_llm_reading という名前の新しい空のリポジトリを設定します」
一般的に、ルートナビゲーション タスクを完了するには、インテリジェント エージェントが複雑な長期計画と推論を行う必要があります。タスクの目標を達成するには、インテリジェント エージェントは次のことを行う必要があります。 Wikipedia でピッツバーグの美術館を検索し、収集した情報に基づいて絞り込み、地図上で各美術館の位置を確認します。 ルート計画が完了したら、インテリジェント エージェントは、関連するコード リポジトリの README ファイルに結果を更新し、計画された博物館ツアー ルートをテキスト形式で追加する必要があります。 リアルで再現可能なウェブ環境WebArena の目標は、現実的で再現可能な Web 環境を作成することです。 主な方法は 2 つあります。 まず、環境を自己完結型にして、再現性のためにライブ サイトに依存しないようにします。 次に、現実世界の多くの Web サイトのオープンソース ライブラリを構築し、それらの Web サイトからデータを環境にインポートして、リアリズムを実現しました。 このアプローチにより、WebArena は技術的な課題を回避することもできました。たとえば、ロボットが検証コードを渡す必要があること、コンテンツや構成が予期せず変更されることなどにより、一定期間にわたって異なるインテリジェント エージェントを公平に比較することが妨げられます。 評価する非常にリアルな WebArena インタラクティブ環境は、ベンチマーク テストを実装するための条件を提供します。 他の同様のシミュレートされた Web 環境と比較して、WebArena のベンチマークは、人々が日常生活で遭遇する可能性のあるさまざまなタスクをカバーしています。 同時に、WebArena はタスク実行の機能的正確性をチェックするための評価メトリックも設計します。 したがって、WebArena のベンチマークは実際の環境に近くなり、インテリジェント エージェントのタスク実行結果も現実に近くなります。 WebArena で実行されているインテリジェント エージェントの精度を評価する方法は 2 つあります。 1 つ目は、情報検索タスクを実行する際の正確さを測定することです。予測された回答を注釈付きの参照回答と比較し、3 つの方法で実装できます。 2 番目のアプローチは、実行中に中間状態をプログラムでチェックし、インテントによって指定された期待されるプロパティがあるかどうかを確認することです。 全体として、WebArena は完全に機能し、非常に現実的なテスト環境と評価システムを提供します。エージェントが複雑なタスクを実行する全体的な能力を測定できます。 GPT-4エージェントが優勝 研究者らは、英語で書かれた目標とその目標を達成したネットワーク相互作用のテスト例を 812 個作成しました。 各タスクには検証機能が付加されており、タスクが実際に期待どおりに完了したかどうかをプログラムでチェックします。 これらのタスク全体で、最高のパフォーマンスを示した GPT-4 エージェントは、エンドツーエンドの限定的なタスク成功率 10.59% を達成しました。 10% 未満なので、明らかに改善の余地は十分にあります。 WebArena の実験もそのような未来を予感させます。 環境に統合される API が増えるにつれて、非常に多様でオープンなデジタル ツールとタスクのエコシステムが出現します。より汎用的で有能な自律型インテリジェントエージェントを開発します。 これにより、汎用人工知能 (AGI) への道に新たな方向性がもたらされます。 |
<<: LK99最新ニュース:完全停止の難しさ、韓国の著者は「超伝導が唯一の可能な説明」と述べ、インドチームは3回の失敗で断念
>>: VRの悪夢にさよならしましょう! Meta Reality Labs は仮想世界の問題点を解決し、新しい VR の世界を再構築します
デジタル労働力をサポートし維持するために職場で AI が普及することは、2020 年の明確なトレンド...
[[261735]] [51CTO.com クイック翻訳] アイリーン・リーはカウボーイ・ベンチャー...
Llama2とCode Llamaのリリース後、長い間姿を見せていなかったザッカーバーグ氏は、本日公...
[[419993]]文/陳潔人工知能技術は、画像分析から自然言語理解、科学分野に至るまで、現在の科...
人工知能技術の発展に伴い、その用途は豊富かつ多様化しており、画像との組み合わせにおいては、AI顔認識...
[[257520]]都市化と経済発展の加速に伴い、我が国の社会保障を構成する要素が拡大し、公安機関の...
[[379731]] iFLYTEKは、流行病によって大きな影響を受けているにもかかわらず、人工知...
1. 5G上のAI 2022年には産業用AIとAI-on-5G IoTアプリケーションが主流になるで...
[元記事は51CTO.comより]「アリスマートスピーカーTmall Genie原価499元、クーポ...
最近、ディープラーニングが大々的に宣伝されており、人々はニューラル ネットワークをあらゆる場所で使用...
データセンターでの機械学習プロジェクトの開発に精通している読者は、データドリフトとコンセプトドリフト...