人類が地球上の食物連鎖の頂点に上り詰め、さらには宇宙の探査を続けられるようになったのは、個人の脳だけでなく、集団の協力力と切り離せない関係にある。 大規模言語モデル (LLM) に対応する単一のモデルの機能はすでに非常に強力ですが、より複雑なタスクを完了したり、タスク完了の効率を向上させたりするためには、複数のエージェント間のコラボレーションが依然として必要です。 最近、人間のグループダイナミクスにヒントを得て、清華大学、北京郵電大学、テンセントの研究者らが、複数のモデルが連携してグループの構成を動的に調整し、1+1>2の効果を実現するマルチエージェントフレームワーク「AgentVerse」を提案しました。 写真 論文リンク: https://arxiv.org/pdf/2308.10848.pdf オープンソースリンク: https://github.com/OpenBMB/AgentVerse AgentVerse の主な機能は次のとおりです。 1. 効率的な環境構築: フレームワークは複数の基本的な構成要素を提供します。構成ファイルに数行のコードを追加するだけで、LLM チャット ルームなどのマルチエージェント環境を簡単に構築できます。研究者は実験プロセスと結果分析に集中するだけで済みます。 2. カスタマイズ可能なコンポーネント: マルチエージェント環境は 5 つの機能モジュールに分かれており、それぞれのインターフェイスが定義されています。ユーザーは、自分のニーズに基づいて、さまざまなモジュールの機能を再定義できます。 3. ツール(プラグイン)の活用:BMTools で提供されるツールをサポートします。 実験結果によると、このフレームワークは、単一エージェントよりも優れたパフォーマンスを発揮し、コラボレーションなどの社会的行動の出現を示すマルチエージェント グループを効果的に展開できることがわかりました。 AgentVerse フレームワーク問題解決プロセスは、人間のグループ間での一連の反復段階であり、最初にグループは現在の状態と望ましい目標との矛盾を評価し、意思決定におけるコラボレーションを強化するためにその構成を動的に調整し、その後インテリジェントなアクションを実行します。 自律型マルチエージェント群が目標を達成する効率を高めるために、人間の群の問題解決プロセスをシミュレートし、専門家の採用、共同意思決定、アクションの実行、評価という 4 つの主要段階で構成される AGENTVERSE フレームワークを提案します。 写真 プロセス全体はマルコフ決定プロセス (MDP) としてモデル化でき、タプル (S、a、T、R、G) として表すことができます。これには、自律エージェントと環境の状態空間 S、ソリューションとアクション空間 A、遷移関数 T: S × A→S、報酬関数 R、および目標空間 G が含まれます。 1. 専門家の採用専門家の採用段階は、マルチエージェント グループの構成を決定し、グループの能力の上限を決定する重要なモジュールです。経験的証拠により、人間のグループ内の多様性によって異なる視点が導入され、さまざまなタスクにおけるグループのパフォーマンスが向上することが示されています。 研究結果によると、専門家を採用してチームを編成するのと同様に、自律型インテリジェントボディ脂肪に特定の役割を割り当てると、運用効率が向上する可能性があることも示されています。 しかし、エージェントに役割の説明を割り当てる現在の方法は、主に人間の直感と事前の知識に依存しており、タスクの理解に基づいて手動で割り当てる必要があるため、特に多様で複雑な問題環境に直面した場合、スケーラビリティは不明確なままです。 これを考慮して、AgentVerse は、インテリジェント エージェントの構成のスケーラビリティを強化するために、専門家を採用する自動化アプローチを採用しています。 与えられた目標 g∈G に対して、特定の自律エージェント Mr が人事マネージャーと同様に採用担当者として指定されます。Mr は事前定義された専門家の説明に依存せず、現在の目標 g に基づいて専門家の説明のセットを動的に生成します。 次に、異なる専門家の説明プロンプトとターゲットgに応じて、複数の異なるエージェントが得られ、専門家グループM = Mr(g)を形成します。 さらに、マルチエージェント グループの構成は評価フェーズからのフィードバックに基づいて動的に調整され、フレームワークは現在の状態 (受け取った報酬) に基づいて最も効果的なマルチエージェント グループを形成し、後続のラウンドでより良い決定を下すことができます。 2. 共同意思決定この段階では、主に共同意思決定のために専門エージェントが集まります。研究者は意思決定の効率性を向上させるために、2 つの古典的なコミュニケーション構造を選択します。 水平コミュニケーション 写真 各エージェント(mi∈M と表記)は積極的に決定を共有し、改善します。この民主的なコミュニケーション構造により、エージェント間の相互理解とコラボレーションが促進されます。 次に、エージェントの集合的な意見が統合関数 f を使用して結合され、現在のラウンドのグループ決定が形成されます。 ブレーンストーミング、コンサルティング、共同ゲームなど、創造的なアイデアや多くの調整が必要なシナリオでは、水平方向のコミュニケーションの方が適している可能性があります。 垂直コミュニケーション垂直コミュニケーションは、責任の分担を特徴としており、1 人のエージェントが最初の決定を下し、残りのエージェントがレビュー担当者としてソリューションに関するフィードバックを提供します。フィードバックに基づいて、すべてのレビュー エージェントがソリューションについて合意に達するか、反復の最大回数に達するまで、決定は継続的に改善されます。 写真 ソフトウェア開発など、特定の目標に向けて意思決定を反復的に改善する必要があるシナリオでは、垂直方向のコミュニケーションの方が適しています。 3. アクションの実行決定を行った後、エージェントは指定されたアクションを実行する必要がありますが、実装によっては、エージェントによってはアクションを実行せずに環境の状態を更新する場合もあります。 4. 評価評価は、次のラウンドの専門家グループの構成を調整および改善する上で重要な役割を果たします。報酬フィードバック メカニズムを使用して、現在の状態と期待される目標とのギャップを評価し、現在の状態がまだ不十分である理由を説明し、次のラウンドで改善する方法について議論するための建設的な提案を提供する口頭フィードバックが提供されます。 報酬フィードバック メカニズムは、実装方法に応じて、手動で定義することも (人間と機械の共同ループ)、自動フィードバック モデルによって定義することもできます。 期待された目標が達成されていないと判断された場合、報酬フィードバック ループは初期段階、つまり専門家の採用に戻ります。次のラウンドの専門家採用では、フィードバック信号が初期目標と組み合わせて使用され、専門家グループの構成が調整され、その後の意思決定とアクション実行のためのより効果的なマルチエージェント グループが進化します。 実験セクションAgentVerse がエージェントのグループを誘導して効率的にタスクを完了できることを実証するために、研究者はベンチマーク タスクに関する定量的な実験と、より複雑で実用的なアプリケーションに関するケース スタディを実施しました。 実験のセットアップ研究者らは、基礎サポートとして2つの言語モデル、GPT-3.5-Turbo-0613とGPT-4-0613を選択した。 データセットと評価指標の選択では、マルチエージェントグループの能力は主に次の 4 つの側面で検査されます。 1. 会話能力最初のデータセットは、Dialogue Reply Dataset (FED) です。複数ラウンドのチャット履歴が与えられた場合、エージェントは返信コンテンツを生成し、GPT-4 を評価子として使用し、モデルによって生成された返信と人間が書いた返信にスコアを付け、モデルの勝率を報告する必要があります。 2 番目のデータセットは、制約生成 Commongen-Challenge です。20 個の概念が与えられた場合、エージェントは、できるだけ多くの概念を含む、意味的に一貫性があり文法的に正しい段落を生成する必要があります。 2. 数学的計算能力小学校レベルの数学の問題を含む MGSM の英語サブセットを使用し、指標は正答率です。 3. 論理的推論BigBench のロジック グリッド パズル タスクには、複数ステップの論理的推論を必要とする論理問題が含まれており、精度メトリックとともに使用されます。 4. コーディングコード補完データセット Humaneval が使用され、評価には Pass@1 インジケーターが使用されます。 実験結果パフォーマンス分析単一のエージェント (Single) は指定されたプロンプトを使用して直接回答を生成しますが、AgentVerse で構築された複数のエージェントのグループ (Multiple) は協力して問題を解決します。 結果から、GPT-3.5-Turbo を使用する場合でも GPT-4 を使用する場合でも、マルチエージェントは常にシングルエージェントよりも優れていることがわかります。 GPT-3.5-Turbo ではロジックグリッドパズルデータセットに対して正しい推論結果を出すことが難しいため、対応する実験結果は表では省略されています。 共同意思決定分析写真 垂直方向のコミュニケーションと比較すると、水平方向のコミュニケーションは、数学的計算タスク (MGSM) におけるマルチエージェント グループの効果的な意思決定を促進することができません。さらに分析すると、コミュニケーション構造が意思決定の結果を形作る上で非常に重要であることがわかります。 水平通信では、エージェントは順番に通信します。あるエージェントが欠陥のある解決策を提案したり、他のエージェントの正しい主張に疑問を呈したりすることがあります。他のエージェントは間違いを訂正する代わりに、間違った決定に従うことが多く、その結果、単一のエージェントよりもパフォーマンスが低下します。 垂直コミュニケーションでは、他のエージェントはフィードバックを提供するだけでよく、提案に欠陥があっても、ほとんどのエージェントからの建設的な批判によってエラーが軽減され、コアエージェントが正確な解決策を維持できるようになります。 しかし、これは水平方向のコミュニケーションが効率が悪いということではありません。垂直方向のコミュニケーションは正確な回答を必要とするタスクに適しており、水平方向のコミュニケーションはコンサルティングなどの異なるソリューションを必要とするタスクに適しているというだけです。 ケーススタディ: ソフトウェア開発研究者らは、この論文の中で 3 つのケースタスクを設計しました。以下では、ソフトウェア開発を例に挙げます。 写真 タスクの説明ビデオ ゲームでは、インテリジェント エージェントの機能を効果的にテストできる複雑な仮想環境が提供されることがよくあります。研究者は、サンドボックス ゲームの Minecraft を実験プラットフォームとして使用しています。ゲームの仕組みと作成可能なアイテムの大規模なコレクションにより、インテリジェント エージェントはタスクを実行するだけでなく、動的なシナリオを計画、調整、適応する必要があります。 研究者の目標は、AgentVerse を使用して複数のエージェントを統合し、特定のオブジェクトの作成で協力し、エージェントが知識やリソースを共有し、複雑な環境で協力する能力をテストすることです。 実験分析実験では、3 人のエージェントが協力して本棚を構築する必要がありました。このプロセスには、木材や革などの材料の収集、本などの中間アイテムの作成、そして最後に本棚の組み立てなど、少なくとも 9 つの基本的な手順が含まれていました。 写真 ゲーム内には 1 つのアイデンティティしかないため、AgentVerse フレームワークの専門家採用段階を省略でき、プロンプトを通じてモデルを直接割り当てて「Minecraft」の経験豊富なプレイヤーの役割を演じることができます。 エージェントは、本棚を作成するという全体的な目標を適切なサブタスクに分解し、戦略的に割り当て、実行を分散することができます。 注目すべき観察結果は、エージェントの適応性と協力的な本能です。たとえば、最初の数ラウンドで、アリスが革に必要な 3 頭の牛を倒すのに苦労していたとき、ボブはアリスが直面している困難に気づき、介入して支援し、割り当てられたタスクの完了を支援しました。 このような新たな動作は重要であり、予期しない課題に直面したエージェントの堅牢性と柔軟性を強調します。 参考文献: https://github.com/OpenBMB/AgentVerse |
<<: ChatGPT は学生の授業パフォーマンスを大幅に向上させたため、教授は怒ってこう叱責しました。「私はそれを使ってもいいが、あなたがそれを使うと不正行為になる!」
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能の基礎教育を強化することは、将来の社会の発展に備えるための避けられない選択であり、要件です。...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
今日の人工知能の発展レベルを考えると、テキストから画像への転送、画像からビデオへの転送、画像/ビデオ...
新型コロナウイルス感染症のパンデミックにより、多くの人々の働き方が変化しました。現在、多くの企業は、...
科学研究の分野で働く人なら、P/NP 問題についてはある程度聞いたことがあるでしょう。この問題は、ク...
[[409064]]みなさんこんにちは。私は梁唐です。今日は、検索、広告、推奨アルゴリズムにおける...
人工知能の時代が来るとよく言われます。20年後に私たちの子供たちが社会に出たとき、彼らはおそらくロボ...
ChatGPTからGPT4、DALL・E 2/3からMidjourneyまで、生成AIはこれまでにな...