AI エージェントに協力と競争を教えましょう。最初の大規模マルチエージェントフレームワークであるCAMELは3.6kのスターを獲得しました

AI エージェントに協力と競争を教えましょう。最初の大規模マルチエージェントフレームワークであるCAMELは3.6kのスターを獲得しました

「どんな魔法が私たちを賢くするのでしょうか?魔法は魔法がないことです。知性の力は、単一の完璧な原理からではなく、私たちの広大な多様性から生まれます。」

—人工知能の先駆者、マービン・ミンスキー

現在、高度な知能への道において、ChatGPT に代表される大規模モデル (LLM) は通過しなければならないマイルストーンの 1 つです。チャット対話における人間とコンピューターの相互作用を通じて、複数の分野で複雑なタスクを解決するという非常に目覚ましい成果を達成しています。

LLM の発展に伴い、特に一部の複雑な専門分野では、AI エージェント間のインタラクション フレームワークが徐々に出現しています。ロール プレイング モードで事前設定されたインテリジェント エージェントは、タスクで人間のユーザーが果たす役割を完全に置き換えることができます。同時に、コラボレーションと競争の形でのインテリジェント エージェント間の動的なインタラクションは、予期しない結果をもたらすことがよくあります。これは、OpenAI の人工知能専門家 Andrej Karpathy らが「AGI につながる最も重要な最先端の研究方向」と見なしている AI エージェントです。

この分野の発展のタイムラインは次のとおりです[2]。

  • 「CAMEL」(Camel: 大規模モデルマインドインタラクションフレームワーク) - 2023.3.21 公開
  • 「AutoGPT」 - 2023.3.30 公開
  • 「BabyGPT」 - 2023.4.3リリース
  • 「ウエストワールド」シミュレーション(スタンフォード ウエストワールドタウン) — 2023.4.7 公開

ChatGPT に基づく自律エージェントの最も初期の有名なプロジェクトとして、KAUST 研究チームの大規模モデル マインド インタラクション CAMEL フレームワークは、ロール プレイングと呼ばれる新しい協力エージェント フレームワークの探求に重点を置いています。このフレームワークは、インテリジェント エージェントの対話プロセス中に発生するエラーを効果的に軽減し、インテリジェント エージェントがさまざまな複雑なタスクを完了できるように効果的にガイドします。人間のユーザーは、プロセス全体を開始するために予備的なアイデアを入力するだけで済みます。現在、CAMELは人工知能のトップクラスの国際会議であるNeurIPS 2023に採択されています。

論文リンク: https://ghli.org/camel.pdf

プロジェクトホームページ: https://www.camel-ai.org/

AI エージェントは、大規模モデルの分野で注目されています。ユーザーは、実際のタスクに参加するために、異なる役割を果たす複数の LLM エージェントを導入できます。エージェントは、競争やコラボレーションなど、さまざまな形式の動的な相互作用に従事し、驚くべき集合知効果を生み出します。

著者らは、さまざまなエージェントの実装、さまざまな専門分野での迅速な例、AI データ探索フレームワークなど、CAMEL フレームワーク用の柔軟なモジュール機能を設計しました。したがって、CAMEL は基本的なエージェント バックエンドとして使用でき、AI 研究者や開発者がマルチエージェント システム、協調型人工知能、ゲーム理論シミュレーション、社会分析、人工知能倫理に関連するアプリケーションをより簡単に開発できるようにサポートします。

具体的には、著者らは、2 つのロール プレイング タスクを含む共同シナリオを通じて、2 つの大規模な指導データセット (AI Society と AI Code) と、2 つの単一ラウンドの質問応答データセット (AI Math と AI Science) を生成し、LLM の創発的機能に関する研究を調査しました。

CAMELフレームワーク

下の図は、CAMEL のロールプレイング フレームワークを示しています。人間のユーザーはまず、株式市場向けの取引ロボットの開発など、達成したいアイデアや目標を策定する必要があります。

このタスクに関与するキャラクターは、AI アシスタント エージェント (Python プログラマーの役割を果たす) と AI ユーザー エージェントです。

著者らはまず、入力されたアイデアに基づいてより詳細な実装ステップを開発するCAMELのタスク指定子を設定しました。次に、AIアシスタントエージェント(AI Assistant)とAIユーザーエージェント(AI User)がチャットを通じて共同で通信し、それぞれが指定されたタスクを段階的に完了します。

協調通信は、システムレベルのメッセージ パッシング メカニズムを通じて実現されます。 AIアシスタントエージェントに送信されるシステムメッセージです。 AIユーザーエージェントに渡されるシステムメッセージ。
次に、AI アシスタント エージェントと AI ユーザー エージェントがそれぞれ 2 つの ChatGPT モデルにインスタンス化されます。 そして 、対応するAIアシスタントエージェントが得られるおよび AI ユーザーエージェント
役割が割り当てられると、AI アシスタント エージェントと AI ユーザー エージェントが連携して指示に従ってタスクを完了します。 時間についてユーザーコマンドメッセージは常に受信され、 AIアシスタントエージェントに与えられた解決策はこうだ現時点で取得された会話メッセージ セットは次のとおりです。

次の瞬間 、AI ユーザーエージェント過去の会話メッセージセットに基づいて 、新しい指示を生成する 。次に、新しいコマンド メッセージは、履歴ダイアログ メッセージ セットとともに AI アシスタント エージェントに渡されます。 新しいモーメント ソリューションを生成するには:

CAMELの使用例

1. 共同ロールプレイング

CAMEL に組み込まれた共同ロールプレイング フレームワークは、人間のユーザーの専門知識がなくても、エージェント間のコラボレーションを通じて複雑なタスクを完了できます。下の図は、CAMEL が株式市場取引ロボットを開発する例を示しています。この例では、AI アシスタント エージェントが Python プログラマーの役割を果たし、AI ユーザー エージェントが株式トレーダーの役割を果たしています。


ロールプレイングフレームワークでは、AIエージェントはすべて特定の分野の専門知識を持っています。このとき、独創的なアイデアのプロンプトを指定するだけで、2つのAIエージェントがこのアイデアを巡って作業します。上の図では、ユーザーエージェントが取引ロボットに株式コメントの感情分析機能が必要であることを提案し、アシスタントエージェントが感情分析と株式取引に必要なPythonライブラリをインストールするためのスクリプトを直接提供します。

タスクが進むにつれて、ユーザー エージェントから与えられる指示はより具体的になります。上の図の指示は、Yahoo Finance API を使用して特定の株式の最新の株価を取得する関数を定義するというものです。アシスタントは、指示に基づいてコードを直接生成し、ニーズを解決します。

2. 具現化されたエージェント

これまでの研究では、AI エージェントは、現実世界とやり取りしたり、外部ツールを使用して操作を実行したりすることなく、いくつかの操作をシミュレートするものと理解されています。現在の LLM には、インターネットや他のツール API とやり取りする機能がすでに備わっています。CAMEL は、物理世界でさまざまな操作を実行できる具体化されたエージェントも提供します。インターネットを閲覧したり、ドキュメントを読んだり、画像、オーディオ、ビデオ コンテンツを作成したり、直接コードを実行したりすることもできます。

上図は、CAMEL が具現化エージェントを使用して、HuggingFace が提供する Stable Diffusion ツールチェーンを呼び出してラクダ科の画像を生成する例を示しています。このプロセスでは、具現化エージェントは最初にラクダ科に含まれるすべての動物を推測し、次に拡散モデルを呼び出して画像を生成して保存します。

3. 批評家との交流

ロールプレイングフレームワークの制御性を高めるために、著者チームはCAMEL用の批評家インザループも設計しました。このメカニズムはモンテカルロツリーサーチ(MTCS)法にヒントを得たもので、人間の好みを組み合わせてツリーサーチの決定ロジックを実装し、タスクを解決できます。CAMELは中間評価エージェント(批評家)を設定し、ユーザーエージェントとアシスタントエージェントのさまざまな意見に基づいて決定を下し、最終タスクを完了できます。全体のプロセスを下の図に示します。

CAMEL で非常に特殊な科学研究プロジェクトに関するディスカッションを主催し、その研究プロジェクトのテーマが「大規模言語モデル」であるというシナリオを考えてみましょう。CAMEL では、ユーザー エージェントの役割をポスドク研究員に、アシスタント エージェントの役割を博士課程の学生に、中間評価エージェントの役割を教授に設定できます。この課題では、博士課程の学生に、大規模モデルの倫理に関する研究を必要とする研究計画をポスドクが作成するのを支援するよう指示します。

ポスドクエージェントは、このタスクを受け取った後、まずこのプロジェクトに関する 3 つの視点を提示し、大規模モデルの倫理に関する関連研究の調査からプロジェクトを開始すべきであると指摘しました。

指導エージェントは、これら 3 つの観点に基づいて独自の意見を述べます。そして、2 番目の観点、つまり大規模モデルの識別アルゴリズムを研究することが最も合理的であると私は考えています。同時に、視点 1 では構造が明確でない、視点 3 では研究範囲が狭いなど、他の 2 つの視点の欠点も指摘します。

教授の講演の後、博士課程の学生のインテリジェンスは、大規模モデルの倫理的安全性に関するいくつかの関連文献を直接リストアップし、具体的な研究をどのように進めるかについて話し合うなど、より具体的なプロジェクト計画を実行します。

実験結果

本稿での性能評価は主に3つの側面から行われ、2つのgpt-3.5-turboが実験エージェントとして使用されています。実験データセットはCAMELフレームワークによって生成された4つのAIデータセットを使用しており、そのうちAI SocietyとAI Codeはエージェントの対話効果に焦点を当てており、AI MathとAI Scienceはエージェントの問題解決能力に焦点を当てています。

1. エージェントの評価

このセクションでは、著者らはAI SocietyとAI Codeのデータセットからランダムに100のタスクを選択して評価し、CAMELフレームワークと単一のgpt-3.5-turboを使用して比較実験を実施しました。

結果の評価は 2 つの部分に分かれています。一方では、被験者が 2 つの方法で提示された解決策について 453 の投票データを提供し、どちらの解決策がより実現可能かを判断します。一方、著者はGPT4モデルに2つの解のスコアを直接与えるように指示しています。具体的な比較データは、次の表のとおりです。

上記の表からわかるように、CAMELフレームワークによって提供されるソリューションは、人間による評価とGPT4による評価の両方においてgpt-3.5-turboによって提供されるソリューションよりも大幅に優れており、人間による評価とGPT4による評価の全体的な傾向は非常に一貫しています。

2. GPT-4を使用したChatBotの評価

この部分では、著者らはCAMELによって生成された4つのデータセット上でLLaMA-7Bモデルを徐々に微調整し、社会、コード、数学、科学などのさまざまな分野からの知識をLLMに継続的に注入することにより、モデルの知識発見に対する受容効果を観察しました。

著者はまず、AI Societyデータセットから始めて、モデルが人間の相互作用と社会のダイナミクスの常識を理解できるようにしました。その後、AI Codeやその他のデータセットを注入することで、モデルはプログラミングロジックと文法の知識を獲得し、科学理論、経験的観察、実験方法に対するモデルの理解を広げました。

上記の表は、20 の社会タスク、20 のコーディング タスク、20 の数学タスク、および 60 の科学タスクでのモデルのテスト結果を示しています。データ セットが追加されるたびに、トレーニングされたタスク ドメインでのモデルのパフォーマンスが向上することがわかります。

3. ヒューマンエバル

CAMEL フレームワークのコード作成タスク解決能力をさらに評価するために、著者らは 2 つの評価ベンチマーク、HumanEval と HumanEval+ で実験を行いました。実験結果を次の表に示します。

CAMEL フレームワークの優れたパフォーマンスは、上の表で明確に示されています。これは、LLaMA-7B モデルをはるかに上回るだけでなく、Vicuna-7B モデルも大幅に上回っており、CAMEL を使用して生成されたデータセットが、コーディング関連のタスクを処理するために LLM を強化する独自の効果を持っていることを示しています。

CAMEL AI オープンソースコミュニティ

CAMEL の作者チームが、非常に充実した CAMEL AI オープンソース コミュニティを構築していることは特筆に値します。コミュニティの Github リポジトリは、3,600 を超えるスターを獲得しています。コミュニティは、CAMEL でのさまざまなインテリジェント エージェントの実装、データ生成パイプライン、データ分析ツール、AI エージェントやその他の側面の研究をサポートするために生成されたデータセットをカバーしています。コミュニティは現在、多くのオープンソース愛好家を惹きつけ、コードの貢献をしています。

CAMEL プロジェクトの最初のコードが書かれてから 9 か月が経ちました。CAMEL-AI.org のオープン ソース研究およびテクノロジー コミュニティには、KAUST、ケンブリッジ大学、ソルボンヌ大学、NUS、CMU、シカゴ大学、スタンフォード大学、デューク大学、北京大学、上海交通大学、ハルビン工科大学、西安電電大学、ノースイースタン大学、成都新大学、および業界から 20 名を超える独立したコード コントリビューターが参加しています。

コミュニティでは、インテリジェントな社会の構築の限界を押し広げる方法を学び、探求するフルタイム/パートタイム/インターンシップの貢献者、エンジニア、研究者を募集しています。優秀な貢献者には、フレームワークやその他の研究プロジェクトに関する論文の執筆に参加する機会が与えられます。

CAMEL-AI.org コミュニティに参加することに興味がある場合は、[email protected] に履歴書を送信するか、WeChat ID CamelAIOrg を追加して相談してください。

<<:  iOS 18はAIネイティブシステムの第1世代となるか? AppleはAIをシステムに導入することを急いでおり、史上最大のアップデートを先導している。

>>:  マスク氏がウルトラマンの七つの大罪を明かす!アルトマンが交渉を再開、ChatGPTは崩壊

ブログ    
ブログ    

推薦する

機械学習が近い将来教育を変える5つの方法

テクノロジーは私たちの生活、仕事、遊び方を変えており、教育も例外ではありません。機械学習は他の分野を...

OpenAI、テキストから動画を生成できる新しい大規模モデル「Sora」を発表

海外メディアの報道によると、OpenAIは2月18日、短いテキストプロンプトを通じて「リアル」かつ「...

量子コンピューティング OpenAI が登場?元Google社員3人のチームが、物理学の限界に挑戦するAIコンピューティングチップを開発するために1億人民元を調達

生成型 AI の時代では、コンピューティング能力が技術開発の限界となっていることは明らかです。 Nv...

[GPT-4理論] GPT-4のコア技術を探る

序文GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、Open...

AIは「GitHub危機」を乗り越えられるか?

機械学習は現在、この分野の急速な発展を妨げるいくつかの危機に直面しています。これらの危機は、より広範...

さあ、アルゴリズムの複雑さをもう一度理解しましょう!

[[346356]] 0. はじめにみなさんこんにちは。私は、複数選択パラメータのプログラマーポッ...

月間 30 万個の H100 チップ、Nvidia は Intel にチップの製造を依頼しているのでしょうか? CoWosの生産能力が低すぎるからといって

TSMCの生産能力不足により、Nvidiaはチップ製造をIntelに頼らざるを得なくなったのか? T...

...

...

ロボティック プロセス オートメーション (RPA) を構築するための基本知識とベスト プラクティス

[[442548]]世界中でロボティックプロセスオートメーション (RPA) が使用され、ビジネスの...

ARMの機能によりIBMの包括的なAI自動化ポートフォリオが強化される

Turbonomic の買収計画により、IBM はビジネスと IT 全体にわたって人工知能の自動化機...

...

ロボットが大学入試を受けたら、何点取れるでしょうか?清華大学や北京大学に入学できるでしょうか?

周知のとおり、大学入試は我が国で最も競争率の高い試験です。世界最先端のロボットを大学入試に送り込んだ...