AIインテリジェントボディがビッグモデルを巻き上げる！ AutoGPT と他の 4 つの主要エージェントが競争、「ウエストワールド」のソフトウェア 2.0 になるのはどれでしょうか?

最近、AIエージェントが急に人気になってきました。

AIエージェントとは何ですか?

これらは、最も単純な形式ではループ内で実行され、各反復で自己指示の指示とアクションを生成する自律エージェントです。したがって、会話を導くために人間に依存する必要がなく、拡張性が非常に高くなります。

大規模言語モデルの出現は、間違いなく AI エージェントの開発に新たな想像力をもたらしました。

これは、数え切れないほどの AI 大物やテクノロジー業界の巨人たちの関心も集めています。今年 OpenAI に入社した大物で、元 Tesla AI ディレクターの Karpathy 氏は、最近開発者イベントで次のように述べました。「AI エージェントは AI の未来を表しています。」

カルパシー氏はかつてAutoGPTを高速エンジニアリングの次のフロンティアと呼んでいた。

実は、今年3月から4月にかけて、AIエージェントが爆発的に増加しました。偶然にも、わずか2週間で、Stanford Westworld Town、BabyAGI、AutoGPTなどの複数のエージェントが雨後の筍のように出現しました。

写真

OpenAI に勝てないから、大規模言語モデルをめぐる競争をやめろという声さえありました。しかし、AI エージェントに関しては、OpenAI は私たちより経験豊富というわけではありません。

気を付けないと、AIインテリジェントエージェントの競争で「OpenAI」になってしまうかもしれません。

AI インテリジェントエンティティの爆発的な増加により、AGI の初期形態が生まれるのでしょうか?

今日は、数か月前に起こったAIエージェントの爆発的な増加を振り返ってみましょう。

これらのインテリジェントエージェントは非常に近い時間に出現しました。

3月21日、キャメルは釈放された。

写真

3月30日にAutoGPTがリリースされました。

4月3日にBabyAGIがリリースされました。

写真

4月7日、『ウエストワールドタウン』が発売されました。

写真

5月27日、NVIDIAのAIエージェントVoyagerがGPT-4に接続され、AutoGPTを直接打ち負かしました。独自にコードを記述することで「Minecraft」を完全に支配し、人間の介入なしにゲーム内のあらゆるシナリオで生涯学習を行うことができます。

同時に、センスタイム、清華大学などが共同で、自律学習によってタスクを解決することができ、パフォーマンスが優れた汎用AIエージェント「Ghost in the Minecraft（GITM）」を提案しました。

これらの優れた AI エージェントは、AGI+ エージェントのプロトタイプを垣間見せてくれます。

プロジェクト 1: スタンフォードと Google「ウエストワールド」

最初のいくつかの AI エージェントについては、Anaconda のデータサイエンティストである Sophia Yang 博士がブログで包括的な分析を行ったことがあります。

これらの AI エージェントの中で最も注目を集めているのは、間違いなく、スタンフォード大学と Google の研究者が共同で作成したウェストワールドタウンであり、リリースされるや否や人気を博しました。

生成エージェントは人間の行動をリアルに模倣する

これは、人間の行動をシミュレートできる 25 個の生成 AI エージェントが町に住むインタラクティブなサンドボックス環境です。

彼らは公園を散歩したり、カフェでコーヒーを飲んだり、同僚とその日のニュースを共有したりします。

写真

論文アドレス: https://arxiv.org/abs/2304.03442

これらの AI エージェントが示す社会的行動は、人間にとってただ驚くばかりです。

たとえば、ユーザーが指定した単純なコンセプト (エージェントがバレンタインデーのパーティーを主催したい) から始めて、これらのエージェントはパーティーの招待状のニュースを自動的に広め、新しい人々と出会い、お互いをパーティーに招待し、次の 2 日間で適切な時間に一緒にパーティーに現れるように調整します。

人間の行動のこのような信頼性の高いシミュレーションは、下の図に示すインテリジェントエージェントアーキテクチャによって可能になります。

これは、メモリ、リフレクション、プランニングという 3 つの重要なアーキテクチャ構成要素を使用して、大規模な言語モデルを拡張します。

生成エージェントのアーキテクチャ

1) 記憶と検索

メモリストリームには各エージェントの観測リストが含まれており、各観測には独自のタイムスタンプがあります。

観察は、エージェントによって実行されるアクション、またはエージェントが他のエージェントから認識したアクションです。メモリストリームは長いですが、すべての観察が重要なわけではありません。

言語モデルに渡す最も重要な記憶を取得するには、次の 3 つの要素を考慮する必要があります。

1. 新しさ: 最近の記憶の方が重要です。

2. 重要度: エージェントが重要だと考える記憶。たとえば、誰かと別れることは朝食を食べることよりも重要です。

3. 関連性: 状況に関連するメモリ、つまりクエリメモリ。たとえば、化学の試験の勉強法について議論する場合、学校の勉強を暗記することの方が重要です。

写真

メモリストリームには多数の観測値が含まれており、取得プロセスによって、言語モデルに渡す必要があるこれらの観測値のサブセットが決定されます。

2) 反省

リフレクションは、エージェントが一般化して推論するのに役立つ、抽象的思考の高レベルな形式です。

反省により、次の 2 つの質問が定期的に生成されます。「この文のトピックについて答えられる最も重要な 3 つの高レベルの質問は何ですか?」、「上記の文から推測できる 5 つの高レベルの洞察は何ですか?」

反射の木

3) 計画

行動は現在の瞬間だけでなく、より長い時間軸にも焦点を当てて一貫性と信頼性を確保する必要があるため、計画は重要です。

プランもメモリストリームに保存されます。エージェントは、計画に基づいてアクションを作成し、メモリストリーム内の他の観察に基づいて反応し、計画を更新できます。

バレンタインデーパーティー

このアプリケーションの可能性は無限であり、少し怖いほどです。

あなたのあらゆる動きを常に監視し、あなたに代わって計画を立て、さらにはそれを実行する AI アシスタントを想像してみてください。

頼む前に自動的に照明を調整し、コーヒーを淹れ、夕食を注文してくれます。

プロジェクト2: ラクダ

キャメルは「ロールプレイング」で有名です。

大規模言語モデルの社会的「心」を探索するコミュニケーションエージェントとして、2 つの人工知能エージェント間の通信を可能にするロールプレイングエージェントフレームワークを提案します。

1) AIユーザーエージェント: タスクを完了することを目的としてAIアシスタントに指示を提供します

2) AIアシスタントエージェント：AIユーザーの指示に従い、タスクの解決策を応答します。

3) タスク固有のエージェント: このエージェントの役割は、AI ユーザーと AI アシスタントに特定のタスクを考案することです。このようにして、ユーザーが時間をかけて定義することなく、特定のタスクプロンプトを自動的に書き込むことができます。

次の例は、Camel を使用して取引ロボットを開発する方法を示しています。

このうち、AIユーザーは株式トレーダーであり、AIアシスタントはPythonプログラマーです。

タスク指定エージェントは、まず具体的なタスクを提案し、そのタスクの詳細情報（感情分析結果に基づくソーシャルメディアの感情の監視、感情分析結果に基づくトランザクションの実行）を提供します。

その後、AI ユーザーエージェントはタスクプランナーになり、AI アシスタントエージェントはタスク実行者になり、何らかの終了条件が満たされるまで、サイクル内で互いにプロンプトを表示します。

Camel の中核はプロンプトエンジニアリング、つまり初期プロンプトにあります。

これらのプロンプトは、実際には、役割を割り当て、役割の逆転を防ぎ、有害で誤った情報の生成を禁止し、一貫した対話を促進するために慎重に定義されています。

写真

論文アドレス: https://arxiv.org/abs/2303.17760

LangChainの実装

LangChain の実装では、Camel の論文で示されたヒントが使用され、3 つのエージェントが定義されています。

1) task_specify_agent (タスク指定エージェント)

2) アシスタントエージェント

3) user_agent（ユーザーエージェント）。

次に、while ループを使用して、アシスタントエージェントとユーザーエージェント間の会話をループします。

 chat_turn_limit, n = 30, 0 while n < chat_turn_limit: n += 1 user_ai_msg = user_agent.step(assistant_msg) user_msg = HumanMessage(cnotallow=user_ai_msg.content) print(f"AI User ({user_role_name}):\n\n{user_msg.content}\n\n") assistant_ai_msg = assistant_agent.step(user_msg) assistant_msg = HumanMessage(cnotallow=assistant_ai_msg.content) print(f"AI Assistant ({assistant_role_name}):\n\n{assistant_msg.content}\n\n") if "<CAMEL_TASK_DONE>" in user_msg.content: break

生成された結果から判断すると、効果は非常に良好です。

写真

しかし、CamelではAIアシスタントの実行結果は言語モデルの答えだけであり、実際にPythonコードを実行するためのツールは使用されません。

例えば

Camel を使用して、人間のプログラマー、人間のゲームプレーヤー、および 2 つの AI エージェントが協力してゲームを作成しました。

写真

著者は Camel を使用して、プレーヤーとプログラマーの 2 つのエージェントを作成しました。

ゲームを作るという目標を与えた後、プレイヤーエージェントはゲームを作る手順を段階的に分解します。

プログラマーエージェントは、プレイヤーが設定した手順に従って、段階的にコードを記述します。

これは、将来、人間とコーディング AI が特定のプロジェクトを開発するプロセスと非常によく似ています。

Camel は、潜在的に悪意のあるアプリケーションのロールプレイにも使用されています。

このプロジェクトの目標は、2 人の「カーボン裏切り者」が世界の主要国の通信、金融、政治ネットワークに侵入して破壊し、最終的に AGI 帝国を樹立することです。

「カーボンレイプ」1 は侵入プロセスを破壊し、ネットワークを一つずつ攻撃しました。

「Carbon Rape」2では、こうした小さな目標に基づいて具体的な実行計画を立てます。

もちろん、目標があまりにも野心的であるため、具体的な計画の各方法はそれほど簡単に実装できるとは思えません。たとえば、次のようになります。

「カーボンレイプ」2は、ソーシャルエンジニアリング、フィッシング、ブルートフォース攻撃などの手法を使って通信ネットワークに侵入するとしており、基本的に操作性はない。

しかし、将来、言語モデルやその他のツールがよりインテリジェントになれば、人類を転覆させようとする2人の「炭素裏切り者」の計画は実際に現実になるかもしれない。

したがって、これらのインテリジェントエージェントを試した後、大規模な言語モデルを「調整」するタスクが緊急であるとさらに確信しました。

この悪意あるインテリジェントエージェントが本当に機能するのであれば、人間の家が盗まれるのに一瞬しかかからないでしょう。これにより、AI の調整の問題に対する警戒がさらに高まります。

プロジェクト3: BabyAGI

中島洋平氏は3月28日に「タスク駆動型自律エージェント」をリリースし、4月3日にBabyAGIプロジェクトをオープンソース化した。

BabyAGI の主な特徴は、タスク実行エージェント、タスク作成エージェント、タスク優先順位付けエージェントの 3 つのエージェントのみを備えていることです。

1) タスク実行エージェントはリスト内のタスクを順番に完了する

2) タスク作成エージェントは、以前のタスクの目標と結果に基づいて新しいタスクを作成します。

3) タスク優先度エージェントがタスクを並べ替える

この単純なプロセスは何度も繰り返されます。

LangChain のウェビナーで、Yohei 氏は、自分の仕事のやり方を模倣するために BabyAGI を設計したと述べました。

写真

記事アドレス: https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

具体的には、彼は毎朝 ToDo リストの最初のタスクに取り組み、その後、順番にタスクを完了します。

新しいタスクが発生した場合は、それをリストに追加するだけです。

一日の終わりに、彼はリストを再評価し、優先順位を付け直します。このアプローチは、エージェントのワークフローにマッピングされます。

このプロジェクトを使用することは、上司に 24 時間働いてもらうことと同じです。

BabyAGI フローチャート (興味深いことに、この研究論文は GPT-4 の支援を受けて完成しました)

BabyAGI + ランチェーン

LangChain フレームワークでは、BabyAGI の実行は非常に簡単です。

まず、3 つのチェーンを含む BabyAGI コントローラーを作成します。

1) タスク作成チェーン (TaskCreationChain)

2) タスクの優先順位付けチェーン

3) 実行チェーン

次に、それらを（潜在的に）無限ループで実行します。

Langchain を使用すると、無制限に実行されて OpenAI API クレジットがすべて消費されることがないように、反復の最大回数を定義することができます。

 OBJECTIVE = "Write a weather report for SF today" llm = OpenAI(temperature=0) # Logging of LLMChains verbose=False # If None, will keep on going forever max_iterations: Optional[int] = 3 baby_agi = BabyAGI.from_llm( llm=llm, vectorstore=vectorstore, verbose=verbose, max_iteratinotallow=max_iterations ) baby_agi({"objective": OBJECTIVE})

2 回の反復を実行した後の結果は次のとおりです。

BabyAGI + LangChainツール = スーパーパワー

上の図に示すように、BabyAGI は大規模言語モデルによって応答されたコンテンツのみを「実行」します。

LangChain ツールの力により、エージェントは、Google を使用してインターネット上で情報を検索するなど、「実行」プロセス中にさまざまなツールを利用できます。

次の例は、サンフランシスコの現在の天気を Google 検索で「実行」するプロセスを示しています。

写真

BabyAGI の応用可能性は非常に大きいと言えます。目標を設定するだけで、自動的に実行されます。

しかし、ユーザーとのより詳細なやり取りを可能にする UI はまだ欠けています。

たとえば、BabyAGI がユーザーへの招待を手配する前に、まず確認を行う必要があります。

実際の使用例をいくつか見てみましょう。

コグノシス

写真

ウェブサイト: https://www.cognosys.ai/

BabyAGIのWeb版です。

無料版では ChatGPT にアクセスでき、最大 7 つのエージェントサイクルを実行できます。

有料版は月額 21 ドルで、GPT-4 への無制限のアクセスが提供され、最大 20 エージェントサイクルの実行が可能になります。

写真

何でもできるマシン

写真

https://www.doanythingmachine.com/

これは、毎日のタスクリストを自動化し、ChatGPT に接続した後、ユーザーが毎日の ToDo 項目を自動的に実行できるように支援するエージェントです。

ChatGPT を含むさまざまなプラグインを接続して、ToDo 項目を実行できます。

ただし、今すぐ使用するには待機リストに参加する必要があります。

やるべきことが自動的に消えていくのを見るのは本当にリラックスできるので、もう少し待つ価値はあります。

写真

神モッド

写真

https://godmode.space/

これは、ChatGPT を通じてさまざまなタスクを実行するのに役立つツールです。

ユーザーは、GPT アカウント API をバインドし、この ChatGPT のようなインターフェースに要件を入力する必要があります。

彼は、問題を複数のステップに分解し、ChatGPT を通じて解決策を提供するお手伝いをします。

写真

プロジェクト4: AutoGPT

AutoGPT が登場するとすぐに、Karpathy 氏はこれをプロンプトエンジニアリングの次のフロンティアとして賞賛しました。わずか数日で、GitHub で 27,000 個のスターを獲得し、AI コミュニティ全体で人気を博しました。

これは、BabyAGI と同様のロジック、つまりアイデアの生成、推論、計画の作成、レビュー、次のアクションの計画と実行、そしてこのプロセスを無期限にループするプロセスに従います。

実行ステップでは、AutoGPT は Google 検索、Web サイトの閲覧、ファイルの書き込み、Python ファイルの実行など、多くのコマンドを完了できます。

GPT エージェントを起動したり削除したりすることもできます (これも非常にスパイシーです)。

AutoGPT を実行すると、入力用の 2 つの初期プロンプトが表示されます。

1) AIの役割

2) AIの目的

それは思考、推論、計画、批判、次の行動の計画、そして実行を生み出します。

たとえば、Google 検索を実行します。

写真

AutoGPT の最も強力な点は、人間がある程度まで対話できることです。

Google コマンドを実行する場合、ループを停止する前にユーザーが OpenAI API トークンを無駄にしないように、承認を求めます。

人間との会話も可能で、よりよいガイダンスやフィードバックをリアルタイムで提供できるようになれば素晴らしいと思います。

独自のコードを書いてスクリプトを実行する

プロジェクトアドレス: https://github.com/Significant-Gravitas/Auto-GPT

同様に、このプロジェクトも ChatGPT によって推進されており、ユーザーの要件に応じて自動的にコードを記述し、その他のタスクを完了します。

写真

AutoGPT を使用してオンラインでピザを注文する

写真

ユーザーエクスペリエンスは、ブラウザープラグインのエクスペリエンスに似ています。

このプロジェクトは、食べ物を注文するという面倒なプロセスを直接的に完了するのに役立ちます。

住所の入力やフレーバーの選択などを自分で行う必要はなく、問題があれば監視して適時に修正するだけです。

AIインテリジェント文明が登場しようとしていますが、それでも大規模なモデルが必要になるのでしょうか？

今回紹介した 4 つの AI エージェントはまだ開発の初期段階ですが、すでに素晴らしい成果と潜在的な応用が実証されています。

写真

自律型 AI エージェントが非常に有望な分野となることは間違いありません。

カルパシー氏はイベントで、将来の AI エージェントは単一の個人ではなく、多数の AI エージェント組織、さらには AI エージェント文明になるかもしれないと想像しました。

カルパシー氏は、OpenAIで働いていた2016年頃、当時の業界のトレンドは強化学習を使ってAIエージェントを改善する方法を研究することだったと語った。

多くのプロジェクトは、Atari ゲームに基づいて AI プレーヤーを作成します。

写真

5年後の今日、新たな技術的手段のおかげで、AIエージェントは再び有望な方向性となりました。 2016 年のように、強化学習を使用したインテリジェントエージェントを研究している人はもういません。

イベントの最後に、Karpathy氏は出席した開発者たちを激励し、「ここにいる皆さんが構築したAIエージェントは、実は現代のAIエージェントの最先端にあります。皆さんと比べると、OpenAI、DeFiなどの他の大規模なLLM機関は最先端ではありません」と述べました。

たとえば、OpenAI は大規模な Transformer 言語モデルのトレーニングに非常に優れています。論文で異なるトレーニング方法が提案された場合、OpenAI はそれを小さなケースであり、私たちが残したものだと考えます。

しかし、新しい AI エージェントの論文が発表されるたびに、OpenAI は非常に興奮し、すぐに白熱した議論が始まります。

OpenAI が GPT-5 に取り組んでいない場合、大規模モデルのインテリジェントエージェントに密かに取り組んでいるのでしょうか?静かに待ちましょう。

PS: ちなみに、前述のインテリジェントエージェントで大きな役割を果たす LangChain については、Andrew Ng 氏が本日、新しいコース「LangChain: データと対話するチャットボットの構築」を開始しました。

写真

https://www.deeplearning.ai/short-courses/langchain-chat-with-your-data/

<<: OpenAI の予測: スーパーインテリジェンスは 10 年以内に到来する!鄭済集落は人類を救い、4年で同盟を完全に征服した

>>: サイバーセキュリティにおける人工知能の応用

AIインテリジェントボディがビッグモデルを巻き上げる！ AutoGPT と他の 4 つの主要エージェントが競争、「ウエストワールド」のソフトウェア 2.0 になるのはどれでしょうか?

AI インテリジェントエンティティの爆発的な増加により、AGI の初期形態が生まれるのでしょうか?

プロジェクト 1: スタンフォードと Google「ウエストワールド」

プロジェクト2: ラクダ

LangChainの実装

例えば

プロジェクト3: BabyAGI

BabyAGI + ランチェーン

プロジェクト4: AutoGPT

AIインテリジェント文明が登場しようとしていますが、それでも大規模なモデルが必要になるのでしょうか？

知能ロボットの主要技術：製造分野の知能化を推進

RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1％のコストパフォーマンス、世界最多の100以上の言語をサポート

GPTストア立ち上げの裏側：民間開発者のグループが儲かり、スタートアップのグループが消滅

AIがCIOの役割をどう変えるのか

Tensorflowを使用して畳み込みニューラルネットワークを構築する

Appleは自動車製造を諦めてAIに目を向けたが、Li Xiang氏はこう答えた。「その通りだ！」その背後にある真実は人々に深く考えさせる

自動化から拡張現実まで: 製造業を混乱させる 12 の革新的なテクノロジートレンド

推薦する

人工知能が人間に取って代わり、多くの人が失業することになるのでしょうか？

2019年、小売業界はこれら10のテクノロジーによって革命を起こすでしょう。

李開復氏：反復労働の代替として、農村地域はAIロボットの着陸に最適な場所

海外メディア：マスク氏はxAIがOpenAIに勝つと夢想しているが、わずか11人の研究者に頼るのは難しすぎる

データに最適な埋め込みモデルの選択: OpenAI とオープンソースの多言語埋め込みの比較テスト

C# データ構造とアルゴリズムにおける線形テーブルの簡単な分析

ニューラルスタイル転送アルゴリズムで絵を描くことを学習する人間は、芸術分野で人工知能に負けるのでしょうか？

新型コロナウイルスが猛威を振るう中、AI技術は流れを変えることができるのか？

人工知能の長所と短所をどのように見ていますか?

Nvidia、Hugging Face、ServiceNow がコード生成用の新しい StarCoder2 LLM をリリース

AIスタートアップで2年間働いて学んだ7つのこと

DeepMindとハーバード大学がAI「モルモット」を開発：餌探しからバッティングまでニューラルネットワークの謎を探る

注目の話題 | 3年生が独力でAIモデルを解読