最近、AIエージェントが急に人気になってきました。 AIエージェントとは何ですか? これらは、最も単純な形式ではループ内で実行され、各反復で自己指示の指示とアクションを生成する自律エージェントです。したがって、会話を導くために人間に依存する必要がなく、拡張性が非常に高くなります。 大規模言語モデルの出現は、間違いなく AI エージェントの開発に新たな想像力をもたらしました。 これは、数え切れないほどの AI 大物やテクノロジー業界の巨人たちの関心も集めています。今年 OpenAI に入社した大物で、元 Tesla AI ディレクターの Karpathy 氏は、最近開発者イベントで次のように述べました。「AI エージェントは AI の未来を表しています。」 カルパシー氏はかつてAutoGPTを高速エンジニアリングの次のフロンティアと呼んでいた。 実は、今年3月から4月にかけて、AIエージェントが爆発的に増加しました。偶然にも、わずか2週間で、Stanford Westworld Town、BabyAGI、AutoGPTなどの複数のエージェントが雨後の筍のように出現しました。 写真 OpenAI に勝てないから、大規模言語モデルをめぐる競争をやめろという声さえありました。しかし、AI エージェントに関しては、OpenAI は私たちより経験豊富というわけではありません。 気を付けないと、AIインテリジェントエージェントの競争で「OpenAI」になってしまうかもしれません。 AI インテリジェントエンティティの爆発的な増加により、AGI の初期形態が生まれるのでしょうか?今日は、数か月前に起こったAIエージェントの爆発的な増加を振り返ってみましょう。 これらのインテリジェントエージェントは非常に近い時間に出現しました。 3月21日、キャメルは釈放された。 写真 3月30日にAutoGPTがリリースされました。 4月3日にBabyAGIがリリースされました。 写真 4月7日、『ウエストワールドタウン』が発売されました。 写真 5月27日、NVIDIAのAIエージェントVoyagerがGPT-4に接続され、AutoGPTを直接打ち負かしました。独自にコードを記述することで「Minecraft」を完全に支配し、人間の介入なしにゲーム内のあらゆるシナリオで生涯学習を行うことができます。 同時に、センスタイム、清華大学などが共同で、自律学習によってタスクを解決することができ、パフォーマンスが優れた汎用AIエージェント「Ghost in the Minecraft(GITM)」を提案しました。 これらの優れた AI エージェントは、AGI+ エージェントのプロトタイプを垣間見せてくれます。 プロジェクト 1: スタンフォードと Google「ウエストワールド」最初のいくつかの AI エージェントについては、Anaconda のデータ サイエンティストである Sophia Yang 博士がブログで包括的な分析を行ったことがあります。 これらの AI エージェントの中で最も注目を集めているのは、間違いなく、スタンフォード大学と Google の研究者が共同で作成したウェストワールド タウンであり、リリースされるや否や人気を博しました。 生成エージェントは人間の行動をリアルに模倣する これは、人間の行動をシミュレートできる 25 個の生成 AI エージェントが町に住むインタラクティブなサンドボックス環境です。 彼らは公園を散歩したり、カフェでコーヒーを飲んだり、同僚とその日のニュースを共有したりします。 写真 論文アドレス: https://arxiv.org/abs/2304.03442 これらの AI エージェントが示す社会的行動は、人間にとってただ驚くばかりです。 たとえば、ユーザーが指定した単純なコンセプト (エージェントがバレンタインデーのパーティーを主催したい) から始めて、これらのエージェントはパーティーの招待状のニュースを自動的に広め、新しい人々と出会い、お互いをパーティーに招待し、次の 2 日間で適切な時間に一緒にパーティーに現れるように調整します。 人間の行動のこのような信頼性の高いシミュレーションは、下の図に示すインテリジェント エージェント アーキテクチャによって可能になります。 これは、メモリ、リフレクション、プランニングという 3 つの重要なアーキテクチャ構成要素を使用して、大規模な言語モデルを拡張します。 生成エージェントのアーキテクチャ 1) 記憶と検索 メモリ ストリームには各エージェントの観測リストが含まれており、各観測には独自のタイムスタンプがあります。 観察は、エージェントによって実行されるアクション、またはエージェントが他のエージェントから認識したアクションです。メモリ ストリームは長いですが、すべての観察が重要なわけではありません。 言語モデルに渡す最も重要な記憶を取得するには、次の 3 つの要素を考慮する必要があります。 1. 新しさ: 最近の記憶の方が重要です。 2. 重要度: エージェントが重要だと考える記憶。たとえば、誰かと別れることは朝食を食べることよりも重要です。 3. 関連性: 状況に関連するメモリ、つまりクエリメモリ。たとえば、化学の試験の勉強法について議論する場合、学校の勉強を暗記することの方が重要です。 写真 メモリ ストリームには多数の観測値が含まれており、取得プロセスによって、言語モデルに渡す必要があるこれらの観測値のサブセットが決定されます。 2) 反省 リフレクションは、エージェントが一般化して推論するのに役立つ、抽象的思考の高レベルな形式です。 反省により、次の 2 つの質問が定期的に生成されます。「この文のトピックについて答えられる最も重要な 3 つの高レベルの質問は何ですか?」、「上記の文から推測できる 5 つの高レベルの洞察は何ですか?」 反射の木 3) 計画 行動は現在の瞬間だけでなく、より長い時間軸にも焦点を当てて一貫性と信頼性を確保する必要があるため、計画は重要です。 プランもメモリ ストリームに保存されます。エージェントは、計画に基づいてアクションを作成し、メモリ ストリーム内の他の観察に基づいて反応し、計画を更新できます。 バレンタインデーパーティー このアプリケーションの可能性は無限であり、少し怖いほどです。 あなたのあらゆる動きを常に監視し、あなたに代わって計画を立て、さらにはそれを実行する AI アシスタントを想像してみてください。 頼む前に自動的に照明を調整し、コーヒーを淹れ、夕食を注文してくれます。 プロジェクト2: ラクダキャメルは「ロールプレイング」で有名です。 大規模言語モデルの社会的「心」を探索するコミュニケーションエージェントとして、2 つの人工知能エージェント間の通信を可能にするロールプレイングエージェントフレームワークを提案します。 1) AIユーザーエージェント: タスクを完了することを目的としてAIアシスタントに指示を提供します 2) AIアシスタントエージェント:AIユーザーの指示に従い、タスクの解決策を応答します。 3) タスク固有のエージェント: このエージェントの役割は、AI ユーザーと AI アシスタントに特定のタスクを考案することです。このようにして、ユーザーが時間をかけて定義することなく、特定のタスクプロンプトを自動的に書き込むことができます。 次の例は、Camel を使用して取引ロボットを開発する方法を示しています。 このうち、AIユーザーは株式トレーダーであり、AIアシスタントはPythonプログラマーです。 タスク指定エージェントは、まず具体的なタスクを提案し、そのタスクの詳細情報(感情分析結果に基づくソーシャルメディアの感情の監視、感情分析結果に基づくトランザクションの実行)を提供します。 その後、AI ユーザー エージェントはタスク プランナーになり、AI アシスタント エージェントはタスク実行者になり、何らかの終了条件が満たされるまで、サイクル内で互いにプロンプトを表示します。 Camel の中核はプロンプト エンジニアリング、つまり初期プロンプトにあります。 これらのプロンプトは、実際には、役割を割り当て、役割の逆転を防ぎ、有害で誤った情報の生成を禁止し、一貫した対話を促進するために慎重に定義されています。 写真 論文アドレス: https://arxiv.org/abs/2303.17760 LangChainの実装LangChain の実装では、Camel の論文で示されたヒントが使用され、3 つのエージェントが定義されています。 1) task_specify_agent (タスク指定エージェント) 2) アシスタントエージェント 3) user_agent(ユーザーエージェント)。 次に、while ループを使用して、アシスタント エージェントとユーザー エージェント間の会話をループします。 生成された結果から判断すると、効果は非常に良好です。 写真 しかし、CamelではAIアシスタントの実行結果は言語モデルの答えだけであり、実際にPythonコードを実行するためのツールは使用されません。 例えばCamel を使用して、人間のプログラマー、人間のゲーム プレーヤー、および 2 つの AI エージェントが協力してゲームを作成しました。 写真 著者は Camel を使用して、プレーヤーとプログラマーの 2 つのエージェントを作成しました。 ゲームを作るという目標を与えた後、プレイヤーエージェントはゲームを作る手順を段階的に分解します。 プログラマーエージェントは、プレイヤーが設定した手順に従って、段階的にコードを記述します。 これは、将来、人間とコーディング AI が特定のプロジェクトを開発するプロセスと非常によく似ています。 Camel は、潜在的に悪意のあるアプリケーションのロールプレイにも使用されています。 このプロジェクトの目標は、2 人の「カーボン裏切り者」が世界の主要国の通信、金融、政治ネットワークに侵入して破壊し、最終的に AGI 帝国を樹立することです。 「カーボンレイプ」1 は侵入プロセスを破壊し、ネットワークを一つずつ攻撃しました。 「Carbon Rape」2では、こうした小さな目標に基づいて具体的な実行計画を立てます。 もちろん、目標があまりにも野心的であるため、具体的な計画の各方法はそれほど簡単に実装できるとは思えません。たとえば、次のようになります。 「カーボンレイプ」2は、ソーシャルエンジニアリング、フィッシング、ブルートフォース攻撃などの手法を使って通信ネットワークに侵入するとしており、基本的に操作性はない。 しかし、将来、言語モデルやその他のツールがよりインテリジェントになれば、人類を転覆させようとする2人の「炭素裏切り者」の計画は実際に現実になるかもしれない。 したがって、これらのインテリジェントエージェントを試した後、大規模な言語モデルを「調整」するタスクが緊急であるとさらに確信しました。 この悪意あるインテリジェントエージェントが本当に機能するのであれば、人間の家が盗まれるのに一瞬しかかからないでしょう。これにより、AI の調整の問題に対する警戒がさらに高まります。 プロジェクト3: BabyAGI中島洋平氏は3月28日に「タスク駆動型自律エージェント」をリリースし、4月3日にBabyAGIプロジェクトをオープンソース化した。 BabyAGI の主な特徴は、タスク実行エージェント、タスク作成エージェント、タスク優先順位付けエージェントの 3 つのエージェントのみを備えていることです。 1) タスク実行エージェントはリスト内のタスクを順番に完了する 2) タスク作成エージェントは、以前のタスクの目標と結果に基づいて新しいタスクを作成します。 3) タスク優先度エージェントがタスクを並べ替える この単純なプロセスは何度も繰り返されます。 LangChain のウェビナーで、Yohei 氏は、自分の仕事のやり方を模倣するために BabyAGI を設計したと述べました。 写真 記事アドレス: https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/ 具体的には、彼は毎朝 ToDo リストの最初のタスクに取り組み、その後、順番にタスクを完了します。 新しいタスクが発生した場合は、それをリストに追加するだけです。 一日の終わりに、彼はリストを再評価し、優先順位を付け直します。このアプローチは、エージェントのワークフローにマッピングされます。 このプロジェクトを使用することは、上司に 24 時間働いてもらうことと同じです。 BabyAGI フローチャート (興味深いことに、この研究論文は GPT-4 の支援を受けて完成しました) BabyAGI + ランチェーンLangChain フレームワークでは、BabyAGI の実行は非常に簡単です。 まず、3 つのチェーンを含む BabyAGI コントローラーを作成します。 1) タスク作成チェーン (TaskCreationChain) 2) タスクの優先順位付けチェーン 3) 実行チェーン 次に、それらを(潜在的に)無限ループで実行します。 Langchain を使用すると、無制限に実行されて OpenAI API クレジットがすべて消費されることがないように、反復の最大回数を定義することができます。 2 回の反復を実行した後の結果は次のとおりです。 BabyAGI + LangChainツール = スーパーパワー 上の図に示すように、BabyAGI は大規模言語モデルによって応答されたコンテンツのみを「実行」します。 LangChain ツールの力により、エージェントは、Google を使用してインターネット上で情報を検索するなど、「実行」プロセス中にさまざまなツールを利用できます。 次の例は、サンフランシスコの現在の天気を Google 検索で「実行」するプロセスを示しています。 写真 BabyAGI の応用可能性は非常に大きいと言えます。目標を設定するだけで、自動的に実行されます。 しかし、ユーザーとのより詳細なやり取りを可能にする UI はまだ欠けています。 たとえば、BabyAGI がユーザーへの招待を手配する前に、まず確認を行う必要があります。 実際の使用例をいくつか見てみましょう。 コグノシス 写真 ウェブサイト: https://www.cognosys.ai/ BabyAGIのWeb版です。 無料版では ChatGPT にアクセスでき、最大 7 つのエージェント サイクルを実行できます。 有料版は月額 21 ドルで、GPT-4 への無制限のアクセスが提供され、最大 20 エージェント サイクルの実行が可能になります。 写真 何でもできるマシン 写真 https://www.doanythingmachine.com/ これは、毎日のタスク リストを自動化し、ChatGPT に接続した後、ユーザーが毎日の ToDo 項目を自動的に実行できるように支援するエージェントです。 ChatGPT を含むさまざまなプラグインを接続して、ToDo 項目を実行できます。 ただし、今すぐ使用するには待機リストに参加する必要があります。 やるべきことが自動的に消えていくのを見るのは本当にリラックスできるので、もう少し待つ価値はあります。 写真 神モッド 写真 https://godmode.space/ これは、ChatGPT を通じてさまざまなタスクを実行するのに役立つツールです。 ユーザーは、GPT アカウント API をバインドし、この ChatGPT のようなインターフェースに要件を入力する必要があります。 彼は、問題を複数のステップに分解し、ChatGPT を通じて解決策を提供するお手伝いをします。 写真 プロジェクト4: AutoGPTAutoGPT が登場するとすぐに、Karpathy 氏はこれをプロンプト エンジニアリングの次のフロンティアとして賞賛しました。わずか数日で、GitHub で 27,000 個のスターを獲得し、AI コミュニティ全体で人気を博しました。 これは、BabyAGI と同様のロジック、つまりアイデアの生成、推論、計画の作成、レビュー、次のアクションの計画と実行、そしてこのプロセスを無期限にループするプロセスに従います。 実行ステップでは、AutoGPT は Google 検索、Web サイトの閲覧、ファイルの書き込み、Python ファイルの実行など、多くのコマンドを完了できます。 GPT エージェントを起動したり削除したりすることもできます (これも非常にスパイシーです)。 AutoGPT を実行すると、入力用の 2 つの初期プロンプトが表示されます。 1) AIの役割 2) AIの目的 それは思考、推論、計画、批判、次の行動の計画、そして実行を生み出します。 たとえば、Google 検索を実行します。 写真 写真 AutoGPT の最も強力な点は、人間がある程度まで対話できることです。 Google コマンドを実行する場合、ループを停止する前にユーザーが OpenAI API トークンを無駄にしないように、承認を求めます。 人間との会話も可能で、よりよいガイダンスやフィードバックをリアルタイムで提供できるようになれば素晴らしいと思います。 独自のコードを書いてスクリプトを実行する プロジェクトアドレス: https://github.com/Significant-Gravitas/Auto-GPT 同様に、このプロジェクトも ChatGPT によって推進されており、ユーザーの要件に応じて自動的にコードを記述し、その他のタスクを完了します。 写真 AutoGPT を使用してオンラインでピザを注文する 写真 ユーザー エクスペリエンスは、ブラウザー プラグインのエクスペリエンスに似ています。 このプロジェクトは、食べ物を注文するという面倒なプロセスを直接的に完了するのに役立ちます。 住所の入力やフレーバーの選択などを自分で行う必要はなく、問題があれば監視して適時に修正するだけです。 AIインテリジェント文明が登場しようとしていますが、それでも大規模なモデルが必要になるのでしょうか?今回紹介した 4 つの AI エージェントはまだ開発の初期段階ですが、すでに素晴らしい成果と潜在的な応用が実証されています。 写真 自律型 AI エージェントが非常に有望な分野となることは間違いありません。 カルパシー氏はイベントで、将来の AI エージェントは単一の個人ではなく、多数の AI エージェント組織、さらには AI エージェント文明になるかもしれないと想像しました。 カルパシー氏は、OpenAIで働いていた2016年頃、当時の業界のトレンドは強化学習を使ってAIエージェントを改善する方法を研究することだったと語った。 多くのプロジェクトは、Atari ゲームに基づいて AI プレーヤーを作成します。 写真 5年後の今日、新たな技術的手段のおかげで、AIエージェントは再び有望な方向性となりました。 2016 年のように、強化学習を使用したインテリジェント エージェントを研究している人はもういません。 イベントの最後に、Karpathy氏は出席した開発者たちを激励し、「ここにいる皆さんが構築したAIエージェントは、実は現代のAIエージェントの最先端にあります。皆さんと比べると、OpenAI、DeFiなどの他の大規模なLLM機関は最先端ではありません」と述べました。 たとえば、OpenAI は大規模な Transformer 言語モデルのトレーニングに非常に優れています。論文で異なるトレーニング方法が提案された場合、OpenAI はそれを小さなケースであり、私たちが残したものだと考えます。 しかし、新しい AI エージェントの論文が発表されるたびに、OpenAI は非常に興奮し、すぐに白熱した議論が始まります。 OpenAI が GPT-5 に取り組んでいない場合、大規模モデルのインテリジェントエージェントに密かに取り組んでいるのでしょうか?静かに待ちましょう。 PS: ちなみに、前述のインテリジェントエージェントで大きな役割を果たす LangChain については、Andrew Ng 氏が本日、新しいコース「LangChain: データと対話するチャットボットの構築」を開始しました。 写真 https://www.deeplearning.ai/short-courses/langchain-chat-with-your-data/ |
<<: OpenAI の予測: スーパーインテリジェンスは 10 年以内に到来する!鄭済集落は人類を救い、4年で同盟を完全に征服した
[[191396]]カルロス・E・ペレスコンピレーション | 聖人、ワンショットオックスフォード大学...
自動化、特に人工知能とロボット工学の進歩が、今日の労働者にとって問題となるかどうか。この議論は毎日繰...
[[255490]]画像出典: Visual China 「私の体は潜水鐘のように重いが、私の心は...
ニューラル ネットワークを正確かつ効率的に構築する能力は、ディープラーニング エンジニアの採用担当者...
パンデミックの影響で、医療業界は世界中で医師、看護師、その他の医療スタッフの深刻な不足に直面していま...
まず、ディープラーニングとはすべてのディープラーニングアルゴリズムの総称であり、CNNは画像処理分野...
蛍光分子を設計するには、分子の光吸収など、分子構造に直接関連するものだけでなく、相互に関連する複数の...
傑作を作ろうとしている画家が、限られたパレットに制限されているところを想像してみてください。彼らは美...
春の耕作シーズンとなり、全国各地で春耕作が行われています。農業農村部の最新データによると、国内の春穀...
企業がサイバーセキュリティに対するプロアクティブなアプローチである脅威露出管理を導入するケースが増え...
スマート車両ネットワーキング、インテリジェンス、アーキテクチャ技術の発展に伴い、自動車ではファームウ...
GPT-4 を「推奨」した後、Copilot は Terence Tao 氏からも熱烈に推奨されま...