9 月 19 日、Jim Fan は Fudan NLP チームからの LLM ベースのエージェントのレビューを転送しました。 エージェントは、環境を認識し、独自に判断し、アクションを実行できる人工知能エンティティです。 本稿では、脳、知覚、行動を含む LLM エージェントに基づく一般的な概念フレームワーク、および LLM エージェントのアプリケーション シナリオと LLM エージェントで構成される社会について紹介します。 LLM エージェントの分野における一連の重要な問題と未解決の問題についてもまた議論されます。 興味深いことに、arXiv に提出された論文の最初の 2 つのバージョンでは、miHoYo との共著であることが記されていました。この論文では、原神のランタン フェスティバルを例に挙げ、AI エージェントで構成された理想的な社会を紹介していました。 論文アドレス: https://arxiv.org/pdf/2309.07864 この論文は 9 月 15 日に GitHub で公開された後、わずか 5 日間で 1,000 個のスターを獲得し、LLM エージェントの必読論文として評価されました。 20日にはGitHubのトレンドリストにも登場しました。 プロジェクトアドレス: https://github.com/WooooDyy/LLM-Agent-Paper-List 「知性」とは何かという議論はチューリングの時代に始まりました。 1950 年、アラン・チューリングは「計算機と知能」と題する論文を発表しました。 彼は論文の冒頭で、「機械は考えることができるか?」という疑問を提起した。 その答えは疑いようがなく、チューリングは知能の概念を人工物にまで拡張し、有名な「チューリングテスト」を提案しました。 その後数十年にわたり、人々は機械が人間と同等かそれ以上の知能を実現できるようにするという AGI (人工汎用知能) という目標に向かって進んできました。 現在、最も強力な人工知能 GPT-4 は、AGI に最も近い人工知能として知られています。 しかし、現在主流の人工知能は、NLP(自然言語処理)技術のLLM(大規模言語モデル)をベースとしており、特定の分野にしか適用できず、他の分野については何も知らず、「幻覚」を生み出すことも少なくありません。 チューリング賞受賞者のヤン・ルカン氏は、既存の人工知能はよく訓練された「確率論的なオウム」の集まりに過ぎず、真に知的であるとは言えないと繰り返し公に批判してきた。 彼は、AGI への真の道は、自律的に環境を認識し、計画を立て、行動を起こすことができる「世界モデル」になると考えています。 AGI の最終目標が「世界モデル」である場合、現時点で最終目標に最も近いのは自律的に行動できるエージェントです。 LLMエージェント開発の歴史NLP から AGI に移行するには何段階必要ですか? 答えは 5 つです: コーパス、インターネット、認識、具体化、社会的属性。現在、大規模言語モデルは第 2 フェーズにあり、インターネット規模のテキスト入力と出力が行われています。 さらに先に進みたい場合は、LLM に認識して行動する能力を与える必要があります。 次に、知覚と行動の能力を備えたこれらの自律的な LLM エージェントが相互に対話したり、コラボレーションを通じてより複雑な問題を解決したり、現実世界の社会的行動を反映したりすることができれば、それらは社会的属性を持つことになります。 人間も AI エージェントで構成された社会に参加できます。 原神ランタンフェスティバルを例にとると、上の写真では、翔玲と瑶瑶がキッチンで食事の準備をしており、胡涛と欣燕がコンサートで演奏しており、甘宇と克青がランタン作りについて話し合っています。 プレイヤー(コントローラー)は、AIエージェントと対話する任意のシーンを選択できます。 したがって、AI エージェントは AGI を実現するための最も有望な選択肢であると考えられています。 しかし、エージェントとは何でしょうか? エージェントの中国語の意味は「代理人」です。この概念は哲学に由来し、アリストテレスとヒュームにまで遡ることができます。 エージェントとは、欲望、信念、意図、行動を起こす能力を持つエンティティを表します。この概念をコンピューター サイエンスに翻訳すると、コンピューターがユーザーの意図を理解し、ユーザーに代わってタスクを自律的に実行できるようになります。 AI の発展に伴い、エージェントは AI 研究において、インテリジェントな動作を示し、自律性、応答性、自発性、社会的能力を備えたエンティティを表すものとして定着しました。 人々が概念を使って物体を説明できるようになると、より詳細な研究が始まります。 エージェントが独自の定義と意味合いを持つようになってからは、「インテリジェントエージェント」に関する研究が AI コミュニティの焦点となりました。 LLMに基づくエージェント エージェントに関する徹底的な研究は 20 世紀半ばに始まり、人々の努力によって一定の成果が得られましたが、エージェントの適用シナリオは非常に限られており、特定のタスクしか達成できません。 人々が求めているのは、特殊なツールではなく、汎用的で幅広いシナリオに適用できる AGI です。 おそらく、専門的な道具は相当な力を発揮できるだろうが、道具は自律的に世界に適応することはできず、ただ使われることしかできない。 モデルが自律性を持ち、生物のようにさまざまな複雑な環境に適応したい場合、汎用的な機能が必要な鍵となります。 これには、知識の保持、長期計画、効果的な一般化、効率的な対話などの能力が含まれます。 さまざまな種類の人工知能の発展に伴い、大規模言語モデル (LLM) が一般的な汎用機能を備えたシードプレーヤーとして登場しました。 Pure LLM は、インターネット規模のテキスト入力と出力を備えた AGI への道の第 2 段階にあります。 しかし、LLM は知識獲得、指示理解、一般化、計画、推論において強力な能力を発揮し、人間との効果的な自然言語による対話も行うことができます。 これは非常に重要な利点であるため、エージェント システムの出発点として LLM が選択されました。人間がより広い知覚空間と行動空間を与えると、LLM はより高いレベルに到達する可能性があります。 LLM ベースのエージェントの一般的な概念フレームワークの鍵となるのは、それが脳、知覚、行動という 3 つの部分で構成されていることです。 人間と同様に、脳は LLM で構成される AI エージェントの中核です。インテリジェントエージェントにおいて、LLM はメモリと知識の保存を担当し、情報処理や意思決定などの不可欠な機能も担います。 したがって、LLM により、エージェントは推論と計画のプロセスを提示し、未知のタスクにうまく対処できるようになり、インテリジェント エージェントの一般化と移転可能性が反映されます。 エージェントの認識空間は、純粋なテキストから、テキスト、視覚、聴覚を含むマルチモーダル領域に拡張され、周囲の環境からの情報をより効果的に取得して活用できるようになります。 エージェントのアクションに関しては、従来のテキスト出力に加えて、環境の変化に適応し、フィードバックを通じて環境と対話し、さらには環境を形作るために、ツールを具現化して使用する能力もエージェントに与える必要があります。 エージェントの実際の適用シナリオここでは主に、エージェントの 3 つのアプリケーション シナリオ (単一エージェントの展開、マルチエージェントの相互作用、および人間とエージェントの相互作用) を紹介します。 単一のエージェントは複数の機能を備えており、さまざまなアプリケーション方向で優れたタスク解決機能を発揮できます。 シングルエージェント アプリケーションは 3 つのレベルに分かれています。 まず、タスク指向の展開では、エージェントは人間のユーザーによる基本的な日常タスクの解決を支援できます。この時点で、エージェントには基本的なコマンド理解とタスク分解機能が必要です。 既存のタスク タイプに応じて、エージェントの実際のアプリケーションは、シミュレートされたネットワーク環境とシミュレートされたライフ シナリオに分けられます。 第二に、イノベーション志向の開発において、エージェントは科学分野における自律的な探索の可能性を示します。 エージェントの構築は専門分野特有の複雑さとトレーニングデータの不足によって妨げられていますが、化学、材料、コンピューターなどの分野では進歩が遂げられています。 ライフサイクル指向の展開では、エージェントはオープンワールドでの長期的な生存を確保するために、新しいスキルを継続的に探索、学習、活用する能力を備えています。 ゲーム「Minecraft」を例にとると、ゲーム内のサバイバルチャレンジは現実世界の縮図と考えられており、エージェントの総合的な能力を開発およびテストするためのユニークなプラットフォームとなっています。 複数のエージェントが相互作用する場合、協力的または敵対的な相互作用を通じて進歩を達成できます。 協力的な相互作用では、エージェントは共通の目標を達成するために無秩序または秩序立った方法で協力します。 敵対的な相互作用では、エージェントはそれぞれのパフォーマンスを向上させるために、報復的な方法で競争します。 さらに、人間とエージェントのインタラクションプロセス中に、人間からのフィードバックにより、エージェントはタスクをより効率的かつ安全に実行できるようになり、エージェントは人間に対してより優れたサービスを提供できるようになります。 人間とエージェント間の相互作用は 2 つのモードに分けられます。 メンター-エグゼキューターパラダイム (左) では、人間がガイダンスやフィードバックを提供し、エージェントが執行者として機能します。 平等な協力パラダイム (右) では、エージェントは人間のように動作し、人間と共感的な会話をしたり、非協力的なタスクに参加したりすることができます。 最後に、エージェントで構成された社会が存在します。 エージェント社会は、エージェントと環境という 2 つの要素に簡単に分けることができます。 個々のレベルでは、エージェントは計画、推論、反省などの内面化された行動を示すことができます。また、認知、感情、性格などの根底にある性格特性も現れます。 しかし、エージェントは他のエージェントとグループを形成し、協力などのグループ行動を示すことができます。 環境のレベルでは、仮想的であろうと物理的であろうと、人間のアクターと利用可能なすべてのリソースが含まれており、単一のエージェントの場合、他のエージェントも環境の一部になります。エージェントは、知覚と行動を通じて環境と対話する能力を持っています。 ネットユーザーの間で熱い議論が巻き起こる:AIエージェント、始動! おそらく、原神と「世界を救うハイテクオタク」ブランドmiHoYoの「暴露」のため、ネットユーザーはこの論文を非常に懸念している。 ネットユーザーの中には、この80ページの論文を1日で読み終えたいと望む者もいた。 「この論文を1日で読んで理解できる人がいるかどうかはわかりませんが、やってみます。」 もう一人のネットユーザー、原神のプレイヤーは直接こう言った。 「ゲンシン、起動!」 この論文ではゲームにおけるAIエージェントの応用については触れられていないが、miHoYoとGenshin Impactの登場によりネットユーザーは大いに興奮し、AIエージェントがゲームに与える影響を想像し始めた。 「これは『原神』の未来であるだけでなく、すべてのゲームの未来でもあります。 AI エージェントをストーリーのパートナーにしましょう。AI エージェントは、固定されたスクリプトに頼るのではなく、独自の価値観でプレイヤーの選択に応答します。 「 一部のネットユーザーもゲームと AGI の将来を想像しました。 「AGI に具現化されたエージェントが必要な場合は、ゲームがそれを実装するのに最適な場所です。」 |
<<: 2024 年のトップ 10 戦略的テクノロジー トレンド
>>: LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。
自動化された機械学習は、過去 1 年間で大きな関心を集めるトピックになりました。 KDnuggets...
[[247527]]コストを削減し、効率を向上させるために、人材戦略は変わりますか?北京青年報は10...
[[205882]]北京時間10月10日朝のニュースによると、中国の検索大手、百度はシアトル地域にオ...
人工知能は食品システムを最適化できると思いますか? 精密農業からパーソナライズされた栄養管理まで、農...
アドリアン・トゥルイユ翻訳者 | ブガッティ校正 | Chonglou制作:51CTO テクノロジー...
[[250357]]フェイフェイ・リー氏は去り、グーグルAI中国センターのリー・ジア所長も去った。...
地球は私たちの共通の家であり、地球環境を保護するために私たちは協力しなければなりません。したがって、...
1950年代以降、人工知能は長年にわたり浮き沈みを経験し、ビジネスシーンで継続的に試されてきました。...
「ここ数年、情報技術分野で私たちが学んだ最大の教訓の一つは、主要な中核技術は私たち自身の独立したイノ...
最近、雲南省の象の群れに関するニュースを皆さんも聞いたことがあると思います。 2020年、雲南省西双...