最近、復旦大学の自然言語処理チーム (FudanNLP) が LLM ベースのエージェントに関するレビュー論文を発表しました。全文は 86 ページに及び、参考文献は 600 件を超えます。著者らは、AIエージェントの歴史から始めて、 LLMベースのエージェントの背景、構成、適用シナリオ、注目されているエージェント社会など、大規模言語モデルに基づくインテリジェントエージェントの現状を包括的にレビューしました。同時に、著者らはエージェントに関連する将来を見据えた未解決の問題を調査しました。これは、関連分野の将来の発展動向にとって大きな価値があります。
チーム メンバーは、関連する論文ごとに「1 文の要約」も追加します。リポジトリにスターを付けてみませんか。 背景研究者たちは長い間、人間に匹敵する、あるいは人間を超える汎用人工知能(AGI)の実現を目指してきました。 1950 年代初頭、アラン・チューリングは「知能」の概念を人工物にまで拡張し、有名なチューリング テストを提案しました。これらの人工知能エンティティは、多くの場合、エージェント*と呼ばれます。 「エージェント」という概念は哲学に由来し、欲望、信念、意図、行動を起こす能力を持つ実体を表します。人工知能の分野では、この用語に新しい意味が与えられています。それは、自律性、応答性、主導性、社会的能力などの特性を備えたインテリジェントな実体です。 *エージェントという用語の中国語訳についてはコンセンサスがありません。一部の学者は、これを知性体、行動体、エージェント、またはインテリジェントエージェントと翻訳しています。この記事に登場する「エージェント」と「インテリジェントエージェント」はすべてエージェントを指します。 それ以来、エージェントの設計は人工知能コミュニティの焦点となりました。しかし、これまでの研究は主に、記号推論や特定のタスク(チェス、囲碁など)の習得など、エージェントの特定の機能を強化することに焦点を当ててきました。これらの研究は、アルゴリズムの設計とトレーニング戦略に重点を置いており、知識の記憶、長期計画、効果的な一般化、効率的な相互作用など、モデル固有の一般的な機能の開発は無視されています。モデルの固有の機能を強化することが、インテリジェントエージェントのさらなる発展を促進するための重要な要素であることが判明しました。 大規模言語モデル (LLM) の出現により、インテリジェントエージェントのさらなる発展が期待されています。 NLP から AGI への発展経路を、コーパス、インターネット、知覚、具体化、社会的属性の 5 つのレベルに分けると、現在の大規模言語モデルは、インターネット規模のテキスト入出力を備えた第 2 レベルに達しています。これに基づいて、LLM ベースのエージェントに知覚空間と行動空間が与えられると、エージェントは第 3 レベルと第 4 レベルに到達します。さらに、複数のエージェントが相互作用して協力し、より複雑なタスクを解決したり、現実世界の社会的行動を反映したりすることで、第 5 レベル (エージェント社会) に到達する可能性があります。 著者らは、人間も参加できるインテリジェントエージェントで構成された調和のとれた社会を思い描いています。このシーンは『原神』のランタンフェスティバルから取られたものです。 エージェントの誕生大きなモデルを備えたインテリジェントエージェントはどのようなものになるでしょうか?ダーウィンの「適者生存」の法則にヒントを得て、著者らは大規模モデルに基づくインテリジェントエージェントの一般的なフレームワークを提案した。人が社会で生き残りたいのであれば、環境に適応することを学ばなければなりません。そのためには、認知能力を持ち、外界の変化を感知して対応できる必要があります。同様に、インテリジェント エージェントのフレームワークも、制御 (Brain)、知覚 (Perception)、アクション (Action) の 3 つの部分で構成されます。
LLM ベース エージェントの概念フレームワークは、制御側 (Brain)、知覚側 (Perception)、アクション側 (Action) の 3 つのコンポーネントで構成されます。 著者らは、LLM ベースのエージェントのワークフローを説明するために例を使用しています。人間が雨が降るかどうかを尋ねると、知覚側はその指示を LLM が理解できる表現に変換します。制御側(脳)は、現在の天気とインターネット上の天気予報に基づいて推論と行動計画を開始します。最後に、アクションが応答し、傘を人間に渡します。 上記のプロセスを繰り返すことで、インテリジェント エージェントは継続的にフィードバックを取得し、環境と対話することができます。 制御端末: ブレイン インテリジェント エージェントの中核コンポーネントとして、著者らは制御端の機能を 5 つの側面から紹介しています。 自然言語インタラクション:言語は豊富な情報を含むコミュニケーションの媒体です。 LLM の強力な自然言語生成および理解機能のおかげで、インテリジェント エージェントは自然言語を通じて外部世界と複数回のやり取りを行い、目標を達成することができます。具体的には、次の 2 つの側面に分けられます。
知識:大量のコーパスに基づいてトレーニングされた LLM は、膨大な量の知識を保存する能力を備えています。言語知識に加えて、常識知識と専門スキル知識も LLM ベースのエージェントの重要な要素です。 LLM 自体には知識の有効期限切れや幻覚などの問題が残っていますが、既存の研究では知識編集や外部知識ベースの呼び出しなどの方法によってそれらをある程度軽減することができます。 メモリ:このフレームワークでは、メモリ モジュールはエージェントの過去の観察、思考、およびアクション シーケンスを保存します。特定の記憶メカニズムを通じて、エージェントは以前の戦略を効果的に反映して適用することができ、過去の経験を活用して未知の環境に適応することができます。 記憶力を向上させるためによく使われる方法は 3 つあります。
さらに、記憶の検索方法も重要です。適切なコンテンツを検索することによってのみ、エージェントは最も関連性の高い正確な情報にアクセスできます。 推論と計画:推論は、インテリジェント エージェントが意思決定や分析などの複雑なタスクを実行するために不可欠です。特に LLM に関して言えば、それは Chain-of-Thought (CoT) に代表される一連のプロンプト手法です。大きな課題に直面したとき、計画を立てることは一般的な戦略です。エージェントが思考を整理し、目標を設定し、その目標を達成するための手順を特定するのに役立ちます。具体的な実装では、計画には次の 2 つのステップが含まれます。
移転可能性と一般化:世界知識を備えた LLM は、インテリジェント エージェントに強力な移転および一般化機能を提供します。優れたエージェントは静的な知識ベースではなく、動的な学習機能も備えている必要があります。
感知 人間は世界をマルチモーダルに認識するため、研究者は LLM ベースのエージェントに対しても同様の期待を抱いています。マルチモーダル知覚により、エージェントの作業環境に対する理解が深まり、汎用性が大幅に向上します。 テキスト入力: LLM の最も基本的な機能であるため、ここでは詳しく説明しません。 視覚入力: LLM には視覚認識能力がなく、個別のテキスト コンテンツのみを理解できます。視覚的な入力には通常、オブジェクトの属性、空間関係、シーンのレイアウトなど、世界に関する多くの情報が含まれています。一般的な方法は次のとおりです。
聴覚入力:聴覚も人間の知覚の重要な部分です。 LLM は優れたツール呼び出し機能を備えているため、直感的なアイデアとしては、エージェントが LLM を制御ハブとして使用し、既存のツール セットまたはエキスパート モデルをカスケード方式で呼び出してオーディオ情報を認識できるというものがあります。さらに、オーディオはスペクトログラムによって直感的に表現することもできます。スペクトログラムは、2D 情報を表示するための平面画像として使用できるため、一部の視覚処理方法を音声分野に転送できます。 その他の入力:現実の世界には、テキスト、視覚、聴覚よりもはるかに多くの情報が存在します。著者らは、将来的には、知的エージェントが触覚や嗅覚などの器官など、より豊富な知覚モジュールを備え、対象物体のより豊富な特性を取得できるようになることを期待している。同時に、エージェントは周囲の環境の温度、湿度、明るさを明確に把握し、より環境を意識した行動をとることもできます。 さらに、LIDAR、GPS、慣性測定ユニットなどの成熟した認識モジュールを使用して、エージェントに、より広い全体的な環境の認識を与えることもできます。 アクション 脳が分析と決定を行った後、エージェントは環境に適応したり環境を変更したりするためのアクションを実行する必要があります。 テキスト出力: LLM の最も基本的な機能であるため、ここでは詳しく説明しません。 ツールの使用: LLM は優れた知識の蓄積と専門能力を備えていますが、特定の問題に直面したときには、堅牢性の問題や幻覚などの一連の課題に直面する可能性もあります。同時に、ユーザーの能力の拡張として、ツールは専門性、事実性、説明可能性の面で支援を提供できます。たとえば、計算機を使用して数学の問題を解いたり、検索エンジンを使用してリアルタイムの情報を検索したりできます。 さらに、ツールによってインテリジェントエージェントのアクション空間を拡張することもできます。例えば、音声生成や画像生成などの専門モデルを呼び出すことで、マルチモーダルなアクション方法が得られます。したがって、エージェントをいかに優れたツールユーザーにするか、つまり、ツールを効果的に使用する方法をいかに学習するかは、非常に重要かつ有望な方向性です。 現在、主なツール学習方法としては、デモンストレーションからの学習とフィードバックからの学習があります。さらに、メタ学習やカリキュラム学習などを利用して、エージェントがさまざまなツールの使用を一般化できるようにすることもできます。さらに、インテリジェントエージェントはツールを「自立的に」作成する方法をさらに学習できるため、自律性と独立性が向上します。 具体化されたアクション:具体化とは、エージェントが環境と相互作用する際に環境を理解し、変換し、自身の状態を更新する能力を指します。具現化されたアクションは、仮想知能と物理的現実の間の架け橋として考えられています。 従来の強化学習ベースのエージェントは、サンプル効率、一般化、複雑な問題に関する推論に限界があります。LLM ベースのエージェントは、大規模モデルの豊富な固有知識を導入することで、組み込まれたエージェントが人間のように物理環境を積極的に認識し、影響を与えることを可能にします。タスクにおけるエージェントの自律性の度合いやアクションの複雑さに応じて、次のアトミック アクションが考えられます。
これらのアトミックアクションを組み合わせることで、エージェントはより複雑なタスクを実行できます。たとえば、「キッチンにあるスイカはボウルより大きいですか?」などの具体化された QA タスク。この問題を解決するには、エージェントはキッチンまで移動し、両方のサイズを観察してから答えを出す必要があります。 物理的なハードウェアの高コストと具体化されたデータセットの不足によって制限されているため、具体化されたアクションに関する現在の研究は、依然としてゲーム プラットフォーム「Minecraft」などの仮想サンドボックス環境に主に集中しています。したがって、一方では、著者らは、より現実に近いタスクパラダイムと評価基準を望んでいます。他方では、関連するデータセットを効率的に構築するためのさらなる調査も必要です。 エージェントの実践: 多様なアプリケーション シナリオ現在、LLM ベースのエージェントは、印象的な多様性と強力なパフォーマンスを実証しています。 AutoGPT、MetaGPT、CAMEL、GPT Engineer などのよく知られたアプリケーションの例は、かつてない速度で急成長しています。 具体的なアプリケーションを紹介する前に、著者は Agent in Practice の設計原則について説明しました。 1. ユーザーが日常的なタスクや反復的な労働から解放され、人的作業のプレッシャーが軽減され、タスク解決の効率が向上します。 2. ユーザーからの明示的な低レベルの指示が不要になり、システムは完全に自律的に問題を分析、計画、解決できるようになります。 3. ユーザーの手を解放した後は、脳の解放を目指します。最先端の科学分野の潜在能力を最大限に活用し、革新的で探索的な作業を完了します。 これを基に、エージェントの適用には 3 つのパラダイムがあります。 LLM ベース エージェントの 3 つのアプリケーション パラダイム: 単一エージェント、マルチエージェント、および人間とコンピュータの相互作用。 単一エージェントのシナリオ 人間からの自然言語コマンドを受け入れて日常的なタスクを実行できるインテリジェントエージェントは現在、ユーザーの間で非常に人気があり、高い実用的価値を持っています。著者らはまず、多様なアプリケーション シナリオと、そのアプリケーション シナリオにおける単一のインテリジェント エージェントの対応する機能について詳しく説明しました。 この論文では、単一のインテリジェントエージェントの応用を次の 3 つのレベルに分類します。 単一エージェント アプリケーション シナリオの 3 つのレベル: タスク指向、イノベーション指向、ライフ サイクル指向。
マルチエージェントシナリオ 1986 年にマービン・ミンスキーは先見の明のある予測をしました。彼は著書『心の社会』の中で、知能に関する新しい理論を提唱し、知能は多くのより小さな、機能に特化したエージェントの相互作用から生じると主張した。たとえば、一部のエージェントはパターンの認識を担当し、他のエージェントは意思決定やソリューションの生成を担当する場合があります。 このアイデアは、分散型人工知能の台頭とともに実践されてきました。マルチエージェントシステムは、主要な研究課題の 1 つとして、エージェントが問題を解決するためにどのように効果的に調整および協力できるかに焦点を当てています。この記事の著者は、複数のエージェント間の相互作用を次の 2 つの形式に分類しています。 マルチエージェント アプリケーション シナリオにおける 2 つの形式の相互作用: 協力的相互作用と敵対的相互作用。 協調的インタラクション:実際のアプリケーションで最も広く導入されているタイプである協調エージェント システムは、タスクの効率を効果的に向上させ、共同で意思決定を改善できます。具体的には、協力のさまざまな形態に基づいて、著者らは協力的相互作用を無秩序な協力と秩序ある協力にさらに細分化します。
敵対的相互作用:エージェントは報復的な方法で相互作用します。競争、交渉、議論を通じて、エージェントは間違っている可能性のある以前の信念を捨て、自分の行動や推論プロセスを有意義に振り返り、最終的にシステム全体の応答品質を向上させます。 人間とコンピュータの相互作用のシナリオ ヒューマンエージェントインタラクションは、その名前が示すように、インテリジェントエージェントが人間と対話して共同でタスクを完了するプロセスです。一方で、エージェントの動的学習能力はコミュニケーションによってサポートされる必要があります。他方、現在のエージェントシステムは解釈可能性に欠けており、セキュリティと合法性の面で問題がある可能性があるため、規制と監督には人間の参加が必要です。 この論文では、著者らは人間とエージェントのインタラクションを次の 2 つのモードに分類しています。 人間とコンピュータの相互作用シナリオの 2 つのモード: インストラクターと実行者のモードと対等なパートナーシップ モード。
エージェント社会:個人から社会へ研究者たちは長い間、「インタラクティブな人工社会」の構築を待ち望んできました。サンドボックスゲーム「シムズ」から「メタバース」まで、人々がシミュレートした社会を定義すると、環境 + 環境内で生活し、相互作用する個人と要約できます。 記事の中で、著者は図表を使ってエージェント社会の概念的枠組みを説明しています。 エージェント社会の概念的枠組みは、エージェントと環境という 2 つの主要な部分に分かれています。 このフレームワークでは、次のことがわかります。
エージェントの社会的行動と性格 この記事では、外部行動と内部性格の観点から社会におけるエージェントのパフォーマンスを検証します。 社会的行動:社会的観点から見ると、行動は個人レベルと集団レベルという 2 つのレベルに分けられます。
性格:認知、感情、性格が含まれます。人間が社会化を通じて徐々に独自の特性を発達させるのと同様に、エージェントもいわゆる「人間のような知性」を発揮します。つまり、エージェントはグループや環境との相互作用を通じて徐々に性格を形成します。
社会の運用環境をシミュレートする エージェント社会は、独立した個人だけでなく、彼らが相互作用する環境からも構成されます。環境はエージェントの認識、行動、相互作用に影響を与えます。次に、エージェントは自身の行動と決定を通じて環境の状態を変更します。単一のエージェントの場合、環境には他の自律エージェント、人間、および利用可能なリソースが含まれます。 ここで著者らは 3 種類の環境を検討します。 テキストベースの環境: LLM は主に入力および出力形式として言語に依存しているため、テキストベースの環境はエージェントにとって最も自然な動作プラットフォームです。テキスト環境は、テキストを通じて社会現象や相互作用を記述することで、意味と背景知識を提供します。エージェントはそのようなテキストの世界に存在し、テキスト リソースに依存して認識し、推論し、アクションを実行します。 仮想サンドボックス環境:コンピューター分野では、サンドボックスとは、ソフトウェアのテストや分析によく使用される、制御された隔離された環境を指します。エージェント社会の仮想サンドボックス環境は、社会的相互作用と行動シミュレーションをシミュレートするためのプラットフォームとして機能します。主な機能は次のとおりです。
実際の物理環境:物理環境は、エージェントが観察して行動する実際のオブジェクトと空間で構成される具体的な環境です。この環境は、豊富な感覚入力(視覚、聴覚、空間)をもたらします。仮想環境とは異なり、物理空間ではエージェントの動作にさらなる要求が課せられます。つまり、エージェントは物理環境に適応し、実行可能な動作制御を生成する必要があります。 著者は、物理環境の複雑さを説明するために、次のような例を挙げています。工場でロボットアームを操作するインテリジェントエージェントを想像してください。ロボットアームを操作する際、異なる材質の物体に損傷を与えないように力を正確に制御する必要があります。さらに、エージェントは物理的な作業スペース内を移動し、障害物を回避してロボットアームの移動軌道を最適化するために、時間内に移動経路を調整する必要があります。 これらの要件はすべて、物理環境におけるエージェントの複雑さと課題を増大させます。 シミュレーション、開始! 論文の中で著者らは、シミュレートされた社会はオープンで、持続的で、状況に応じて変化し、組織化されているべきだと主張している。オープン性により、エージェントはシミュレートされた社会に自律的に出入りできます。持続性とは、社会が時間の経過とともに一貫した発展の軌道をたどることを意味します。文脈性は、特定の環境における主体の存在と動作を強調します。組織化により、シミュレートされた社会に物理世界と同様のルールと制限があることが保証されます。 シミュレートされた社会の重要性については、スタンフォード大学のジェネレーティブエージェントタウンが鮮明な例を示しています。エージェント社会は、エージェントが共同でバレンタインデーパーティーを企画するなど、集合知の能力を探求するために使用できます。また、ソーシャルネットワークをシミュレートしてコミュニケーション現象を観察するなど、社会科学の研究を加速するためにも使用できます。さらに、倫理的な意思決定のシナリオをシミュレートすることでエージェントの背後にある価値観を探ったり、政策が社会に与える影響をシミュレートすることで意思決定を支援したりする研究もあります。 さらに、著者らは、これらのシミュレーションは、有害な社会現象、固定観念や偏見、プライバシーやセキュリティの問題、過度の依存や中毒など、特定のリスクをもたらす可能性もあると指摘している。 将来を見据えた未解決の質問論文の最後で、著者は読者の思考を刺激するために、いくつかの将来を見据えた未解決の疑問についても議論しています。 インテリジェントエージェントと大規模言語モデルの研究は、どのようにすれば相互に促進し、共に発展できるのでしょうか?大規模モデルは、言語理解、意思決定、一般化機能において大きな可能性を示しており、エージェント構築プロセスにおいて重要な役割を担っています。エージェントの進歩により、大規模モデルに対する要求も高まっています。 LLM ベースのエージェントはどのような課題や懸念をもたらすでしょうか?インテリジェントエージェントが本当に実装できるかどうかは、現実世界に害を及ぼさないように厳密なセキュリティ評価が必要です。著者らは、違法な乱用、失業のリスク、人間の福祉への影響など、さらなる潜在的な脅威をまとめています。 エージェントの数を増やすと、どのような機会と課題がもたらされますか?シミュレートされた社会では、個人の数を増やすことで、シミュレーションの信頼性と信憑性が大幅に向上します。しかし、エージェントの数が増えると、通信とメッセージの伝播の問題が非常に複雑になり、情報の歪み、誤解、幻覚によってシミュレーション システム全体の効率が大幅に低下します。 LLM ベースのエージェントが AGI への正しい道であるかどうかについては、インターネット上で議論があります。一部の研究者は、GPT-4 に代表される大規模モデルは十分なコーパスでトレーニングされており、これに基づいて構築されたエージェントは AGI への扉を開く鍵となる可能性があると考えています。しかし他の研究者は、自己回帰言語モデルは単に応答しているだけなので、真の知能を示すものではないと考えています。世界モデルなどのより完全なモデリング手法は、AGI につながる可能性があります。 群知能の進化。群知能とは、多くの人々の意見を集めてそれを意思決定に反映させるプロセスです。しかし、エージェントの数を増やすだけで真の「知性」が生み出されるのでしょうか?さらに、インテリジェントエージェントの社会が「集団思考」や個人の認知バイアスを克服できるように、個々のエージェントをどのように調整すればよいのでしょうか。 エージェント・アズ・ア・サービス (AaaS)。 LLM ベースのエージェントは、大規模モデル自体よりも複雑なため、中小企業や個人がローカルで構築するのは困難です。そのため、クラウド ベンダーは、サービス、つまり Agent-as-a-Service の形式でインテリジェント エージェントを実装することを検討できます。他のクラウド サービスと同様に、AaaS はユーザーに高い柔軟性とオンデマンドのセルフサービスを提供できる可能性があります。 |
>>: ChatGPTヘルプ! 4歳の男の子は3年間で17人の専門医に治療を受けたが、効果はなかった。大型模型が病気の原因を正確に特定した
スマート音声開発者はAIの「ゴールドラッシュ」を先導しています。 7月4日、第2回百度AI開発者会議...
最近、中山大学は常識に基づいた偏りのない視覚的質問応答データセット (Knowledge-Route...
2023 年 6 月 13 日 – 先日開催された 2023 年 Greater China Exe...
ディアナ・リッチー翻訳者: ブガッティレビュアー: Qianshan 2022年以降、人工知能(AI...
人工知能専攻は、工学専攻の下にある電子情報専攻に属します。ここでは、人工知能専攻を提供している大学と...
マルチモーダル大型モデルファミリーに新しいメンバーが加わりました!複数の画像とテキストを組み合わせて...
近年の新興技術として、人工知能は人々の生活のあらゆる側面に静かに浸透し、比較的ホットな産業に発展しま...
人工知能と自動化はもはやSFの世界の話ではなく、ビジネスの世界と消費者の世界の両方で非常に現実的かつ...
ジェネレーティブ AI スタートアップの需要は高く、テクノロジー大手からの CVC および VC 資...
編集者 | イーフェン制作:51CTO テクノロジースタック(WeChat ID:blog)大きな続...
ChatGPTからGPT4、DALL・E 2/3からMidjourneyまで、生成AIはこれまでにな...
量子コンピューティングはブロックチェーンを破壊するのか、それともより安全にするのか? 01 序文コン...
著者: 張傑[51CTO.comより引用] 2020年と比べると、2021年の自動運転業界にはよりエ...