復旦NLPチームが大規模モデルエージェントの80ページのレビューを公開、AIエージェントの現状と将来を概観

最近、復旦大学の自然言語処理チーム (FudanNLP) が LLM ベースのエージェントに関するレビュー論文を発表しました。全文は 86 ページに及び、参考文献は 600 件を超えます。著者らは、AIエージェントの歴史から始めて、 LLMベースのエージェントの背景、構成、適用シナリオ、注目されているエージェント社会など、大規模言語モデルに基づくインテリジェントエージェントの現状を包括的にレビューしました。同時に、著者らはエージェントに関連する将来を見据えた未解決の問題を調査しました。これは、関連分野の将来の発展動向にとって大きな価値があります。

論文リンク: https://arxiv.org/pdf/2309.07864.pdf
LLM ベースのエージェント論文リスト: https://github.com/WooooDyy/LLM-Agent-Paper-List

チームメンバーは、関連する論文ごとに「1 文の要約」も追加します。リポジトリにスターを付けてみませんか。

背景

研究者たちは長い間、人間に匹敵する、あるいは人間を超える汎用人工知能（AGI）の実現を目指してきました。 1950 年代初頭、アラン・チューリングは「知能」の概念を人工物にまで拡張し、有名なチューリングテストを提案しました。これらの人工知能エンティティは、多くの場合、エージェント*と呼ばれます。「エージェント」という概念は哲学に由来し、欲望、信念、意図、行動を起こす能力を持つ実体を表します。人工知能の分野では、この用語に新しい意味が与えられています。それは、自律性、応答性、主導性、社会的能力などの特性を備えたインテリジェントな実体です。

*エージェントという用語の中国語訳についてはコンセンサスがありません。一部の学者は、これを知性体、行動体、エージェント、またはインテリジェントエージェントと翻訳しています。この記事に登場する「エージェント」と「インテリジェントエージェント」はすべてエージェントを指します。

それ以来、エージェントの設計は人工知能コミュニティの焦点となりました。しかし、これまでの研究は主に、記号推論や特定のタスク（チェス、囲碁など）の習得など、エージェントの特定の機能を強化することに焦点を当ててきました。これらの研究は、アルゴリズムの設計とトレーニング戦略に重点を置いており、知識の記憶、長期計画、効果的な一般化、効率的な相互作用など、モデル固有の一般的な機能の開発は無視されています。モデルの固有の機能を強化することが、インテリジェントエージェントのさらなる発展を促進するための重要な要素であることが判明しました。

大規模言語モデル (LLM) の出現により、インテリジェントエージェントのさらなる発展が期待されています。 NLP から AGI への発展経路を、コーパス、インターネット、知覚、具体化、社会的属性の 5 つのレベルに分けると、現在の大規模言語モデルは、インターネット規模のテキスト入出力を備えた第 2 レベルに達しています。これに基づいて、LLM ベースのエージェントに知覚空間と行動空間が与えられると、エージェントは第 3 レベルと第 4 レベルに到達します。さらに、複数のエージェントが相互作用して協力し、より複雑なタスクを解決したり、現実世界の社会的行動を反映したりすることで、第 5 レベル (エージェント社会) に到達する可能性があります。

著者らは、人間も参加できるインテリジェントエージェントで構成された調和のとれた社会を思い描いています。このシーンは『原神』のランタンフェスティバルから取られたものです。

エージェントの誕生

大きなモデルを備えたインテリジェントエージェントはどのようなものになるでしょうか?ダーウィンの「適者生存」の法則にヒントを得て、著者らは大規模モデルに基づくインテリジェントエージェントの一般的なフレームワークを提案した。人が社会で生き残りたいのであれば、環境に適応することを学ばなければなりません。そのためには、認知能力を持ち、外界の変化を感知して対応できる必要があります。同様に、インテリジェントエージェントのフレームワークも、制御 (Brain)、知覚 (Perception)、アクション (Action) の 3 つの部分で構成されます。

制御側: 通常は LLM で構成され、インテリジェントエージェントの中核となります。記憶や知識を保存するだけでなく、情報処理や意思決定などの不可欠な機能も担っています。推論と計画のプロセスを提示し、未知のタスクにうまく対処することができ、インテリジェントエージェントの一般化と移転可能性を反映しています。
知覚側: インテリジェントエージェントの知覚空間を純粋なテキストから、テキスト、視覚、聴覚を含むマルチモーダル領域に拡張し、エージェントが周囲の環境から情報をより効果的に取得して使用できるようにします。
アクション面: 従来のテキスト出力に加えて、エージェントには具現化されてツールを使用する機能も与えられ、環境の変化に適応し、フィードバックを通じて環境と対話し、さらには環境を形成することさえできるようになります。

LLM ベースエージェントの概念フレームワークは、制御側 (Brain)、知覚側 (Perception)、アクション側 (Action) の 3 つのコンポーネントで構成されます。

著者らは、LLM ベースのエージェントのワークフローを説明するために例を使用しています。人間が雨が降るかどうかを尋ねると、知覚側はその指示を LLM が理解できる表現に変換します。制御側（脳）は、現在の天気とインターネット上の天気予報に基づいて推論と行動計画を開始します。最後に、アクションが応答し、傘を人間に渡します。

上記のプロセスを繰り返すことで、インテリジェントエージェントは継続的にフィードバックを取得し、環境と対話することができます。

制御端末: ブレイン

インテリジェントエージェントの中核コンポーネントとして、著者らは制御端の機能を 5 つの側面から紹介しています。

自然言語インタラクション:言語は豊富な情報を含むコミュニケーションの媒体です。 LLM の強力な自然言語生成および理解機能のおかげで、インテリジェントエージェントは自然言語を通じて外部世界と複数回のやり取りを行い、目標を達成することができます。具体的には、次の 2 つの側面に分けられます。

高品質なテキスト生成: 広範な評価実験により、LLM は流暢で多様性があり、斬新で制御可能なテキストを生成できることが示されています。一部の言語でのパフォーマンスは劣るものの、全体的な多言語スキルは良好です。
暗黙の意味の理解: 言語は直感的に表現された内容に加えて、話者の意図や好みなどの情報も伝えることがあります。暗黙的な意味はエージェントがより効果的にコミュニケーションし、協力するのに役立ち、大規模モデルはこの点で有望であることが示されています。

知識:大量のコーパスに基づいてトレーニングされた LLM は、膨大な量の知識を保存する能力を備えています。言語知識に加えて、常識知識と専門スキル知識も LLM ベースのエージェントの重要な要素です。

LLM 自体には知識の有効期限切れや幻覚などの問題が残っていますが、既存の研究では知識編集や外部知識ベースの呼び出しなどの方法によってそれらをある程度軽減することができます。

メモリ:このフレームワークでは、メモリモジュールはエージェントの過去の観察、思考、およびアクションシーケンスを保存します。特定の記憶メカニズムを通じて、エージェントは以前の戦略を効果的に反映して適用することができ、過去の経験を活用して未知の環境に適応することができます。

記憶力を向上させるためによく使われる方法は 3 つあります。

バックボーンアーキテクチャの長さ制限の拡張: Transformer の固有のシーケンス長制限の問題を改善します。
記憶の要約: 記憶を要約することで、エージェントが記憶から重要な詳細を抽出する能力を強化します。
メモリの圧縮: ベクトルまたは適切なデータ構造を使用してメモリを圧縮することにより、メモリ検索効率を向上させることができます。

さらに、記憶の検索方法も重要です。適切なコンテンツを検索することによってのみ、エージェントは最も関連性の高い正確な情報にアクセスできます。

推論と計画:推論は、インテリジェントエージェントが意思決定や分析などの複雑なタスクを実行するために不可欠です。特に LLM に関して言えば、それは Chain-of-Thought (CoT) に代表される一連のプロンプト手法です。大きな課題に直面したとき、計画を立てることは一般的な戦略です。エージェントが思考を整理し、目標を設定し、その目標を達成するための手順を特定するのに役立ちます。具体的な実装では、計画には次の 2 つのステップが含まれます。

計画策定: エージェントは複雑なタスクをより管理しやすいサブタスクに分割します。たとえば、一度分解してから順番に実行する、段階的に計画して実行する、複数のパスを計画して最適なパスを選択する、などです。専門知識が必要なシナリオでは、エージェントを特定の分野の Planner モジュールと統合して機能を強化できます。
計画の反映: 計画を立てた後、それを振り返り、その長所と短所を評価できます。この反省は、一般的に、内部フィードバックメカニズムの使用、人間とのやり取りによるフィードバックの取得、環境からのフィードバックの取得という 3 つの側面から生じます。

移転可能性と一般化:世界知識を備えた LLM は、インテリジェントエージェントに強力な移転および一般化機能を提供します。優れたエージェントは静的な知識ベースではなく、動的な学習機能も備えている必要があります。

未知のタスクへの一般化: モデルのサイズとトレーニングデータが増加すると、LLM は未知のタスクを解決する驚くべき能力を発揮します。指示によって微調整された大規模モデルは、ゼロショットテストで良好なパフォーマンスを発揮し、多くのタスクでエキスパートモデルに匹敵する結果を達成しました。
コンテキスト内学習: 大規模なモデルは、コンテキスト内の少数の例から類推して学習できるだけでなく、テキストを超えたマルチモーダルシナリオにこの機能を拡張できるため、現実世界でのエージェントの適用の可能性が広がります。
継続的学習: 継続的学習の主な課題は壊滅的な忘却です。つまり、モデルが新しいタスクを学習すると、過去のタスクからの知識が失われる傾向があります。専門分野のインテリジェントエージェントは、一般的な分野の知識を失わないようにする必要があります。

感知

人間は世界をマルチモーダルに認識するため、研究者は LLM ベースのエージェントに対しても同様の期待を抱いています。マルチモーダル知覚により、エージェントの作業環境に対する理解が深まり、汎用性が大幅に向上します。

テキスト入力: LLM の最も基本的な機能であるため、ここでは詳しく説明しません。

視覚入力: LLM には視覚認識能力がなく、個別のテキストコンテンツのみを理解できます。視覚的な入力には通常、オブジェクトの属性、空間関係、シーンのレイアウトなど、世界に関する多くの情報が含まれています。一般的な方法は次のとおりです。

視覚的な入力を対応するテキストの説明に変換します (画像キャプション): LLM によって直接理解でき、解釈可能性が高くなります。
視覚情報をエンコードして表現する: 知覚モジュールは、ビジュアルベーシックモデル + LLM の形式で構築されます。このモデルは、アライメント操作を通じてさまざまなモダリティのコンテンツを理解できるようになり、エンドツーエンドでトレーニングできます。

聴覚入力:聴覚も人間の知覚の重要な部分です。 LLM は優れたツール呼び出し機能を備えているため、直感的なアイデアとしては、エージェントが LLM を制御ハブとして使用し、既存のツールセットまたはエキスパートモデルをカスケード方式で呼び出してオーディオ情報を認識できるというものがあります。さらに、オーディオはスペクトログラムによって直感的に表現することもできます。スペクトログラムは、2D 情報を表示するための平面画像として使用できるため、一部の視覚処理方法を音声分野に転送できます。

その他の入力:現実の世界には、テキスト、視覚、聴覚よりもはるかに多くの情報が存在します。著者らは、将来的には、知的エージェントが触覚や嗅覚などの器官など、より豊富な知覚モジュールを備え、対象物体のより豊富な特性を取得できるようになることを期待している。同時に、エージェントは周囲の環境の温度、湿度、明るさを明確に把握し、より環境を意識した行動をとることもできます。

さらに、LIDAR、GPS、慣性測定ユニットなどの成熟した認識モジュールを使用して、エージェントに、より広い全体的な環境の認識を与えることもできます。

アクション

脳が分析と決定を行った後、エージェントは環境に適応したり環境を変更したりするためのアクションを実行する必要があります。

テキスト出力: LLM の最も基本的な機能であるため、ここでは詳しく説明しません。

ツールの使用: LLM は優れた知識の蓄積と専門能力を備えていますが、特定の問題に直面したときには、堅牢性の問題や幻覚などの一連の課題に直面する可能性もあります。同時に、ユーザーの能力の拡張として、ツールは専門性、事実性、説明可能性の面で支援を提供できます。たとえば、計算機を使用して数学の問題を解いたり、検索エンジンを使用してリアルタイムの情報を検索したりできます。

さらに、ツールによってインテリジェントエージェントのアクション空間を拡張することもできます。例えば、音声生成や画像生成などの専門モデルを呼び出すことで、マルチモーダルなアクション方法が得られます。したがって、エージェントをいかに優れたツールユーザーにするか、つまり、ツールを効果的に使用する方法をいかに学習するかは、非常に重要かつ有望な方向性です。

現在、主なツール学習方法としては、デモンストレーションからの学習とフィードバックからの学習があります。さらに、メタ学習やカリキュラム学習などを利用して、エージェントがさまざまなツールの使用を一般化できるようにすることもできます。さらに、インテリジェントエージェントはツールを「自立的に」作成する方法をさらに学習できるため、自律性と独立性が向上します。

具体化されたアクション:具体化とは、エージェントが環境と相互作用する際に環境を理解し、変換し、自身の状態を更新する能力を指します。具現化されたアクションは、仮想知能と物理的現実の間の架け橋として考えられています。

従来の強化学習ベースのエージェントは、サンプル効率、一般化、複雑な問題に関する推論に限界があります。LLM ベースのエージェントは、大規模モデルの豊富な固有知識を導入することで、組み込まれたエージェントが人間のように物理環境を積極的に認識し、影響を与えることを可能にします。タスクにおけるエージェントの自律性の度合いやアクションの複雑さに応じて、次のアトミックアクションが考えられます。

観察は、インテリジェントエージェントが環境内での位置を特定し、物体を認識し、その他の環境情報を取得するのに役立ちます。
操作とは、つかむ、押すなどの特定の操作を完了することです。
ナビゲーションでは、インテリジェントエージェントがタスクの目標に応じて位置を変更し、環境情報に応じて状態を更新する必要があります。

これらのアトミックアクションを組み合わせることで、エージェントはより複雑なタスクを実行できます。たとえば、「キッチンにあるスイカはボウルより大きいですか?」などの具体化された QA タスク。この問題を解決するには、エージェントはキッチンまで移動し、両方のサイズを観察してから答えを出す必要があります。

物理的なハードウェアの高コストと具体化されたデータセットの不足によって制限されているため、具体化されたアクションに関する現在の研究は、依然としてゲームプラットフォーム「Minecraft」などの仮想サンドボックス環境に主に集中しています。したがって、一方では、著者らは、より現実に近いタスクパラダイムと評価基準を望んでいます。他方では、関連するデータセットを効率的に構築するためのさらなる調査も必要です。

エージェントの実践: 多様なアプリケーションシナリオ

現在、LLM ベースのエージェントは、印象的な多様性と強力なパフォーマンスを実証しています。 AutoGPT、MetaGPT、CAMEL、GPT Engineer などのよく知られたアプリケーションの例は、かつてない速度で急成長しています。

具体的なアプリケーションを紹介する前に、著者は Agent in Practice の設計原則について説明しました。

1. ユーザーが日常的なタスクや反復的な労働から解放され、人的作業のプレッシャーが軽減され、タスク解決の効率が向上します。

2. ユーザーからの明示的な低レベルの指示が不要になり、システムは完全に自律的に問題を分析、計画、解決できるようになります。

3. ユーザーの手を解放した後は、脳の解放を目指します。最先端の科学分野の潜在能力を最大限に活用し、革新的で探索的な作業を完了します。

これを基に、エージェントの適用には 3 つのパラダイムがあります。

LLM ベースエージェントの 3 つのアプリケーションパラダイム: 単一エージェント、マルチエージェント、および人間とコンピュータの相互作用。

単一エージェントのシナリオ

人間からの自然言語コマンドを受け入れて日常的なタスクを実行できるインテリジェントエージェントは現在、ユーザーの間で非常に人気があり、高い実用的価値を持っています。著者らはまず、多様なアプリケーションシナリオと、そのアプリケーションシナリオにおける単一のインテリジェントエージェントの対応する機能について詳しく説明しました。

この論文では、単一のインテリジェントエージェントの応用を次の 3 つのレベルに分類します。

単一エージェントアプリケーションシナリオの 3 つのレベル: タスク指向、イノベーション指向、ライフサイクル指向。

タスク指向の展開では、エージェントは人間のユーザーによる日常の基本的なタスクの処理を支援します。指示を理解し、タスクを分解し、環境と対話するための基本的な能力が必要です。具体的には、既存のタスクの種類に応じて、エージェントの実際のアプリケーションは、シミュレートされたネットワーク環境とシミュレートされたライフシナリオに分けられます。
イノベーション志向の展開では、エージェントは最先端の科学分野における自律的な調査の可能性を示すことができます。専門分野に固有の複雑さとトレーニングデータの不足により、インテリジェントエージェントの構築は妨げられてきましたが、化学、材料、コンピューターなどの分野では多くの研究が行われ、進歩を遂げてきました。
ライフサイクル指向の展開では、エージェントはオープンワールドで継続的に探索、学習、新しいスキルを使用し、長期間存続することができます。このセクションでは、著者はゲーム「Minecraft」を例として使用します。ゲーム内のサバイバルチャレンジは現実世界の縮図とも言えるため、多くの研究者がエージェントの総合的な能力を開発およびテストするための独自のプラットフォームとしてそれを使用しています。

マルチエージェントシナリオ

1986 年にマービン・ミンスキーは先見の明のある予測をしました。彼は著書『心の社会』の中で、知能に関する新しい理論を提唱し、知能は多くのより小さな、機能に特化したエージェントの相互作用から生じると主張した。たとえば、一部のエージェントはパターンの認識を担当し、他のエージェントは意思決定やソリューションの生成を担当する場合があります。

このアイデアは、分散型人工知能の台頭とともに実践されてきました。マルチエージェントシステムは、主要な研究課題の 1 つとして、エージェントが問題を解決するためにどのように効果的に調整および協力できるかに焦点を当てています。この記事の著者は、複数のエージェント間の相互作用を次の 2 つの形式に分類しています。

マルチエージェントアプリケーションシナリオにおける 2 つの形式の相互作用: 協力的相互作用と敵対的相互作用。

協調的インタラクション:実際のアプリケーションで最も広く導入されているタイプである協調エージェントシステムは、タスクの効率を効果的に向上させ、共同で意思決定を改善できます。具体的には、協力のさまざまな形態に基づいて、著者らは協力的相互作用を無秩序な協力と秩序ある協力にさらに細分化します。

すべてのエージェントが自由に意見や見解を表明し、無秩序な方法で協力する場合、それは無秩序な協力と呼ばれます。
すべてのエージェントが、流れ作業の形で 1 つずつ意見を表明するなど、特定のルールに従う場合、協力プロセス全体が秩序あるものとなり、これを秩序ある協力と呼びます。

敵対的相互作用:エージェントは報復的な方法で相互作用します。競争、交渉、議論を通じて、エージェントは間違っている可能性のある以前の信念を捨て、自分の行動や推論プロセスを有意義に振り返り、最終的にシステム全体の応答品質を向上させます。

人間とコンピュータの相互作用のシナリオ

ヒューマンエージェントインタラクションは、その名前が示すように、インテリジェントエージェントが人間と対話して共同でタスクを完了するプロセスです。一方で、エージェントの動的学習能力はコミュニケーションによってサポートされる必要があります。他方、現在のエージェントシステムは解釈可能性に欠けており、セキュリティと合法性の面で問題がある可能性があるため、規制と監督には人間の参加が必要です。

この論文では、著者らは人間とエージェントのインタラクションを次の 2 つのモードに分類しています。

人間とコンピュータの相互作用シナリオの 2 つのモード: インストラクターと実行者のモードと対等なパートナーシップモード。

インストラクター-エグゼキューターモデル:人間はインストラクターとして行動し、指示とフィードバックを提供します。一方、エージェントはエグゼキューターとして行動し、指示に基づいて徐々に調整と最適化を行います。このモデルは教育、医療、ビジネスなどの分野で広く使用されています。
平等なパートナーシップモデル:研究では、エージェントが人間とのやり取りで共感を示したり、対等な立場でタスクの実行に参加したりできることが観察されています。インテリジェントエージェントは日常生活への応用の可能性を示しており、将来的には人間社会に統合されることが期待されています。

エージェント社会：個人から社会へ

研究者たちは長い間、「インタラクティブな人工社会」の構築を待ち望んできました。サンドボックスゲーム「シムズ」から「メタバース」まで、人々がシミュレートした社会を定義すると、環境 + 環境内で生活し、相互作用する個人と要約できます。

記事の中で、著者は図表を使ってエージェント社会の概念的枠組みを説明しています。

エージェント社会の概念的枠組みは、エージェントと環境という 2 つの主要な部分に分かれています。

このフレームワークでは、次のことがわかります。

左パネル:個々のレベルでは、エージェントは計画、推論、反省などのさまざまな内面化された行動を示します。さらに、エージェントは、認知、感情、性格という 3 つの側面をカバーする固有の性格特性も示します。
中間部分:単一のエージェントが他のエージェントとグループを形成し、共同で協力などのグループ行動を示すことができます。
右側部分:環境は、仮想サンドボックス環境または実際の物理世界の形式にすることができます。環境の要素には、人間の行為者や利用可能なさまざまなリソースが含まれます。単一のエージェントの場合、他のエージェントも環境の一部となります。
全体的なインタラクション:エージェントは外部環境を感知し、アクションを実行することで、インタラクションプロセス全体に積極的に参加します。

エージェントの社会的行動と性格

この記事では、外部行動と内部性格の観点から社会におけるエージェントのパフォーマンスを検証します。

社会的行動:社会的観点から見ると、行動は個人レベルと集団レベルという 2 つのレベルに分けられます。

個人の行動は、機関自身の運営と発展の基礎を形成します。これには、知覚によって表される入力、アクションによって表される出力、およびエージェント自身の内面化された行動が含まれます。
グループ行動とは、2 つ以上のエージェントが自発的に相互作用するときに発生する行動を指します。これには、協力に代表される肯定的な行動、対立に代表される否定的な行動、そして従順や傍観者のような中立的な行動が含まれます。

性格:認知、感情、性格が含まれます。人間が社会化を通じて徐々に独自の特性を発達させるのと同様に、エージェントもいわゆる「人間のような知性」を発揮します。つまり、エージェントはグループや環境との相互作用を通じて徐々に性格を形成します。

認知能力: エージェントが知識を獲得し理解するプロセスをカバーします。研究により、LLM ベースのエージェントは、いくつかの側面において人間のようなレベルの熟考と知性を発揮できることが示されています。
感情的知性: 喜び、怒り、悲しみ、幸福などの主観的な感情や感情状態、および同情や共感を示す能力が含まれます。
性格（キャラクターの描写）：LLM の性格特性を理解し分析するために、研究者はビッグファイブ性格特性テストや MBTI テストなどの成熟した評価方法を使用して、性格の多様性と複雑さを調査しました。

社会の運用環境をシミュレートする

エージェント社会は、独立した個人だけでなく、彼らが相互作用する環境からも構成されます。環境はエージェントの認識、行動、相互作用に影響を与えます。次に、エージェントは自身の行動と決定を通じて環境の状態を変更します。単一のエージェントの場合、環境には他の自律エージェント、人間、および利用可能なリソースが含まれます。

ここで著者らは 3 種類の環境を検討します。

テキストベースの環境: LLM は主に入力および出力形式として言語に依存しているため、テキストベースの環境はエージェントにとって最も自然な動作プラットフォームです。テキスト環境は、テキストを通じて社会現象や相互作用を記述することで、意味と背景知識を提供します。エージェントはそのようなテキストの世界に存在し、テキストリソースに依存して認識し、推論し、アクションを実行します。

仮想サンドボックス環境:コンピューター分野では、サンドボックスとは、ソフトウェアのテストや分析によく使用される、制御された隔離された環境を指します。エージェント社会の仮想サンドボックス環境は、社会的相互作用と行動シミュレーションをシミュレートするためのプラットフォームとして機能します。主な機能は次のとおりです。

視覚化: シンプルな 2D グラフィカルインターフェイスや複雑な 3D モデリングを使用して世界を表示し、シミュレートされた社会のあらゆる側面を直感的に表現できます。
スケーラビリティ: さまざまなシナリオ (Web、ゲームなど) を構築して展開し、さまざまな実験を実施できるため、エージェントに幅広い探索スペースを提供できます。

実際の物理環境:物理環境は、エージェントが観察して行動する実際のオブジェクトと空間で構成される具体的な環境です。この環境は、豊富な感覚入力（視覚、聴覚、空間）をもたらします。仮想環境とは異なり、物理空間ではエージェントの動作にさらなる要求が課せられます。つまり、エージェントは物理環境に適応し、実行可能な動作制御を生成する必要があります。

著者は、物理環境の複雑さを説明するために、次のような例を挙げています。工場でロボットアームを操作するインテリジェントエージェントを想像してください。ロボットアームを操作する際、異なる材質の物体に損傷を与えないように力を正確に制御する必要があります。さらに、エージェントは物理的な作業スペース内を移動し、障害物を回避してロボットアームの移動軌道を最適化するために、時間内に移動経路を調整する必要があります。

これらの要件はすべて、物理環境におけるエージェントの複雑さと課題を増大させます。

シミュレーション、開始！

論文の中で著者らは、シミュレートされた社会はオープンで、持続的で、状況に応じて変化し、組織化されているべきだと主張している。オープン性により、エージェントはシミュレートされた社会に自律的に出入りできます。持続性とは、社会が時間の経過とともに一貫した発展の軌道をたどることを意味します。文脈性は、特定の環境における主体の存在と動作を強調します。組織化により、シミュレートされた社会に物理世界と同様のルールと制限があることが保証されます。

シミュレートされた社会の重要性については、スタンフォード大学のジェネレーティブエージェントタウンが鮮明な例を示しています。エージェント社会は、エージェントが共同でバレンタインデーパーティーを企画するなど、集合知の能力を探求するために使用できます。また、ソーシャルネットワークをシミュレートしてコミュニケーション現象を観察するなど、社会科学の研究を加速するためにも使用できます。さらに、倫理的な意思決定のシナリオをシミュレートすることでエージェントの背後にある価値観を探ったり、政策が社会に与える影響をシミュレートすることで意思決定を支援したりする研究もあります。

さらに、著者らは、これらのシミュレーションは、有害な社会現象、固定観念や偏見、プライバシーやセキュリティの問題、過度の依存や中毒など、特定のリスクをもたらす可能性もあると指摘している。

将来を見据えた未解決の質問

論文の最後で、著者は読者の思考を刺激するために、いくつかの将来を見据えた未解決の疑問についても議論しています。

インテリジェントエージェントと大規模言語モデルの研究は、どのようにすれば相互に促進し、共に発展できるのでしょうか?大規模モデルは、言語理解、意思決定、一般化機能において大きな可能性を示しており、エージェント構築プロセスにおいて重要な役割を担っています。エージェントの進歩により、大規模モデルに対する要求も高まっています。

LLM ベースのエージェントはどのような課題や懸念をもたらすでしょうか?インテリジェントエージェントが本当に実装できるかどうかは、現実世界に害を及ぼさないように厳密なセキュリティ評価が必要です。著者らは、違法な乱用、失業のリスク、人間の福祉への影響など、さらなる潜在的な脅威をまとめています。

エージェントの数を増やすと、どのような機会と課題がもたらされますか?シミュレートされた社会では、個人の数を増やすことで、シミュレーションの信頼性と信憑性が大幅に向上します。しかし、エージェントの数が増えると、通信とメッセージの伝播の問題が非常に複雑になり、情報の歪み、誤解、幻覚によってシミュレーションシステム全体の効率が大幅に低下します。

LLM ベースのエージェントが AGI への正しい道であるかどうかについては、インターネット上で議論があります。一部の研究者は、GPT-4 に代表される大規模モデルは十分なコーパスでトレーニングされており、これに基づいて構築されたエージェントは AGI への扉を開く鍵となる可能性があると考えています。しかし他の研究者は、自己回帰言語モデルは単に応答しているだけなので、真の知能を示すものではないと考えています。世界モデルなどのより完全なモデリング手法は、AGI につながる可能性があります。

群知能の進化。群知能とは、多くの人々の意見を集めてそれを意思決定に反映させるプロセスです。しかし、エージェントの数を増やすだけで真の「知性」が生み出されるのでしょうか?さらに、インテリジェントエージェントの社会が「集団思考」や個人の認知バイアスを克服できるように、個々のエージェントをどのように調整すればよいのでしょうか。

エージェント・アズ・ア・サービス (AaaS)。 LLM ベースのエージェントは、大規模モデル自体よりも複雑なため、中小企業や個人がローカルで構築するのは困難です。そのため、クラウドベンダーは、サービス、つまり Agent-as-a-Service の形式でインテリジェントエージェントを実装することを検討できます。他のクラウドサービスと同様に、AaaS はユーザーに高い柔軟性とオンデマンドのセルフサービスを提供できる可能性があります。

<<:

>>: ChatGPTヘルプ！ 4歳の男の子は3年間で17人の専門医に治療を受けたが、効果はなかった。大型模型が病気の原因を正確に特定した