中国人民大学のウェン・ジロン、ガオ・リンらによる32ページにわたるAI自律エージェントの包括的なレビュー。構築、応用、評価を網羅している。

中国人民大学のウェン・ジロン、ガオ・リンらによる32ページにわたるAI自律エージェントの包括的なレビュー。構築、応用、評価を網羅している。

今日の AI 時代では、自律エージェントは人工汎用知能 (AGI) への有望な道であると考えられています。自律エージェントとは、自律的な計画と指示を通じてタスクを完了できるエージェントです。初期の開発パラダイムでは、エージェントの行動を決定するポリシー関数は主にヒューリスティックであり、環境との相互作用を通じて徐々に改善されます。

しかし、制約のないオープンドメイン環境では、自律エージェントは行動において人間レベルの熟練度を達成するのに苦労することがよくあります。

近年の大規模言語モデル (LLM) の大きな成功により、人間のような知能を実現する可能性が示されました。そのため、LLM はその強力な機能により、自律型インテリジェントエージェントを作成するための中核コーディネーターとしてますます使用されるようになり、多種多様な AI エージェントが次々と登場しています。これらのエージェントは、人間のような意思決定プロセスを模倣することで、より複雑で適応性の高い AI システムへの実行可能な道筋を提供します。

ツール エージェント、シミュレーション エージェント、一般エージェント、ドメイン エージェントなど、LLM に基づく自律エージェントの概要。

この段階では、既存の LLM ベースの自律エージェントの総合的な分析を行うことが非常に重要であり、これはこの分野の開発状況を包括的に理解し、将来の研究を刺激する上で大きな意義を持ちます。

この記事では、中国人民大学高陵人工知能学院の研究者が、LLM ベースの自律エージェントの構築、応用、評価に焦点を当てた包括的な調査を実施しました。

論文アドレス: https://arxiv.org/pdf/2308.11432.pdf

インテリジェントエージェントの構築のために、彼らは、インテリジェントエージェントの属性を表す構成モジュール、履歴情報を保存するメモリモジュール、将来の行動戦略を策定する計画モジュール、計画決定を実行するアクションモジュールの 4 つの部分から構成される統一フレームワークを提案しました。研究者らは、典型的なインテリジェント エージェント モジュールを紹介した後、さまざまなアプリケーション シナリオに対するインテリジェント エージェントの適応性を高めるために一般的に使用される微調整戦略もまとめました。

次に研究者らは、自律エージェントの潜在的な応用を概説し、それが社会科学、自然科学、工学にどのように役立つかを探ります。最後に、主観的評価戦略と客観的評価戦略の両方を含む、自律エージェントの評価方法について説明します。下の図は記事の全体的な構造を示しています。

画像ソース: https://github.com/Paitesanshi/LLM-Agent-Survey

LLMに基づく自律型知能エージェントの構築

LLM ベースの自律エージェントをより効率的にするためには、2 つの側面を考慮する必要があります。1 つ目は、エージェントが LLM をより有効に活用できるようにどのようなアーキテクチャを設計するか、2 つ目は、パラメータを効果的に学習する方法です。

エージェントアーキテクチャ設計: この論文では、これまでの研究で提案されたアーキテクチャをまとめた統一フレームワークを提案します。全体の構造を図 2 に示します。これは、分析 (プロファイリング) モジュール、メモリ モジュール、計画モジュール、およびアクション モジュールで構成されます。

要約すると、分析モジュールはエージェントが果たす役割を特定することを目的としており、メモリ モジュールと計画モジュールはエージェントを動的な環境に配置して、エージェントが過去の行動を思い出し、将来のアクションを計画できるようにします。アクション モジュールは、エージェントの決定を特定の出力に変換する役割を担います。これらのモジュールのうち、分析モジュールはメモリ モジュールと計画モジュールに影響を与え、これら 3 つのモジュールが一緒にアクション モジュールに影響を与えます。

分析モジュール

自律エージェントは、プログラマー、教師、ドメイン エキスパートなどの特定の役割を通じてタスクを実行します。分析モジュールの目的は、エージェントの役割を示すことであり、この情報は通常、LLM の動作に影響を与える入力プロンプトに書き込まれます。既存の研究では、エージェント プロファイルを生成するために、手作業による方法、LLM 生成方法、データセット調整方法という 3 つの戦略が一般的に使用されています。

メモリモジュール

メモリ モジュールは、AI エージェントの構築において非常に重要な役割を果たします。環境から感知した情報を記憶し、記録されたメモリを使用してエージェントの将来のアクションを容易にします。メモリ モジュールは、インテリジェント エージェントが経験を蓄積し、自己進化を達成し、より一貫性があり、合理的で、効果的な方法でタスクを完了するのに役立ちます。

計画モジュール

人間は複雑なタスクに直面すると、まずそれを単純なサブタスクに分解し、次に各サブタスクを 1 つずつ解決します。計画モジュールは、LLM ベースのエージェントに複雑なタスクを解決するために必要な思考および計画機能を提供し、エージェントをより包括的、強力、かつ信頼性の高いものにします。このホワイト ペーパーでは、フィードバックなしの計画とフィードバックありの計画という 2 つの計画モジュールを紹介します。

アクションモジュール

アクション モジュールは、エージェントの決定を特定の出力結果に変換することを目的としています。環境と直接対話し、エージェントがタスクを完了する効率を判断します。このセクションでは、アクションの目標、戦略、アクション スペース、アクションの影響について説明します。

この章では、上記の 4 つの部分に加えて、例からの学習、環境フィードバックからの学習、インタラクティブな人間からのフィードバックからの学習など、インテリジェント エージェントの学習戦略についても紹介します。

表1は、これまでの研究と私たちの分類法との対応を示しています。

LLMに基づく自律エージェントの応用

この章では、社会科学、自然科学、工学の 3 つの異なる分野における LLM ベースの自律エージェントの変革的影響について検討します。

たとえば、LLM ベースのエージェントは、建物、橋、ダム、道路などの複雑な構造物を設計および最適化するために使用できます。以前、研究者らは、人間の建築家と AI エージェントが協力して 3D シミュレーションで構造環境を構築するインタラクティブなフレームワークを提案しました。インタラクティブ エージェントは、自然言語の指示を理解し、モジュールを配置し、アドバイスを求め、人間のフィードバックを取り入れることができるため、エンジニアリング設計における人間と機械のコラボレーションの可能性を示しています。

たとえば、コンピュータサイエンスやソフトウェアエンジニアリングの分野では、LLM ベースのエージェントにより、コーディング、テスト、デバッグ、ドキュメント生成を自動化できる可能性があります。一部の研究者は、複数のエージェントが自然言語の対話を通じて通信および連携し、ソフトウェア開発ライフサイクルを完了するエンドツーエンドのフレームワークである ChatDev を提案しています。ToolBench は、コード補完やコード推奨などのタスクに使用できます。MetaGPT は、製品マネージャー、アーキテクト、プロジェクト マネージャー、エンジニアの役割を果たし、コード生成を内部で監視し、最終的な出力コードの品質を向上させることができます。

次の表は、LLM に基づく自律エージェントの代表的なアプリケーションを示しています。

LLMに基づく自律エージェントの評価

この記事では、一般的に使用される 2 つの評価戦略、主観的評価と客観的評価について説明します。

主観的評価とは、インタラクションやスコアリングなどのさまざまな手段を通じて、人間が LLM ベースのエージェントの機能をテストすることを指します。この場合、評価に携わる人材はクラウドソーシングプラットフォームを通じて募集されることが多いのですが、クラウドソーシングの人材は能力の個人差により不安定であると考える研究者もおり、評価には専門家の注釈も利用しています。

さらに、いくつかの現在の研究では、LLM エージェントを主観的な評価者として使用することができます。たとえば、ChemCrow の研究では、EvaluatorGPT は、タスクの正常な完了と基礎となる思考プロセスの正確さの両方を考慮して成績を割り当てることで、実験結果を評価しました。たとえば、ChatEval は LLM に基づいてマルチエージェント審判チームを結成し、モデルの生成結果を討論を通じて評価しました。

主観的な評価と比較して、客観的な評価にはいくつかの利点があります。客観的な評価とは、定量的な指標を使用して LLM ベースの自律エージェントの機能を評価することを指します。このセクションでは、指標、戦略、ベンチマークの観点から客観的な評価方法を検討し、統合します。

使用評価プロセスでは、これら 2 つの方法を組み合わせることができます。

表3は、これまでの研究とこれらの評価戦略との対応をまとめたものである。

詳細については、原文論文を参照してください。

<<:  Apache IoTDB: 産業用 IoT シナリオに適した新しいデータベース。保存、クエリ、使用はもはや問題ではありません。

>>:  3,000以上のデータから200を選択する方が実際にはより効果的であり、MiniGPT-4は同じ構成のモデルよりも優れている。

ブログ    
ブログ    
ブログ    

推薦する

一つ選びますか? Python 機械学習の実践的なヒント

原題は「Some Essential Hacks and Tricks for Machine Le...

Daguan Data: 推奨システムアルゴリズムの再ランキングの実践

インターネットの出現と普及は、大量の情報をユーザーにもたらし、情報化時代の情報需要を満たしました。し...

GenAIがゼロトラスト環境でサイバーセキュリティを強化する方法

GenAI に対する信頼はまちまちです。 VentureBeat は最近、製造業とサービス業の複数の...

...

経済の冬の後には人工知能の春が来る

企業が選択する経済発展の道は、多くの場合、時代の背景によって決まります。さまざまな経済状況下で適切な...

...

AIが中国の山水画を生成!プリンストン大学の女子学生が卒業制作で描いた線と筆致は、人間の観察者の半数を騙した。

GAN を使用して作品を制作することは新しいことではないようです。 2019年、NVIDIAはGT...

スマートポインターボックスの謎を解明

[[416792]]この記事は、董澤潤氏が執筆したWeChat公開アカウント「董澤潤の技術ノート」か...

...

百度が「AI+X」を実践、AI教育が未来に向けて加速

3月25日〜26日、「新たな始まり、新たな発展、新たなシステム」をテーマにした第3回中国コンピュータ...

AIとIoTの統合が加速

人工知能 (AI) とモノのインターネット (IoT) の技術トレンドが融合し始めており、業界ではこ...

...

2021 年の機械学習の 6 つのトレンド

機械学習は今日ではよく知られた革新的な技術となっています。ある調査によると、現在人々が使用しているデ...

Facebook がひっそりと AI 技術ツールを開発: 自動的にコードをスキャンして脆弱性を発見

北京時間9月14日朝のニュースによると、FacebookはSapFixと呼ばれる人工知能(AI)ツー...

自然言語処理のためのOne Hot Modelについて

[[421481]]この記事はWeChatの公開アカウント「Pythonとビッグデータ分析」から転載...