Pangu-Agentの5つのイノベーション

大規模言語モデル (LLM) の開発と応用により、人工知能の分野で LLM ベースの自律エージェントという新しい研究方向が生まれました。このエージェントは、LLM の強力な表現および生成機能を活用して、対話、ゲーム、推論、計画、ツールの使用など、さまざまなタスクや環境でインテリジェントな動作を発揮します。 LLM ベースのエージェントは、さまざまなタスクや環境に適応するために LLM を効果的に微調整する方法、複雑なエージェントの動作を実現するために複数の固有機能を設計および実装する方法、エージェントの構造化推論能力を評価および改善する方法など、いくつかの課題と問題に直面しています。これらの問題を解決するために、SwiftSage、ReAct、Least-to-Most、AgentTuning、FireAct などの革新的な方法やモデルを提案する研究者もいます。

最近、ファーウェイのノアの方舟研究所、ロンドン大学（UCL）、オックスフォード大学などの研究者らが、構造化推論機能を備えた汎用的で微調整可能なエージェントモデルであるPangu-Agentフレームワークを提案しました。Pangu-Agentフレームワークに関する論文のタイトルは、「Pangu-Agent: 構造化推論を備えた微調整可能なジェネラリストエージェント」です。このモデルは、さまざまな一般言語モデルとプロンプト方法を使用して、複数のシングルエージェントおよびマルチエージェントタスクで Pangu エージェント上で広範囲に評価され、構造化推論と微調整における利点が実証されています。この記事の主な目的は、Pangu Intelligent Agent の 5 つの革新的な側面をテクノロジーとアプリケーションの観点から分析することです。

一般的な強化学習の目標は、エージェントの内在的機能と外在的機能を最適化することで、エージェントがさまざまなタスクや環境で柔軟な推論と意思決定能力を発揮できるようにすることです。
エージェントが自身のメモリ状態とコンテキスト情報に基づいて内部変換と操作を実行したり、外部ツールや他のエージェントと対話したりできるように、思考、計画、反映、コミュニケーション、ツールの使用など、さまざまな固有機能を設計します。
SwiftSage、ReAct、Least-to-Most などの複数の複合メソッドを実装し、エージェントが各環境タイムステップで複数の固有関数ステップを使用して最終アクションを決定できるようにすることで、より複雑で柔軟なエージェントの動作を実現します。
エージェントが専門家のデータと環境のフィードバックに基づいて一般言語モデルの重みを調整し、エージェントのパフォーマンスと適応性を向上させることができる、教師あり微調整や強化学習微調整などの複数の微調整方法を検討します。
Pangu エージェントは、さまざまな一般言語モデルとプロンプト方法を使用して、複数のシングルエージェントおよびマルチエージェントタスクで広範囲に評価され、構造化推論と微調整における強みを実証しています。

（図１）

図 1: RL を使用した Pangu Agent パイプラインの図解。プロンプトと初期状態から始めて、エージェントは環境内でアクションを実行し、次の状態と報酬を観察します。生成された軌跡は、LLM を微調整するために使用できます。

1. Panguエージェントの一般的な強化学習の目的

強化学習 (RL) は、累積報酬を最大化するという目標を達成するために、インテリジェントエージェントが環境と対話する過程で独自の行動戦略を学習および最適化できるようにする機械学習手法です。強化学習の中核となる要素には、エージェント、環境、アクション、状態、報酬が含まれます。報酬とは、エージェントが各タイムステップでの状態とアクションに基づいて環境から取得するフィードバック信号を指し、エージェントの動作を評価および誘導するために使用されます。

強化学習の報酬は、外的報酬と内的報酬の 2 種類に分けられます。外的報酬とは、環境によって直接提供される報酬を指し、通常はゲームのスコアや対話の成功率など、エージェントのタスク目標に関連しています。内発的報酬とは、エージェント自体によって生成される報酬を指し、通常は好奇心、探究心、目新しさなど、エージェントの内部状態や動機に関連しています。外的報酬と内的報酬の違いは、外的報酬は環境によって決定されるのに対し、内的報酬はエージェントによって決定されることです。

外的報酬と内的報酬にはそれぞれ長所と短所があります。外的報酬の利点は、エージェントのタスクパフォーマンスを直接反映し、エージェントが特定のタスクや環境に素早く適応できることです。外的報酬の欠点は、エージェントが環境からのフィードバックに過度に依存する可能性があり、自律性と柔軟性が欠如し、エージェントが局所最適性に陥ってより良い解決策を無視する可能性があることです。内発的報酬の利点は、エージェントの自律性と柔軟性を高め、外発的報酬がまばらであったり遅延したりしてもエージェントが効果的に学習および探索できることです。内発的報酬の欠点は、外発的報酬と矛盾したり、互いに矛盾したりする可能性があり、エージェントが内発的報酬を過度に追求してタスクの目的を無視する可能性があることです。

（図2）

図 2: 3 つの固有関数の視覚化は、エージェントのモジュール性と柔軟性を向上させる上での私たちの定式化の重要性を示しています。ユーザーは、μ1 (·) が LLM を入力としてアイデアを生成したり、μ2 (·) がツールを使用して推論を改善したりするなど、固有の関数を再定義および構成できます。また、これらの固有関数のネストもサポートしており、複雑で困難な意思決定タスクのためのより一般的なモジュールを構築できます。

Pangu の一般的な強化学習目標の革新性は、エージェントのタスク目標だけでなく、エージェントの内部動機も考慮し、エージェントがさまざまなタスクや環境で柔軟な推論と意思決定能力を発揮できるようにすることです。この目標の利点は、さまざまなタスクや環境に適応できることです。外的報酬と内的報酬の重み係数を調整することで、エージェントのタスクパフォーマンスと探索パフォーマンスのバランスをとることができます。また、さまざまな内的機能を設計および実装することで、さまざまな内的報酬を生成し、エージェントの自律性と柔軟性を向上させることができます。

2. Pangu Agentのさまざまな固有機能

固有関数はエージェント自体によって生成される関数であり、エージェントの状態とアクションに対して内部変換と操作を実行し、複雑なエージェントの動作を実現するために使用されます。固有機能の役割は、エージェントの自律性と柔軟性を高め、エージェントが自身の記憶状態とコンテキスト情報に基づいて内部推論と意思決定を実行できるようにし、外部ツールや他のエージェントと対話できるようにすることです。固有機能の種類と数は、さまざまなタスクと環境に応じて設計および実装できます。一般的な固有機能には、思考、計画、反映、コミュニケーション、ツールの使用などがあります。

考える: エージェントは、記憶状態とコンテキスト情報に基づいて現在の状態またはアクションに関連するテキストを生成し、エージェントの意図または目標を表現または理解します。思考の役割は、エージェントの表現力と理解力を向上させ、エージェントが環境や他のエージェントとより効果的にコミュニケーションし、協力できるようにすることです。これについて考える方法は、一般的な言語モデルを使用して、指定された接頭辞または接尾辞に基づいて適切なテキストを生成することです。たとえば、エージェントが迷路ゲームをプレイしているとき、思考機能を使用して、「私は左上隅の部屋にいて、右に行きたい」など、現在の位置や方向に関連するテキストを生成できます。

計画: エージェントは、自身のメモリ状態とコンテキスト情報に基づいて現在の状態またはアクションに関連するシーケンスを生成し、エージェントの戦略またはプロセスを記述または実行します。計画の役割は、インテリジェントエージェントの意思決定と実行能力を向上させ、インテリジェントエージェントが複雑なタスクや目標をより適切に完了できるようにすることです。計画は、一般的な言語モデルを使用して、指定された接頭辞または接尾辞に基づいて適切なシーケンスを生成することによって実装されます。たとえば、エージェントがジグソーパズルをプレイしているとき、プランニング機能を使用して、「最初に 4 つのピースを左上隅に置き、次に 4 つのピースを右下隅に置き、最後に 4 つのピースを中央に置く」など、現在のパズルまたは目標パズルに関連するシーケンスを生成できます。

反映: エージェントは、自身のメモリ状態とコンテキスト情報に基づいて、現在の状態またはアクションに関連する評価を生成し、エージェントのパフォーマンスまたは効果を評価または改善するために使用されます。リフレクションの役割は、エージェントの評価と改善能力を向上させ、エージェントが自身の動作をより良く学習して最適化できるようにすることです。リフレクションは、一般的な言語モデルを使用して、指定された接頭辞または接尾辞に基づいて適切な評価を生成することによって実現されます。たとえば、エージェントが数独ゲームをプレイしているとき、リフレクション機能を使用して、「この数独は難しい。解くのに時間がかかりました。もっと簡単な数独を練習したほうがいい。」など、現在の数独または解答に関連する評価を生成できます。

通信: エージェントは、自身のメモリ状態とコンテキスト情報に基づいて、現在の状態またはアクションに関連するメッセージを生成し、他のエージェントと情報を交換または調整するために使用されます。コミュニケーションの役割は、インテリジェントエージェントのコミュニケーション機能とコラボレーション機能を向上させ、インテリジェントエージェントが他のインテリジェントエージェントとより効果的に協力し、競争できるようにすることです。通信は、一般的な言語モデルを使用して、指定された接頭辞または接尾辞に基づいて適切なメッセージを生成することによって実現されます。たとえば、チーム対チームのゲームをプレイしているエージェントは、通信機能を使用して、「敵の基地の近くにいるので支援が必要です」など、現在の状態やアクションに関連するメッセージを生成できます。

ツールの使用: エージェントは、独自のメモリ状態とコンテキスト情報に基づいて、現在の状態またはアクションに関連するコマンドを生成し、外部ツールと対話または操作するために使用されます。ツールを使用する目的は、インテリジェントエージェントの対話機能と操作機能を向上させ、インテリジェントエージェントが外部のリソースとツールをより有効に活用できるようにすることです。このツールを使用する実装方法は、一般的な言語モデルを使用して、指定された接頭辞または接尾辞に基づいて適切なコマンドを生成することです。たとえば、エージェントがプログラミングゲームをプレイしているときに、ツール関数を使用して、「2 つの数値を加算する関数を Python で記述する」など、現在の状態またはアクションに関連するコマンドを生成できます。

Pangu エージェントは、さまざまな固有機能を設計するだけでなく、さまざまな固有機能を実装し、エージェントが独自のメモリ状態とコンテキスト情報に基づいて内部変換と操作を実行したり、外部ツールや他のエージェントと対話したりできるようにします。このイノベーションの利点は、エージェントの自律性と柔軟性を向上させ、エージェントがさまざまなタスクや環境で複雑なエージェント動作を発揮できるようにするとともに、複数の固有機能を組み合わせてネストすることで、より高レベルのエージェント動作を実現できることです。

3. Pangu Agentの複数の複合方法

複合法は、エージェントが複数の固有関数ステップを使用して、各環境時間ステップでの最終アクションを決定する方法です。複合方式の役割は、エージェントの複雑性と柔軟性を向上させ、エージェントがさまざまなタスクや環境に応じてさまざまな固有機能を選択して組み合わせ、より複雑で柔軟なエージェントの動作を実現できるようにすることです。複合メソッドの種類と数は、さまざまなタスクと環境に応じて設計および実装できます。一般的な複合メソッドには、SwiftSage、ReAct、Least-to-Most などがあります。

SwiftSage (Sage とエージェントを素早く切り替え): 各環境タイムステップで、エージェントは、独自のメモリ状態とコンテキスト情報、および環境からのフィードバックに基づいて、組み込み関数を使用するか (Sage モード)、一般的な言語モデルを直接使用してアクションを生成するか (エージェントモード) を動的に選択します。 SwiftSage の役割は、インテリジェントエージェントの適応性と効率性を向上させ、さまざまなタスクや環境でさまざまなモードを柔軟に切り替えて、最適なインテリジェントエージェントの動作を実現できるようにすることです。 SwiftSage は、与えられたメモリ状態とコンテキスト情報、および環境からのフィードバックに基づいて、Sage モードを使用するか Agent モードを使用するかを予測するバイナリ分類器を使用して実装されています。たとえば、推測ゲームをプレイする場合、エージェントは SwiftSage を使用して、思考機能を使用するか、一般的な言語モデルを直接使用して、独自のメモリ状態とコンテキスト情報、および環境からのフィードバックに基づいて推測を生成するかを動的に選択できます。

ReAct (再帰アクション構成): 各環境時間ステップで、エージェントは再帰型ニューラルネットワーク (RNN) を使用して、自身のメモリ状態とコンテキスト情報、および環境からのフィードバックに基づいて、複数の固有機能ステップで構成されるアクションシーケンスを生成します。 ReAct の役割は、エージェントの複雑さと柔軟性を向上させ、エージェントがさまざまなタスクや環境で複数の固有機能ステップを生成して実行できるようにし、より複雑で柔軟なエージェントの動作を実現することです。 ReAct は RNN を使用して実装され、指定されたメモリ状態とコンテキスト情報、および環境からのフィードバックに基づいて、複数の固有関数ステップで構成されるアクションシーケンスを生成します。たとえば、数学ゲームをプレイする場合、エージェントは ReAct を使用して、自身のメモリ状態とコンテキスト情報、および環境からのフィードバックに基づいて、「ツール機能を使用して電卓を開く、計画機能を使用して数式を生成する、思考機能を使用して数式の意味を説明する、ツール機能を使用して数式を入力して結果を計算する」などの複数の固有機能ステップで構成されるアクションシーケンスを生成できます。

最小から最大（最小から最大のアクション構成）：各環境時間ステップで、エージェントはランキングネットワークを使用して、自身のメモリ状態とコンテキスト情報、および環境からのフィードバックに従って、すべての可能な固有機能ステップを並べ替え、複数の固有機能ステップで構成されるアクションシーケンスを生成します。 Least-to-Most の役割は、インテリジェントエージェントの安定性と解釈可能性を向上させ、インテリジェントエージェントがさまざまなタスクと環境で最も適切な固有機能ステップを生成して実行し、最適なインテリジェントエージェントの動作を実現できるようにすることです。 Least-to-Most の実装方法は、ソートネットワークを使用して、指定されたメモリ状態とコンテキスト情報、および環境からのフィードバックに従って、すべての可能な固有機能ステップをソートし、複数の固有機能ステップで構成されるアクションシーケンスを生成することです。たとえば、ライティングゲームをプレイする場合、エージェントは Least-to-Most を使用して、自身のメモリ状態とコンテキスト情報、および環境からのフィードバックに従って、すべての可能な固有機能ステップを並べ替えることができます。これにより、「計画機能を使用してライティングのアウトラインを生成する、思考機能を使用してライティングのトピックを生成する、リフレクション機能を使用してライティングの評価を生成する、コミュニケーション機能を使用してライティングの結果を他のエージェントと共有する」などの複数の固有機能ステップで構成されるアクションシーケンスが生成されます。

エージェントは、複数の固有関数ステップを使用してアクションを決定したり、複数の複合メソッドを使用してこれらのステップを生成および実行したりできます。このようにして、エージェントはさまざまな環境に応じて固有の機能を柔軟に選択および組み合わせ、より複雑な動作を示すことができます。このイノベーションの利点は、インテリジェントエージェントがより複雑かつ柔軟になり、さまざまなタスクや環境に適応できるようになり、さまざまな複合方法を使用して、動的切り替え、ループ生成、ソート選択などのさまざまな動作パターンを示すことができるようになることです。

4. Pangu Agentのさまざまな微調整方法

ファインチューニングとは、エージェントが専門家のデータや環境からのフィードバックに基づいて一般言語モデルの重みを調整し、エージェントのパフォーマンスと適応性を向上させる方法です。微調整の役割は、インテリジェントエージェントの学習および一般化機能を向上させ、インテリジェントエージェントがさまざまなタスクや環境で一般言語モデルの強力な表現および生成機能を使用して、最適なインテリジェントエージェントの動作を実現できるようにすることです。微調整の種類と量は、さまざまなタスクと環境に応じて設計および実装できます。一般的な微調整方法には、教師あり微調整と強化学習微調整があります。

教師あり微調整: エージェントが専門家のデータに基づいて一般言語モデルの重みを調整し、エージェントのパフォーマンスと適応性を向上させる方法。エキスパートデータとは、エージェントの動作をガイドまたは指導するために人間または他のエージェントによって提供されるデータのことです。教師あり微調整の役割は、エージェントの精度と効率を向上させ、エージェントがさまざまなタスクや環境における専門家の行動を迅速に学習して模倣できるようにすることです。教師あり微調整は、教師あり学習損失関数を使用して、与えられた専門家データに基づいてエージェントの動作と専門家の動作の差を計算し、一般言語モデルの重みを調整することによって実現されます。たとえば、エージェントがチェスゲームをプレイする場合、教師あり微調整を使用して、与えられた専門家データに基づいて一般言語モデルの重みを調整し、エージェントのチェスレベルを向上させることができます。

強化学習の微調整: エージェントが環境フィードバックに基づいて一般言語モデルの重みを調整し、エージェントのパフォーマンスと適応性を向上させる方法。環境フィードバックとは、エージェントの動作を評価またはガイドするために環境から直接提供されるフィードバック信号を指します。強化学習の微調整の役割は、エージェントの探索と適応性を向上させ、エージェントがさまざまなタスクや環境で自律的に学習し、動作を最適化できるようにすることです。強化学習の微調整の実装方法は、強化学習損失関数を使用して、与えられた環境フィードバックに基づいてエージェントの行動と環境の報酬の関係を計算し、それによって一般言語モデルの重みを調整することです。たとえば、エージェントがレースゲームをプレイしているとき、強化学習の微調整を使用して、与えられた環境フィードバックに基づいて一般言語モデルの重みを調整し、エージェントのレーススキルを向上させることができます。

Pangu エージェントの微調整方法は非常に独創的です。一般言語モデルの強力な機能を使用するだけでなく、専門家のデータと環境フィードバックも使用して、エージェントがさまざまな状況に応じて一般言語モデルの効果を調整し、エージェントのパフォーマンスを向上させることができます。このイノベーションの利点は、インテリジェントエージェントがより適切に学習し、より多くの状況に適応し、最適な動作を実行し、さまざまな微調整方法を使用して、教師あり学習、強化学習などのさまざまな方法で学習できることです。

5. Panguエージェントの広範な評価

エージェントが、さまざまな一般言語モデルとプロンプト方法を使用して、複数の単一エージェントおよびマルチエージェントタスクにおける自身のパフォーマンスと効果を評価および比較する方法。広範囲な評価の役割は、エージェントの信頼性と信頼性を向上させ、エージェントがさまざまなタスクや環境における長所と短所、および他のエージェントとの相違点と類似点を実証できるようにすることです。広範な評価の種類と量は、さまざまなタスクと環境に応じて設計および実装できます。一般的な評価指標には、精度、効率、安定性、柔軟性、解釈可能性などがあります。

単一エージェントタスクでは、Pangu Agent はさまざまな一般言語モデルとプロンプト方法を使用して、そのパフォーマンスと効果を評価および比較しました。シングルエージェントタスクとは、対話、推論、計画、ツールの使用など、エージェントが環境と対話するだけでよく、他のエージェントと対話する必要がないタスクを指します。汎用言語モデルとは、GPT-3、Pangu、Megatron など、大規模なテキストデータで事前トレーニングでき、強力な表現および生成機能を備えた言語モデルを指します。プロンプト方式とは、接頭辞、接尾辞、テンプレートなど、さまざまなタスクや環境に応じて、一般的な言語モデルに適切な入力および出力形式を提供できる方式を指します。 Pangu Agent の評価結果によると、Pangu Agent はシングルエージェントタスクにおいて高い精度、効率、安定性、柔軟性、解釈可能性を備えており、さまざまな一般言語モデルやプロンプトメソッドに応じて効果的に微調整および適応し、パフォーマンスと有効性を向上させることができます。

マルチエージェントタスクでは、Pangu エージェントはさまざまな一般言語モデルとプロンプト方法を使用して、パフォーマンスと効果を評価および比較しました。マルチエージェントタスクとは、エージェントが環境や他のエージェントと対話し、ゲーム、コラボレーション、競争などの情報を交換または調整する必要があるタスクです。一般言語モデルとプロンプト方法の定義は、単一エージェントタスクの場合と同じです。 Pangu Agent の評価結果によると、Pangu Agent はマルチエージェントタスクにおいて高い精度、効率、安定性、柔軟性、解釈可能性を備えており、さまざまな一般言語モデルやプロンプトメソッドに応じて効果的に微調整および適応し、パフォーマンスと有効性を向上させることができます。さらに、Pangu エージェントは他の LLM ベースのエージェントと効果的に通信および連携することができ、構造化推論機能を発揮します。

Pangu Agent の評価は非常に包括的です。さまざまな言語モデルとプロンプトメソッドを使用して、多くのタスクでのパフォーマンスを実証します。このようにして、インテリジェントエージェントは、自身の長所と短所、およびさまざまな状況における他のインテリジェントエージェントとの相違点と類似点を把握できます。このイノベーションの利点は、インテリジェントエージェントがより信頼性と信頼性が高くなり、さまざまな状況で最適な動作を実行できるようになり、さまざまな言語モデルとプロンプトメソッドを使用して、対話、推論、計画、ツールの使用、ゲーム、コラボレーション、競争などのさまざまな動作パターンを示すことができるようになることです。

参照: https://arxiv.org/abs/2312.14878

<<: IEEE コンピュータ協会が 2023 年の技術トレンド予測評価を発表

>>: Patronus AI が LLM に懸念すべきセキュリティ上の欠陥を発見