Huawei NoahのPangu Agentは、インテリジェントエージェントが構造化推論を学習するのを支援します

AI の誕生以来、複雑なタスクを解決し、適応できるマルチタスクエージェントの開発は重要な目標でした。

AI エージェントは多くのアプリケーションにとって非常に重要であり、研究者は環境との相互作用を通じてエージェントの意思決定スキルを開発するために強化学習手法を使用することが多いです。モデルベースとモデルフリーの両方の深層強化学習手法は、AlphaZero、ソートおよび乗算アルゴリズムの改良、ドローンレース、核融合炉のプラズマ制御など、よく知られた成果を達成しています。これらの成功には、標準的な強化学習パイプラインが関係しており、エージェントはいわゆる外在的機能、つまり外界と直接対話するためのポリシー、つまり環境刺激に反応して報酬信号を最大化するためのポリシーを学習します。この関数は通常、環境の観察に基づいてアクションを生成するパラメーター化されたニューラルネットワークです。

従来の強化学習法では、単一のマッピング関数を使用してポリシー π を定義しますが、複雑な環境ではこれでは不十分であることが多く、複数の確率的環境で相互作用、適応、学習する一般的なエージェントの目標と矛盾します。

強化学習で導入される事前確率は、多くの場合タスク固有のものであり、広範なエンジニアリングとドメインの専門知識を必要とします。一般化すると、最近の研究では、AutoGen、AutoGPT、AgentVerse などのエージェントフレームワークに大規模言語モデル (LLM) を統合する方向に進んでいます。

最近、ファーウェイのノアの方舟研究所、ロンドン大学（UCL）、オックスフォード大学などの研究者らが、AIエージェントが直面する課題の解決を目指してPangu-Agentフレームワークを提案した。この研究の著者には、ロンドン大学ユニバーシティ・カレッジのコンピューターサイエンス学部のジュン・ワン教授も含まれている。

論文リンク: https://arxiv.org/abs/2312.14878

この研究は、2 つの重要な点で以前のフレームワークと異なります。i) エージェントの内部思考プロセスを構造化推論の形式として形式化します。ii) 教師あり学習と強化学習を通じてエージェントを微調整する方法を示します。

標準的な強化学習は、知覚からアクションを出力するポリシーを直接学習することに重点を置いています。ディープネットワークアーキテクチャを介してポリシーをパラメーター化することは一般的ですが、勾配ではすべてのディープネットワークに十分な監視を提供できないため、標準の RL パイプラインに固有の推論構造がないため、ベースモデルポリシーを介してタスク間でエージェントをスケーリングするときに大きなボトルネックになる可能性があると主張します。

Pangu Agent フレームワークは、大規模な基本モデルを活用して事前知識を提供し、幅広いドメインにわたって一般化機能を実現することで、構造化推論が強化学習によるこれらの課題の克服にどのように役立つかを示しています。

この研究の主な貢献は次のとおりです。

インテリジェントエージェントフレームワークにおける構造化推論の重要性が実証されており、Pangu Agent の汎用性は、既存のインテリジェントエージェントフレームワークのタスク範囲を効果的にカバーするのに十分です。メタエージェントフレームワークとして、内部関数呼び出しの順序を利用して調整や微調整を行ったり、基盤となる LLM に決定を委任したりできます。ユーザーはエージェントの機能を簡単に拡張し、すでに実装されている多くのメソッドを組み合わせたり再利用したりすることもできます。
著者らは、7 つの LLM と 6 つの異なるドメインについて評価を実施しました。この評価は、エージェントを初期化する方法と、微調整ステップのためのデータを収集する方法を研究者に知らせるために使用できます。
この研究では、フレームワークの教師あり微調整 (SFT) と強化学習微調整 (RLFT) の影響を実証しています。この研究では、構造化推論を通じて、拒否サンプリングに基づく SFT パイプラインを正常に実装し、ALFWorld フィールドでの LLM のパフォーマンスを大幅に向上させ、成功率が 27% から 82% に増加しました。 SFT の利点は頭打ちになっていますが、RL によってさらに強化することができ、BabyAI タスクの成功率は 88% に、さらには 28% から 91% にまで向上します。さらに、クロスドメイン実験では、RL パイプラインを介してトレーニングされた単一の LLM が、ALFWorld (82%) と BabyAI (18 のタスクで平均 58.7%) の両方で高いパフォーマンスを達成できることが示されています。

これらの調査結果は、大規模なモデルに基づいてインテリジェントエージェントをトレーニングするための構造化推論の可能性を浮き彫りにしています。

表1: Panguエージェントと最近の大規模インテリジェントエージェントの比較

図 2: 3 つの固有関数の視覚化。エージェントのモジュール性と柔軟性を向上させる上で、本研究で提案されたパラダイムの重要性を示しています。ユーザーは、LLM を入力としてアイデアを生成する µ1 (・) や、推論を改善するのに役立つツールを活用する µ2 (・) など、組み込み関数を再定義および再構成できます。新しいエージェントは、これらの固有関数をネストして、複雑で困難な意思決定タスクを完了するためのより一般的なモジュールを構築することもサポートしています。

パングエージェントパラダイム

構造化推論を導入するために、エージェントの内部メモリに作用して変換する一連の固有関数µ(·)を仮定します。これらの組み込み関数を導入することで、典型的な強化学習の目的を、複数の「思考」ステップをサポートするものとして再定式化できるようになります。したがって、典型的な強化学習の目的は、報酬Rを最大化するために観測o→の履歴を条件とするポリシーπを見つけることです。つまり、maxπ(・) R (π(・|o→))は、ネストされたセット（図2を参照）を使用して、内部関数µ→（・）を使用して次のように書き直すことができます。

著者らは、ユーザーが自分のタスクに役立つと思われる任意のネストを再定義できるように、これらの関数を外部関数とは別に定義、学習、使用する必要性を強調しています。 Pangu エージェントの最適化問題を次の式で書き直すことができます。より詳細な形式は次のとおりです。

ここで、rt は、環境観測 ot とアクション at に応じて、時間ステップ t での報酬です。さらに、γ∈[0, 1)は、時間の経過とともに報酬がどれだけ割引されるかを指定する割引係数です。外部関数は依然として外部世界と対話するための実行者として機能しますが、内部関数の追加レイヤーは、システムアーキテクトが有益であると判断した内部推論プロセスをカプセル化することを目的としています。

Pangu-Agent のフレームワーク構造に関して言えば、固有関数はエージェントのメモリ状態を操作する一連の関数です。固有機能はエージェントの内部状態を形成する上で非常に重要であり、エージェントの意思決定プロセスに影響を与える可能性があります。これらの機能を活用することで、エージェントは観察履歴と事前の知識に基づいてメモリ状態を調整し、よりインテリジェントで状況に適した決定を下すことができます。

外在的機能の目的は、言語モデルから環境の相互作用を引き出すことです。エージェントのメモリ状態を操作する固有関数とは異なり、外部関数は実行するアクションを生成することで環境と直接対話します。

PanguAgent 式の柔軟性により、多くの複合メソッドをレイヤーで作成できます。さらに、Pangu Agent コードベースでこの研究によって提供されるこれらの複合メソッドの実装は、特定のタスクの詳細を必要とするため、必ずしも元のアルゴリズムを忠実に再現するものではないことに注意する必要があります。

検索強化 LLM に関する最近の研究にヒントを得て、Pangu Agent フレームワークは、幅優先/深さ優先探索 (BFS/DFS) とモンテカルロツリー探索 (MCTS) の 3 つのツリー探索アルゴリズムを統合し、LLM の生成と意思決定能力の計画機能を向上させます。具体的には、フレームワークは、ポリシー、モデル、および価値関数として LLM を利用します。この LLM ベースのシミュレーション環境と対話することで、ロールアウトツリーを構築できます。このツリーは、ツリー検索アルゴリズムを使用してさらに剪定され、より優れた操作/生成効果を実現します。

Pangu Agent は、ALFWorld、GSM8K、HotpotQA、WebShop などのさまざまなタスクと互換性があります。インタラクティブなインターフェースは OpenAI Gym に似ており、オープンなデザインです。

最後に、フレームワークには、LLM の入力プロンプトを生成するためのテンプレートシステムが含まれています。テンプレートを使用すると、プロンプト作成の柔軟性が向上します。

評価する

最後に、研究者らは Pangu-Agent がサポートするさまざまな方法について広範な評価を実施しました。

まず、一次ネスト法と複合法を検討して Pangu-Agent の構造的推論能力を評価しました (図 3)。次に、教師あり学習と RL を使用して、3 つの異なる環境で Pangu-Agent の微調整能力を評価しました。結果は、エージェントによって達成される利点の点では、複合アプローチが一次ネストアプローチよりも優れていることが多いことを示しています。研究者らは、SFT と RLFT によりエージェントが特化し、ALFWorld と BabyAI のタスクでの利点をさらに向上できると述べています。評価プロセス全体を通じて、研究者は GPT、Llama 2、OpenChat、Vicuna、Mistral などのさまざまな LLM をテストに使用しました。

構造化推論評価

組み込み関数のサポートにより、推論構造におけるさまざまな設計選択が AI エージェントのパフォーマンスに与える影響を評価できます。

まず、表 2 では、一次ネスト、つまり環境を観察し、それに対してアクションを実行することによってのみエージェントのメモリが変更される設定を評価します。文献では、これらの方法は単に、few-shot prompting (FS)、few-shot chaining of thoughts (FS-CoT)、zero-shot chaining of thoughts (ZS-CoT) などの異なるプロンプト方法と呼ばれています。これらの方法の詳細な説明は付録 A.1 に記載されています。

LLM テキスト生成の非決定論的な性質により、異なる実行から得られる結果が大幅に異なる可能性があることに注意してください。これらの違いを考慮するために、タスク、メソッド、LLM の各組み合わせを 3 回実行し、平均標準偏差を報告します。ただし、1 次ネストでは LLM の機能を十分に活用できない可能性があるため、制限もあります。前述したように、エージェントは言語モデルの出力を処理し、その回答を確認し、メモリを変更し、さらにはツールを使用できる必要があります。ここでの複合アプローチとは、最終的なアクションを決定する前に複数の思考ステップが必要となるアプローチを指します。

表 3 には、自己一貫性のある FS-CoT (FS-CoTSC)、オプションの独立した思考ステップを備えた FS-CoT (React など)、マッピングステップを備えた FS-CoT (66 など)、SwiftSage、および Least-to-Most の 4 つの複合手法の結果が示されています (付録 A.2 も参照)。これらの方法はすべて、周囲時間ステップごとに複数の固有関数ステップを使用します。略語の簡単な説明は表 7 にあります。

研究者たちは、構造は似ているがプロンプトの内容が異なる方法はエージェントに非常に異なる利益をもたらすことを観察しました。これは、慎重に設計されたプロンプトの重要性を示しています。また、異なる手法が一部の LLM では他の LLM よりも優れたパフォーマンスを発揮することも注目に値します。たとえば、React は OpenChat-3.2 では平均して FS よりもパフォーマンスが悪くなりますが、React と FS は GPT-3.5 では同様の平均ゲインを示します。

すべての LLM の中で、GSM8K の FS のパフォーマンスは Direct よりもはるかに劣っていることは注目に値します。 FS は LLM に対する最終的な答えを提供するだけなので、これは驚くべきことではありません。したがって、LLM の目的は、中間ステップを生成せずに質問に答えることです。ただし、Direct では、明示的に要求されていない場合でも LLM は中間ステップを生成します。これは、同様の小学校レベルの問題がインターネット上でそのように提示されており、これらの問題がこれらの LLM のトレーニングセットに含まれる可能性が高いためです。 ZS-CoT と FS を比較した場合も同様の結論を導き出すことができます。

これは特に小規模な LLM で顕著であり、研究者は、プロンプトに「ステップごとに考えてください」という引用が含まれていれば、モデルが目の前の問題を解決するための正しい推論ステップを生成する可能性が高くなると推測しています。

HumanEvalタスクでは、研究者らはGPT-3.5と他のモデル間の収量のギャップが他のタスクよりも大幅に大きいことを観察した。これは、HumanEval が LLM が適切に構造化された応答を提供することを要求するコーディングタスクであるという事実によるものと考えられます。ただし、小規模なオープンソース LLM では、このような構造エラーが発生しやすくなり、タスクが失敗して戻り値 0 が返されることがあります。

LLM のパフォーマンスを妨げるもう 1 つの要因は、コンテキストの長さが制限されていることです。比較的大きな観察を伴う WebShop などのタスクでは、許可されたコンテキストの長さ内に収まるようにプロンプトの長さを切り捨てる必要があります。したがって、このタスクにおける LLM のパフォーマンスは、特にプロンプトに追加情報が含まれる Reflect などの方法では大きく影響を受けます。これは、Reflect メソッドが WebShop で他のメソッドよりもパフォーマンスが低下することが多い理由も説明しています。

場合によっては、FS-CoT-SC は、特に GSM8K において LLM の利点を向上させることができます。ただし、これには、SC アクションの選択を実行するために LLM に複数回 (この実験では 5 回) プロンプトを出す必要があるという追加コストがかかります。 HumanEval などのタスクでは、回答に長いテキスト回答が含まれ、正しい結果を生み出す回答が複数ある可能性があるため、研究者は SC を適用できないことを発見しました。これは、LLM が以前と同じ回答を生成せず、SC 操作セレクターが最も一般的な回答を選択できないためです。

外在的機能評価: 微調整

上記の結果は、LLM がさまざまなタスクでリターン率を達成する上で優れたパフォーマンスを発揮する一方で、100% の成功率を達成するにはまだ改善の余地が大きいことを示しています。次に、研究者たちは、SFT と RLFT が Pangu-Agent の成功率の向上にどのように役立つかを調査しました。

彼らは 2 つの異なるパイプラインを提案しました。1 つは、マルチターンの軌道生成と SFT で構成されるブートストラップ SFT (BSFT) であり、もう 1 つは、軌道生成、SFT、RLFT で構成される 3 段階のパイプラインです。 SFT を実行する場合、専門家の軌跡のデモンストレーションは常に、Pangu-Agent フレームワークの構造化推論機能を備えた OpenChat-3.5 LLM を使用して収集されます。 OpenChat-3.5 LLM を使用して BSFT を実行し、SFT-RLFT パイプラインを Llama 2-7B LLM に適用し、タスクごとに異なる LLM を微調整することと、複数のタスクで 1 つの LLM を微調整すること (つまり、マルチタスクの微調整) という 2 つの異なる評価パラダイムを検討します。

ドメインごとに 1 つのモデル

BSFT: 最初の実験では、Pangu-Agent フレームワークによって提供される固有の機能と微調整された機能の組み合わせを示します。まず、さまざまなプロンプト方法、具体的には ZS-CoT、FS-CoT、FS-CoT-React、FS-CoT-Reflect からデータを収集します。データを収集した後、拒否サンプリング手順が実行され、失敗した軌道が破棄され、割引収益の観点から最もパフォーマンスの高い軌道のみが保持されます。その後、このデータセットに対して SFT ステップを実行して、メソッドのパフォーマンスをさらに向上させることができます。表 4 の「1 ステップ SFT」列には、1 つの SFT ステップでトレーニングした後のモデル結果がリストされています。

表 4 に示すように、1 ラウンドの拒否サンプリングの後、アクションを実行する前にアイデアを生成するモデルの能力を維持しながら、ALFWorld で優れたパフォーマンスを達成できます。

SFT-RLFT: ただし、これらの固有関数によって生成された完全な軌道を微調整するには計算コストがかかり、すぐに収穫逓減点に達します。研究者たちは、さまざまなタスクでより高いパフォーマンスを達成するために RL を使用することを提案しています。

表 5 に示すように、研究者は最初に SFT を使用して成功したデモンストレーションを微調整し、次に RL を使用して微調整した結果、成功率が最も向上しました。 ALFWorld のような複雑なドメインでは、SFT ステップと軌道生成の固有関数 (FS-CoT) が重要です。これは、固有の機能と微調整の両方のメリットを享受できる Pangu-Agent フレームワークの重要性を示しています。

研究の詳細については原著論文を参照してください。

<<: 2023年のGenAI技術応用動向の観察

>>: 大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている