経験を要約し、進化を続け、インテリジェントエージェントのパラメータを最適化するコストを削減できます。

大規模モデルの出現は、インテリジェントエージェントの設計に革命的な変化を引き起こしました。ChatGPTとそのプラグインシステムの登場以来、大規模モデルのインテリジェントエージェントの設計と開発は大きな注目を集めています。この汎用的で強力なインテリジェントアシスタントは、大規模モデルの強力な意味理解および推論機能により、予約や注文などのタスクの完了、コピーの作成の支援、インターネット上の最新の知識やニュースの自動検索などに役立ちます。

OpenAI の最初の開発者会議で、Sam Altman 氏は ChatGPT がインテリジェントアシスタントとして持つ可能性を実証しました。

大規模モデルのインテリジェントエージェントインタラクションのパフォーマンスと信頼性を向上させるために、学術界では、思考チェーンを意思決定プロセスに統合する ReAct や、大規模モデルの自己検査機能を活用する RCI など、さまざまなプロンプトテクノロジーに基づくさまざまなインテリジェントエージェントフレームワークを提案してきました。

大規模モデルエージェントは強力な機能を実証していますが、上記のソリューションには、大規模モデルエージェントが過去のインタラクション経験から学習して進化できるようにする機能が欠けています。この継続的に進化する能力は、大規模モデルのインテリジェントエージェントの開発において緊急に取り組む必要がある問題になりつつあります。

一般的に、強化学習は、過去のインタラクション履歴に基づいてエージェントのインタラクション戦略を最適化するために、意思決定インタラクションタスクでよく使用されます。ただし、大規模なモデルの場合、パラメータを直接最適化するのはコストがかかります。

Algorithm Distillation などの研究は、「コンテキスト内強化学習」の概念を提案しました。強化学習のトレーニングプロセスを事前トレーニング済みの決定トランスフォーマーに入力することで、モデルは入力トレーニング履歴からパフォーマンスの進化パターンを学習し、パラメータを更新せずに次の出力戦略を最適化できます。

ただし、このモデルを大規模なテキストモデルに直接適用することは困難です。複雑な観察やアクションをテキストとして表現するには、より多くのトークンを消費する必要があるため、完全なトレーニングプロセスを限られたコンテキストに適合させることは困難になります。

この問題を解決するために、上海交通大学のクロスメディア言語インテリジェンス研究所（X-LANCE）は、外部の経験メモリを使用して大規模モデルのインタラクション履歴を保存し、強化学習を使用して経験メモリ内の経験を更新することで、インテリジェントシステム全体のインタラクションパフォーマンスを進化させるという解決策を提案しました。このように設計されたインテリジェントエージェントは、セミパラメトリック強化学習システムを構成します。この論文はNeurIPS 2023に採択されました。

論文アドレス: https://arxiv.org/abs/2306.07929

実験では、この方法を使用して設計された「Rememberer」インテリジェントエージェントが、有効性と安定性の両方で利点を示し、以前の研究結果を上回り、新しいパフォーマンスベンチマークを確立したことが示されました。

方法

「Rememberer」エージェントの技術的アーキテクチャ

この研究では、「Rememberer」エージェント用の RLEM (経験記憶による強化学習) フレームワークを設計し、エージェントが現在のインタラクション状態に応じて経験記憶から過去の経験を動的に抽出し、自身のインタラクション動作を改善できるようにします。同時に、環境から返される報酬を使用して経験記憶を更新することもできるため、全体的な戦略を永続的に改善できます。

タスクの目的、観察、候補となるアクション、および対応する累積報酬（Q値）は、経験メモリに保存されます。トレーニング中は、マルチステップ Q 学習を使用して、メモリプールに記録された Q 値を更新できます。

推論プロセス中に、エージェントはタスクの類似性と観察の類似性に基づいて経験記憶から最も類似した k 個の経験を抽出し、コンテキスト内学習の例を形成します。

トレーニングプロセス中に得られる経験には成功経験と失敗経験の両方が含まれるため、成功経験のみを使用するこれまでの経験記憶ベースの方法とは異なり、この研究では失敗経験も活用するための特別な出力形式を提案しています。

この出力形式は「アクションアドバイス」と呼ばれ、推奨されるアクションと推奨されないアクションの両方とそれらの Q 値の推定値をモデルが出力する必要があります。これにより、モデルは例の一部のアクションの失敗から学習し、新しい決定でそれらを回避できるようになります。

結果

この研究では、提案された「Rememberer」エージェントを WebShop と WikiHow の 2 つのタスクセットでテストしました。

異なる初期体験と異なるトレーニングセットで構築された Rememberer エージェントをテストしました。ReAct および静的な例を使用したベースラインと比較すると、Rememberer は平均パフォーマンスが高かっただけでなく、さまざまな初期化条件下でもパフォーマンスがより安定しており、大きな利点を示しました。

また、人間がラベル付けした経験記憶（Rememberer (A)）を使用した実験を行い、設計された類似性関数が動的な例を抽出する際の有効性を証明しました。また、強化学習トレーニングが人間がラベル付けした経験記憶よりも優れたパフォーマンスを達成できることも証明しました。

アブレーション実験の結果からも、採用されたマルチステップ Q 学習と「アクション提案」出力形式の有効性が確認されました。

この結果は、トレーニングプロセス中に、「Rememberer」エージェントのインタラクティブなパフォーマンスが経験メモリを更新することによって徐々に進化していることも証明しており、設計された方法の有効性をさらに示しています。

結論は

大規模モデルエージェントが自身のインタラクション経験を利用して自身のインタラクションパフォーマンスを進化させることが難しいという問題に対応して、上海交通大学のクロスメディア言語インテリジェンス研究所 (X-LANCE) は RLEM フレームワークを提案し、「Rememberer」エージェントを設計しました。実験結果によると、外部経験メモリを強化し、強化学習で経験メモリを更新することで、「Rememberer」エージェントは独自のインタラクション経験を最大限に活用してインタラクション戦略を進化させ、ベンチマークタスクセットでのパフォーマンスを大幅に向上できることがわかりました。

この研究は、大規模モデルインテリジェントエージェントが独自のパフォーマンスを進化させ、大規模モデルインテリジェントエージェントを強化学習と組み合わせるための貴重なソリューションと洞察を提供します。将来的には、この方向をさらに深く探求する機会があるかもしれません。

<<: 米空軍の最高データ・AI責任者が語るAI運用の主導と戦略的優位性

>>: Google の時間は残りわずか: 18 歳の従業員が辞職し、経営陣を非難