StarCraft II の共同競技ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習の問題を解決

マルチエージェント強化学習 (MARL) は、各エージェントのポリシー改善の方向性を特定するだけでなく、個々のエージェントのポリシー更新を組み合わせて全体的なパフォーマンスを向上させる必要がある困難な問題です。最近、この問題は一応解決され、研究者は集中トレーニング分散実行 (CTDE) 方式を導入しました。これにより、エージェントはトレーニング段階でグローバル情報にアクセスできるようになります。しかし、これらのアプローチでは、マルチエージェント相互作用の複雑さを完全に捉えることはできません。

実際、これらのアプローチのいくつかは失敗に終わったことが判明しています。この問題を解決するために、マルチエージェント利点分解定理を提案した人もいます。これに基づいて、HATRPO アルゴリズムと HAPPO アルゴリズムが導出されました。ただし、これらの方法には限界があり、依然として慎重に設計された最大化目標に依存しています。

近年、シーケンスモデル (SM) は自然言語処理 (NLP) の分野で大きな進歩を遂げました。たとえば、GPT シリーズと BERT は、幅広いダウンストリームタスクで優れたパフォーマンスを発揮し、小規模サンプルの一般化タスクで優れたパフォーマンスを実現します。

シーケンスモデルは言語の連続的な性質に自然に適応するため、言語タスクに使用できますが、シーケンスメソッドは NLP タスクに限定されず、広く適用できる一般的な基本モデルです。たとえば、コンピュータービジョン (CV) では、画像をサブ画像に分割し、NLP タスクのトークンのようにシーケンスに並べることができます。フラミンゴ、DALL-E、GATOなど最近の有名モデルはどれもシーケンシャル方式の影を落としています。

Transformer などのネットワークアーキテクチャの登場により、シーケンスモデリング技術も RL コミュニティから大きな注目を集め、Transformer アーキテクチャに基づく一連のオフライン RL の開発が促進されました。これらの方法は、最も基本的な RL トレーニング問題のいくつかを解決する上で大きな可能性を示しています。

これらのアプローチは目覚ましい成功を収めていますが、マルチエージェントシステムの最も難しい (そして MARL 固有の) 側面、つまりエージェント間の相互作用をモデル化するように設計されたものはありません。実際、すべてのエージェントに Transformer ポリシーを与えて個別にトレーニングするだけでは、MARL の共同パフォーマンスが向上することは保証されません。したがって、多数の強力なシーケンスモデルが利用可能であるにもかかわらず、MARL はシーケンスモデルのパフォーマンスを実際には活用していません。

シーケンスモデルを使用して MARL 問題を解決するにはどうすればよいでしょうか?上海交通大学、デジタルブレインラボ、オックスフォード大学などの研究者らは、協調型MARL問題をシーケンスモデル問題に効果的に変換できる新しいマルチエージェントトランスフォーマー（MAT）アーキテクチャを提案した。そのタスクは、エージェントの観察シーケンスをエージェントの最適なアクションシーケンスにマッピングすることです。

この論文の目的は、MARL と SM の間に橋を架け、MARL の最新シーケンスモデルのモデリング能力を最大限に発揮させることです。 MAT の中核となるのは、マルチエージェントの利点分解定理を活用して共同ポリシー検索問題を順次意思決定プロセスに変換するエンコーダー/デコーダーアーキテクチャです。これにより、マルチエージェント問題は線形の時間複雑度を示し、最も重要な点として、MAT の単調なパフォーマンス向上が保証されます。事前にオフラインデータを収集する必要がある Decision Transformer などの従来の手法とは異なり、MAT は環境からのオンライン試行錯誤を通じてオンラインポリシー方式でトレーニングされます。

論文アドレス: https://arxiv.org/pdf/2205.14953.pdf
プロジェクトのホームページ: https://sites.google.com/view/multi-agent-transformer

MAT を検証するために、研究者らは StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation、Google Research Football ベンチマークで広範な実験を実施しました。結果は、MAPPO や HAPPO などの強力なベースラインと比較して、MAT が優れたパフォーマンスとデータ効率を備えていることを示しています。さらに、この研究では、エージェントの数に関係なく、MAT は未知のタスクに対して優れたパフォーマンスを発揮し、優れた小規模サンプル学習者であると言えることも証明されました。

背景

このセクションでは、まず、本論文の基礎となる協調型 MARL 問題の定式化とマルチエージェント優位性分解定理を紹介します。次に、MAT に関連する既存の MARL メソッドを確認し、最後に Transformer を紹介します。

従来のマルチエージェント学習パラダイム (左) とマルチエージェント順次意思決定パラダイム (右) の比較。

問題の定式化

協調型 MARL 問題は通常、離散部分観測マルコフ決定プロセス (Dec-POMDP) によってモデル化されます。

マルチエージェント優位性分解定理

エージェントは、次のように定義されるQ_π(o, a)とV_π(o)を介してアクションと観測の価値を評価します。

定理 1 (マルチエージェントの優位性分解): i_1:n をエージェントの順列とします。次の式は、追加の仮定なしに常に当てはまります。

重要なのは、定理 1 が段階的な改善アクションを選択するための直感を提供することです。

既存のMARLメソッド

研究者らは、現在の 2 つの SOTA MARL アルゴリズムを要約しました。どちらも近似ポリシー最適化 (PPO) に基づいて構築されています。 PPO は、そのシンプルさとパフォーマンスの安定性で知られる RL 手法です。

マルチエージェント近接ポリシー最適化 (MAPPO) は、PPO を MARL に適用する最初の、そして最も直接的なアプローチです。

異種エージェント近接ポリシー最適化（HAPPO）は、定理（1）を最大限に活用して、単調な改善が保証されたマルチエージェント信頼領域学習を実現できる現在のSOTAアルゴリズムの1つです。

トランスフォーマーモデル

定理（1）で説明した順次特性とHAPPOの原理に基づいて、Transformerモデルを使用してマルチエージェント信頼領域学習を実装することを直感的に検討できるようになりました。 Transformer アーキテクチャでは、エージェントのチームをシーケンスとして表示することで、MAPPO/HAPPO の欠点を回避しながら、さまざまな数と種類のエージェントを持つチームをモデル化できます。

マルチエージェントトランスフォーマー

MARL のシーケンスモデリングパラダイムを実装するために、研究者によって提供されたソリューションは、Multi-Agent Transformer (MAT) です。 Transformer アーキテクチャを適用するというアイデアは、エージェントの観測シーケンス (o^i_1、...、o^i_n) 入力とアクションシーケンス (a^i_1、...、a^i_n) 出力間のマッピングが、機械翻訳に似たシーケンスモデリングタスクであるという事実に由来しています。定理(1)が示すように、行動a^i_mはエージェントa^i_1:m−1のこれまでのすべての決定に依存する。

そのため、MATは図(2)に示すように、結合観測表現を学習するエンコーダと、各エージェントの行動を自己回帰的に出力するデコーダから構成される。

パラメータが φ で表されるエンコーダは、観測値のシーケンス (o^i_1、. . .、o^i_n) を任意の順序で取得し、それをいくつかの計算ブロックに渡します。各ブロックは、自己注意メカニズム、多層パーセプトロン (MLP)、および深さの増加に伴う勾配消失とネットワーク劣化を防ぐ残差接続で構成されています。

パラメータがθで示されるデコーダーは、埋め込まれたジョイントアクションa^i_0:m−1、m = {1、... n}（ここでa^i_0はデコードの開始を示す任意のシンボル）をデコードブロックのシーケンスに渡します。重要なのは、各デコードブロックにマスクされた自己注意メカニズムがあることです。デコーダーをトレーニングするには、次のクリップされた PPO 目的関数を最小化します。

MAT の詳細なデータフローは次のアニメーションに示されています。

実験結果

MAT が期待どおりかどうかを評価するため、研究者らは、StarCraft II Multi-Agent Challenge (SMAC) ベンチマーク (MAPPO が優れたパフォーマンスを発揮) とマルチエージェント MuJoCo ベンチマーク (HAPPO が SOTA パフォーマンスを発揮) で MAT をテストしました。

さらに、研究者らは、Bimanual Dxterous Hand Manipulation (Bi-DexHands) および Google Research Football ベンチマークで MAT の拡張テストを実施しました。前者は一連の難しい両手操作タスクを提供し、後者はフットボールの試合における一連の協力シナリオを提供します。

最後に、Transformer モデルは通常、小規模サンプルのタスクで強力な一般化パフォーマンスを発揮するため、MAT は未知の MARL タスクでも同様に強力な一般化機能を発揮すると考えています。そのため、彼らは SMAC とマルチエージェント MuJoCo タスクでゼロショット実験と少数ショット実験を設計しました。

共同MARLベンチマークのパフォーマンス

下の表 1 と図 4 に示すように、SMAC、マルチエージェント MuJoCo、Bi-DexHands ベンチマークでは、MAT はほぼすべてのタスクで MAPPO や HAPPO を大幅に上回り、同種エージェントタスクと異種エージェントタスクの両方で強力な構築能力を発揮しています。さらに、MAT は MAT-Dec よりも優れたパフォーマンスを実現しており、MAT 設計におけるデコーダーアーキテクチャの重要性を示しています。

同様に、研究者たちは、下の図 5 に示すように、Google Research Football ベンチマークでも同様のパフォーマンス結果を得ました。