StarCraft II の共同競技ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習の問題を解決

StarCraft II の共同競技ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習の問題を解決

マルチエージェント強化学習 (MARL) は、各エージェントのポリシー改善の方向性を特定するだけでなく、個々のエージェントのポリシー更新を組み合わせて全体的なパフォーマンスを向上させる必要がある困難な問題です。最近、この問題は一応解決され、研究者は集中トレーニング分散実行 (CTDE) 方式を導入しました。これにより、エージェントはトレーニング段階でグローバル情報にアクセスできるようになります。しかし、これらのアプローチでは、マルチエージェント相互作用の複雑さを完全に捉えることはできません。

実際、これらのアプローチのいくつかは失敗に終わったことが判明しています。この問題を解決するために、マルチエージェント利点分解定理を提案した人もいます。これに基づいて、HATRPO アルゴリズムと HAPPO アルゴリズムが導出されました。ただし、これらの方法には限界があり、依然として慎重に設計された最大化目標に依存しています。

近年、シーケンス モデル (SM) は自然言語処理 (NLP) の分野で大きな進歩を遂げました。たとえば、GPT シリーズと BERT は、幅広いダウンストリーム タスクで優れたパフォーマンスを発揮し、小規模サンプルの一般化タスクで優れたパフォーマンスを実現します。

シーケンス モデルは言語の連続的な性質に自然に適応するため、言語タスクに使用できますが、シーケンス メソッドは NLP タスクに限定されず、広く適用できる一般的な基本モデルです。たとえば、コンピューター ビジョン (CV) では、画像をサブ画像に分割し、NLP タスクのトークンのようにシーケンスに並べることができます。フラミンゴ、DALL-E、GATOなど最近の有名モデルはどれもシーケンシャル方式の影を落としています。

Transformer などのネットワーク アーキテクチャの登場により、シーケンス モデリング技術も RL コミュニティから大きな注目を集め、Transformer アーキテクチャに基づく一連のオフライン RL の開発が促進されました。これらの方法は、最も基本的な RL トレーニング問題のいくつかを解決する上で大きな可能性を示しています。

これらのアプローチは目覚ましい成功を収めていますが、マルチエージェント システムの最も難しい (そして MARL 固有の) 側面、つまりエージェント間の相互作用をモデル化するように設計されたものはありません。実際、すべてのエージェントに Transformer ポリシーを与えて個別にトレーニングするだけでは、MARL の共同パフォーマンスが向上することは保証されません。したがって、多数の強力なシーケンス モデルが利用可能であるにもかかわらず、MARL はシーケンス モデルのパフォーマンスを実際には活用していません。

シーケンス モデルを使用して MARL 問題を解決するにはどうすればよいでしょうか?上海交通大学、デジタルブレインラボ、オックスフォード大学などの研究者らは、協調型MARL問題をシーケンスモデル問題に効果的に変換できる新しいマルチエージェントトランスフォーマー(MAT)アーキテクチャを提案した。そのタスクは、エージェントの観察シーケンスをエージェントの最適なアクションシーケンスにマッピングすることです。

この論文の目的は、MARL と SM の間に橋を架け、MARL の最新シーケンス モデルのモデリング能力を最大限に発揮させることです。 MAT の中核となるのは、マルチエージェントの利点分解定理を活用して共同ポリシー検索問題を順次意思決定プロセスに変換するエンコーダー/デコーダー アーキテクチャです。これにより、マルチエージェント問題は線形の時間複雑度を示し、最も重要な点として、MAT の単調なパフォーマンス向上が保証されます。事前にオフライン データを収集する必要がある Decision Transformer などの従来の手法とは異なり、MAT は環境からのオンライン試行錯誤を通じてオンライン ポリシー方式でトレーニングされます。


  • 論文アドレス: https://arxiv.org/pdf/2205.14953.pdf
  • プロジェクトのホームページ: https://sites.google.com/view/multi-agent-transformer

MAT を検証するために、研究者らは StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation、Google Research Football ベンチマークで広範な実験を実施しました。結果は、MAPPO や HAPPO などの強力なベースラインと比較して、MAT が優れたパフォーマンスとデータ効率を備えていることを示しています。さらに、この研究では、エージェントの数に関係なく、MAT は未知のタスクに対して優れたパフォーマンスを発揮し、優れた小規模サンプル学習者であると言えることも証明されました。

背景

このセクションでは、まず、本論文の基礎となる協調型 MARL 問題の定式化とマルチエージェント優位性分解定理を紹介します。次に、MAT に関連する既存の MARL メソッドを確認し、最後に Transformer を紹介します。

従来のマルチエージェント学習パラダイム (左) とマルチエージェント順次意思決定パラダイム (右) の比較。

問題の定式化

協調型 MARL 問題は通常、離散部分観測マルコフ決定プロセス (Dec-POMDP) によってモデル化されます

マルチエージェント優位性分解定理

エージェントは、次のように定義されるQ_π(o, a)とV_π(o)を介してアクションと観測の価値を評価します。

定理 1 (マルチエージェントの優位性分解): i_1:n をエージェントの順列とします。次の式は、追加の仮定なしに常に当てはまります。

重要なのは、定理 1 が段階的な改善アクションを選択するための直感を提供することです。

既存のMARLメソッド

研究者らは、現在の 2 つの SOTA MARL アルゴリズムを要約しました。どちらも近似ポリシー最適化 (PPO) に基づいて構築されています。 PPO は、そのシンプルさとパフォーマンスの安定性で知られる RL 手法です。

マルチエージェント近接ポリシー最適化 (MAPPO) は、PPO を MARL に適用する最初の、そして最も直接的なアプローチです。

異種エージェント近接ポリシー最適化(HAPPO)は、定理(1)を最大限に活用して、単調な改善が保証されたマルチエージェント信頼領域学習を実現できる現在のSOTAアルゴリズムの1つです。

トランスフォーマーモデル

定理(1)で説明した順次特性とHAPPOの原理に基づいて、Transformerモデルを使用してマルチエージェント信頼領域学習を実装することを直感的に検討できるようになりました。 Transformer アーキテクチャでは、エージェントのチームをシーケンスとして表示することで、MAPPO/HAPPO の欠点を回避しながら、さまざまな数と種類のエージェントを持つチームをモデル化できます。

マルチエージェントトランスフォーマー

MARL のシーケンス モデリング パラダイムを実装するために、研究者によって提供されたソリューションは、Multi-Agent Transformer (MAT) です。 Transformer アーキテクチャを適用するというアイデアは、エージェントの観測シーケンス (o^i_1、...、o^i_n) 入力とアクション シーケンス (a^i_1、...、a^i_n) 出力間のマッピングが、機械翻訳に似たシーケンス モデリング タスクであるという事実に由来しています。定理(1)が示すように、行動a^i_mはエージェントa^i_1:m−1のこれまでのすべての決定に依存する。

そのため、MATは図(2)に示すように、結合観測表現を学習するエンコーダと、各エージェントの行動を自己回帰的に出力するデコーダから構成される。


パラメータが φ で表されるエンコーダは、観測値のシーケンス (o^i_1、. . .、o^i_n) を任意の順序で取得し、それをいくつかの計算ブロックに渡します。各ブロックは、自己注意メカニズム、多層パーセプトロン (MLP)、および深さの増加に伴う勾配消失とネットワーク劣化を防ぐ残差接続で構成されています。

パラメータがθで示されるデコーダーは、埋め込まれたジョイントアクションa^i_0:m−1、m = {1、... n}(ここでa^i_0はデコードの開始を示す任意のシンボル)をデコードブロックのシーケンスに渡します。重要なのは、各デコード ブロックにマスクされた自己注意メカニズムがあることです。デコーダーをトレーニングするには、次のクリップされた PPO 目的関数を最小化します。

MAT の詳細なデータフローは次のアニメーションに示されています。

実験結果

MAT が期待どおりかどうかを評価するため、研究者らは、StarCraft II Multi-Agent Challenge (SMAC) ベンチマーク (MAPPO が優れたパフォーマンスを発揮) とマルチエージェント MuJoCo ベンチマーク (HAPPO が SOTA パフォーマンスを発揮) で MAT をテストしました。

さらに、研究者らは、Bimanual Dxterous Hand Manipulation (Bi-DexHands) および Google Research Football ベンチマークで MAT の拡張テストを実施しました。前者は一連の難しい両手操作タスクを提供し、後者はフットボールの試合における一連の協力シナリオを提供します。

最後に、Transformer モデルは通常、小規模サンプルのタスクで強力な一般化パフォーマンスを発揮するため、MAT は未知の MARL タスクでも同様に強力な一般化機能を発揮すると考えています。そのため、彼らは SMAC とマルチエージェント MuJoCo タスクでゼロショット実験と少数ショット実験を設計しました。

共同MARLベンチマークのパフォーマンス

下の表 1 と図 4 に示すように、SMAC、マルチエージェント MuJoCo、Bi-DexHands ベンチマークでは、MAT はほぼすべてのタスクで MAPPO や HAPPO を大幅に上回り、同種エージェント タスクと異種エージェント タスクの両方で強力な構築能力を発揮しています。さらに、MAT は MAT-Dec よりも優れたパフォーマンスを実現しており、MAT 設計におけるデコーダー アーキテクチャの重要性を示しています。


同様に、研究者たちは、下の図 5 に示すように、Google Research Football ベンチマークでも同様のパフォーマンス結果を得ました。

少数ショット学習のためのMAT

各アルゴリズムのゼロショットおよび少数ショットの結果は表 2 および 3 にまとめられており、太字の数字は最高のパフォーマンスを示しています。

研究者らは、対照群と同様にゼロからトレーニングした同一データを使用した MAT のパフォーマンスも提示している。下の表に示すように、MAT は最高スコアのほとんどを獲得しており、これは MAT の少数ショット学習の強力な一般化パフォーマンスを示しています。

<<:  初心者のためのディープラーニングの10,000語レビュー

>>:  中国語の音声の事前トレーニング済みモデルが見つかりませんか? Wav2vec 2.0 と HuBERT の中国語版が登場

ブログ    
ブログ    

推薦する

...

...

中国の博士が、パラメータのわずか 33% で画像復元フィールドを圧縮するモデル SwinIR を提案しました。

[[421559]]パラメータの数とモデルのパフォーマンスの間には絶対的な関係がありますか?チュー...

AIが銀行業務をどう変えるか

今日、人工知能 (AI) は多くの業界に多くの資産と利点をもたらし、チャットボットから Siri や...

オラクルCEOハード氏「AIについて心配する必要はない」

オラクルが最近ラスベガスで開催したモダン・ビジネス・エクスペリエンス・カンファレンスで、同社のCEO...

米国の重要・新興技術リスト最新版:精密技術ポジショニング、AI、半導体などがリストに

2月8日、ホワイトハウス大統領府は最新の改訂版「重要かつ新興の技術」リスト(CETリスト)を発表しま...

OpenAIがChatGPT Enterprise Editionをリリース、より高いセキュリティとプライバシー保護を実現

8月29日、OpenAIは、企業ユーザーのニーズを満たし、より高いセキュリティとプライバシー保護を提...

人工知能は創造的な仕事を促進できるでしょうか?

今日、ほぼすべての AI 作業は機械学習の成功に基づいています。機械学習には分析を検討するための十分...

Baidu がカスタマイズされたトレーニングおよびサービス プラットフォーム EasyDL を全面公開: 誰もが AI を使えるように

百度は昨年7月にAIプラットフォームをオープンして以来、開発者にAIオープンテクノロジーの能力を継続...

Giskard: AI モデル向けのオープンソース品質管理

翻訳者 |ブガッティレビュー | Chonglou実稼働環境で AI モデルの品質を確保することは複...

将来人工知能に置き換えられる可能性が最も低い10の仕事

人工知能(AI)の急速な発展は人々の生活に便利さをもたらしたが、労働市場には大きな変化をもたらすだろ...

...

...

90年代以降は人工知能で年間数百万ドルを稼ぐ、Google、Microsoft、BATの給与リストが明らかに

年末には給与に関する議論が再び盛り上がる。昨日、馬化騰氏は抽選で従業員に30万元相当のテンセント株1...

飲食店がセルフオーダー機や配達ロボットを導入すれば「無人飲食店」になるのでしょうか?

ケータリング業界における人件費は、事業者を悩ませる大きな問題です。レストランなどのケータリングのシナ...