マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか?

マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか?

清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに一切変更を加えずに、MAPPO (マルチエージェント PPO) が 3 つの代表的なマルチエージェントタスク (Multi-Agent Particle World、StarCraftII、Hanabi) で SOTA アルゴリズムに匹敵するパフォーマンスを達成したことが判明しました。

近年、マルチエージェント強化学習(MARL)は飛躍的な進歩を遂げています。たとえば、DeepMindが開発したAlphaStarは、StarCraft IIでプロのStarCraftプレイヤーに勝利し、人間のプレイヤーの99.8%を超えました。OpenAI FiveはDOTA2で世界チャンピオンチームを何度も破り、eスポーツ大会でチャンピオンを破った最初の人工知能システムになりました。また、シミュレーションされた物理環境でかくれんぼをしながら、人間のように道具を使えるエージェントを訓練しました。私たちが言及したエージェントのほとんどは、オンポリシーアルゴリズム(IMPALA[8]など)を使用してトレーニングされており、高度な並列処理と膨大な計算能力のサポートが必要です。たとえば、OpenAI Fiveは、データサンプルを収集してネットワークをトレーニングするために、128,000個のCPUと256個のP100 GPUを消費しました。

しかし、ほとんどの学術機関にとって、これほどの規模のコンピューティング リソースを備えることは困難です。そのため、MARL分野では、オンポリシーアルゴリズム(PPO[3]など)と比較して、オフポリシーアルゴリズム(MADDPG[5]、QMix[6]など)は、コンピューティングリソースが限られている場合にサンプリング効率が高いため、インテリジェントエージェントのトレーニングに適しているというコンセンサスがほぼ得られています。また、特定のドメイン固有の問題を解決するために、一連のSOTAアルゴリズムも進化してきました(SAD[9]、RODE[7]など)。

しかし、清華大学とカリフォルニア大学バークレー校の研究者は論文の中で、この従来の認識に対して異なる見解を提示しました。MARLアルゴリズムでは、データサンプル効率(サンプル効率)とアルゴリズム操作効率(実時間実行効率)を総合的に考慮する必要があるというものです。計算リソースが限られている状況では、オフポリシー アルゴリズムと比較して、オンポリシー アルゴリズムである MAPPO (マルチエージェント PPO) は、アルゴリズム操作効率が大幅に高く、データ サンプル効率も同等 (またはそれ以上) です。興味深いことに、研究者たちは、アルゴリズムやネットワーク アーキテクチャに変更を加えずに、SOTA アルゴリズムに匹敵するパフォーマンスを達成するには、MAPPO の最小限のハイパーパラメータ検索のみが必要であることを発見しました。さらに、MAPPOのパフォーマンスを向上させるための5つの重要な提案が示され、最適化されたMARLアルゴリズムのソースコードセットがオープンソース化されました(コードアドレス:
https://github.com/marlbenchmark/on-policy)。

したがって、MARL アルゴリズムがうまく機能していない場合は、この研究を参考にするとよいかもしれません。適切なアルゴリズムを使用していない可能性があります。MARL アルゴリズムの研究に重点を置いている場合は、ベースラインとして MAPPO を使用してみると、タスクのベンチマークが向上する可能性があります。MARL 研究の入門段階にある場合は、このソースコードセットを入手する価値があります。よく開発されており、使いやすいと言われています。この論文は、清華大学の王宇、呉毅らがカリフォルニア大学バークレー校の研究者と共同で完成させた。研究者たちは、さらに最適化されたアルゴリズムとタスクをオープンソース化し続ける予定です(ウェアハウスの指示:
(https://github.com/marlbenchmark) より

論文リンク:
https://arxiv.org/abs/2103.01955

MAPPOとは

PPO(Proximal Policy Optimization)[4]は現在非常に人気のあるシングルエージェント強化学習アルゴリズムであり、OpenAIが実験を行う際に選択するアルゴリズムでもあり、その幅広い適用性を示しています。 PPO は、古典的なアクター・クリティック・アーキテクチャを採用しています。このうち、アクターネットワーク(ポリシーネットワークとも呼ばれる)は、ローカル観測(obs)を受信して​​アクション(action)を出力します。一方、批評家ネットワーク(バリューネットワークとも呼ばれる)は、状態(state)を受信して​​アクション値(value)を出力し、アクターネットワークの出力アクションの品質を評価するために使用されます。直感的には、審査員(評論家)が俳優(俳優)の演技(行為)に点数(価値)をつけることだと理解できます。 MAPPO (マルチエージェント PPO) は、マルチエージェント タスクに適用される PPO アルゴリズムのバリエーションです。これもアクター クリティック アーキテクチャを使用しますが、違いは、クリティックが集中型の価値関数を学習する点です。つまり、クリティックは他のエージェントや環境に関する情報を含むグローバル情報を観察できます。

実験環境

次に、本論文における実験環境について紹介します。この論文では、代表的な協調型マルチエージェントタスクを 3 つ選択しました。協調型タスクを選択した重要な理由は、評価指標が明確で、さまざまなアルゴリズムを比較しやすくなることです。

最初の環境は、OpenAIのMulti-agent Particle World (MPE)タスクです(ソースコードの指示:
[1]は、軽量な環境と抽象的で多様なタスク設定により、MARLアルゴリズムを迅速に検証するためのテストプラットフォームとして好まれています。図 1 に示すように、MPE には Spread、Comm、Reference という 3 つの共同タスクがあります。

図1: MPE環境の3つのサブタスク: Spread、Comm、Reference

2番目の環境は、MARLフィールドの有名なStarCraftIIミッションです(ソースコード:
図 2 に示すように、https://github.com/oxwhirl/smac にアクセスします。このタスクはもともとM. Samvelyanら[2]によって提案されたもので、2~27のエージェント数を持つ23の実験マップを提供しています。ゲームに勝つためには、エージェントが協力して敵エージェントを倒す必要があります。このタスクが発表されて以来、古典的なアルゴリズムQMix[6]や最近発表されたRODE[7]など、多くの研究者がその特性に基づいたアルゴリズム研究を行ってきました。 StarCraftII はバージョンアップを重ねており、バージョン間でパフォーマンスに違いがあるため、この論文では最新バージョンの SC2.4.10 を使用していることに特に注意してください。

[[385520]]

図2: StarCraftII環境の代表的な2つのマップ: Corridorと2c vs. 64zg

3つ目の環境は、2019年にNolan Bardら[3]が提案した純粋に協調的なタスクHanabiである(ソースコード:
(https://github.com/deepmind/hanabi-learning-environment)Hanabiはターン制のカードゲームで、各ラウンドでカードをプレイできるのは1人のプレイヤーだけです。これまでのマルチエージェントタスクと比較して、Hanabiの重要な特徴は純粋な協力です。各プレイヤーは他のプレイヤーの意図を推論し、ポイントを獲得するために協力を完了する必要があります。Hanabiのプレイヤー数は2〜5人です。図3は4人プレイヤーのタスク図です。興味のある読者は自分でプレイしてみてください。

図3: 4人用Hanabi-Fullタスクの模式図

実験結果

まず、論文に記載されている実験結果を見てみましょう。論文に記載されているすべての実験は、256 GB のメモリ、64 コアの CPU、GeForce RTX 3090 24GB グラフィック カードを搭載したホスト コンピューターで完了したことに注意してください。さらに研究者らは、本論文のアルゴリズムはすべて微調整されているため、本論文で再現された実験結果の一部は元の論文よりも優れているだろうと述べています。

(1)MPE環境

図4は、MPEにおけるさまざまなアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較を示しています。IPPO(Independent PPO)は、批評家が分散価値関数を学習することを意味します。つまり、批評家とアクターの入力はローカル観測です。IPPOとMAPPOのハイパーパラメータは一致しています。MADDPG[5]は、MARL分野で非常に人気のあるオフポリシーアルゴリズムであり、MPE用に開発されたアルゴリズムでもあります。QMix[6]は、StarCraftII用に開発されたMARLアルゴリズムであり、StarCraftIIでよく使用されるベースラインでもあります。

図4からわかるように、MAPPOは他のアルゴリズムと比較して、データサンプル効率とパフォーマンスが同等であるだけでなく(図(a))、アルゴリズム操作効率も大幅に高くなっています(図(b))。

図4: MPEにおける異なるアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較

(2)スタークラフトII環境

表1は、MAPPOとIPPO、QMix、およびRODEがStarCraftII用に開発したSOTAアルゴリズムとの勝率比較を示しています。10Mデータに切り捨てた場合、MAPPOの勝率は19/23マップでSOTAに達しました。3s5z vs. 3s6zを除いて、他のマップとSOTAアルゴリズムの差は5%未満です。3s5z vs. 3s6zは、10Mに切り捨てたときに完全に収束しませんでした。25Mに切り捨てると、勝率は91%に達する可能性があります。

図 5 は、StarCraftII のさまざまなアルゴリズムのデータ サンプル効率とアルゴリズム操作効率の比較を示しています。 MAPPO は実際に QMix や RODE と同等のデータ サンプル効率と、より高速なアルゴリズム操作効率を備えていることがわかります。 StarCraftII タスクの実際のトレーニングでは 8 つの並列環境のみが使用され、MPE タスクでは 128 の並列環境が使用されるため、図 5 のアルゴリズム実行効率は図 4 ほど変わりません。しかし、それでも MAPPO の驚くべきパフォーマンスと実行効率がわかります。

表 1: StarCraftII の 23 マップにおけるさまざまなアルゴリズムの勝率の比較。カット マークは、SOTA アルゴリズムと公平に比較​​するために、MAPPO と QMix が RODE と同じステップ数に切り捨てられていることを示しています。

(3)花火環境

SAD は、Hanabi タスク用に開発された SOTA アルゴリズムです。SA​​D のスコアは元の論文から取得されていることに注意してください。元の著者は 13 個のランダム シードを実行しましたが、各シードには約 100 億のデータが必要でした。一方、時間の制約により、MAPPO は 4 個のランダム シードのみを実行しましたが、各シードには約 72 億のデータが必要でした。表 2 から、MAPPO は依然として SAD に匹敵するスコアを達成できることがわかります。

表2: 2人用Hanabi-FullタスクにおけるMAPPOとSADスコアの比較。

5つのヒント

論文に記載されている実験結果を読んだ後、元の質問に戻りましょう。MAPPO を正しく使用しましたか?

研究者らは、マルチエージェントタスクはシングルエージェントタスクとは大きく異なるものの、入力正規化、値クリップ、最大勾配ノルムクリップ、直交初期化、GAE 正規化など、他のシングルエージェントタスクで以前に提供された PPO 実装の提案は依然として非常に有用であることを発見しました。しかし、研究者らは、それだけでなく、MARL フィールドや見落とされがちなその他の要因についても 5 つの追加提案を行っています。

値の正規化: 研究者は PopArt を使用して値を正規化し、PopArt の使用は有害ではなく有益であると指摘しました。

エージェント固有のグローバル状態: エージェント固有のグローバル情報を使用して、グローバル情報の省略と過剰な次元性を回避します。研究者らが、StarCraft II の元のグローバル情報には情報の欠落があり、エージェントのローカル観測よりも情報が少ないことを発見したことは特筆に値します。これは、MAPPO を StarCraft II に直接適用するとパフォーマンスが低下する重要な理由でもあります。

トレーニング データの使用: 単純なタスクの場合は 15 のトレーニング エポックが推奨されますが、より難しいタスクの場合は 10 または 5 のトレーニング エポックを試してください。さらに、トレーニングのためにデータを多数の小さなバッチ (ミニバッチ) に分割するのではなく、トレーニング データのバッチ全体を使用するようにしてください。

アクション マスキング: マルチエージェント タスクでは、エージェントが特定のアクションを実行できないことがよくあります。これらの無効なアクションは、アクション確率の計算に参加しないように、フォワード実行とバックプロパゲーションの両方でマスクすることをお勧めします。

デス マスキング: マルチエージェント タスクでは、エージェントまたは一部のエージェントが途中で死亡することがよくあります (StarCraftII など)。エージェントが死亡した場合、そのエージェント ID のみが保持され、他の情報は保護されて、より正確な状態値関数を学習します。

より詳しい実験の詳細と分析については、原著論文を参照してください。

<<:  AI時代に誰かが密かにあなたの顔を真似している

>>:  手紙を開かずに読むことはできますか? MITのX線技術がネイチャー誌に掲載される

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIはリモートワークがもたらす企業文化の課題を解決するのに役立つ

2019年、MIT Sloan Management ReviewとGlassdoorが共同でCul...

原理から応用まで: ロジスティック回帰アルゴリズムの簡単な説明

ロジスティック回帰は、バイナリ分類タスクで最も一般的に使用される機械学習アルゴリズムの 1 つです。...

自分でゴミを分別できるスマートゴミ箱が登場するまで、どれくらい時間がかかるのでしょうか?

あなたの市では今日から「ゴミの分別」が始まりましたか?上海が先導して実証を進め、北京、天津、重慶、成...

テクノロジーフロンティア | 昆虫はIoT AIの未来となるか?

研究者たちは、特定の昆虫の神経系の機能が、決定論的、確率的、揮発性、不揮発性メモリの機能とどのように...

デジタルテクノロジーは小売業界をどのように変えているのでしょうか?

デジタル技術は私たちが暮らす世界のあらゆる側面を変えており、小売店は消費者がこの変化を経験する主な場...

「ロボット革命」は人類社会の発展にどのような影響を与えるのでしょうか?

世界経済フォーラムが最近発表した報告書によると、2025年までに世界の仕事の半分はロボットによって行...

2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである

正月休みが終わり、心身ともに仕事に復帰できましたか?新年を迎え、私のように、お金を稼ぐために働きたい...

...

2019 年のインターネット キャンパス採用の給与が発表されました。いくらもらえるか見てみましょう!

2019年秋学期のキャンパスリクルートメントは終了に近づいています。近年、特にインターネット業界で...

2021 年を迎えるにあたり、人気の GNN はどのアプリケーション分野で存在感を発揮するのでしょうか?

近年、グラフ構造の強力な表現力により、機械学習の手法を用いたグラフ解析の研究が注目を集めています。グ...

...

「アルゴリズム」の混乱にどう向き合うか?

「アルゴリズム」の問題について困惑している人から手紙を受け取りました:私はネットワーク専攻なのでソ...

テルアビブ大学は、SOTAメソッドとアーキテクチャの新たな進歩を完全に理解するためにStyleGANを要約しました。

GAN の高解像度画像を生成する能力は、画像合成および処理の分野に革命をもたらしています。 201...

...