マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか?

マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか?

清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに一切変更を加えずに、MAPPO (マルチエージェント PPO) が 3 つの代表的なマルチエージェントタスク (Multi-Agent Particle World、StarCraftII、Hanabi) で SOTA アルゴリズムに匹敵するパフォーマンスを達成したことが判明しました。

近年、マルチエージェント強化学習(MARL)は飛躍的な進歩を遂げています。たとえば、DeepMindが開発したAlphaStarは、StarCraft IIでプロのStarCraftプレイヤーに勝利し、人間のプレイヤーの99.8%を超えました。OpenAI FiveはDOTA2で世界チャンピオンチームを何度も破り、eスポーツ大会でチャンピオンを破った最初の人工知能システムになりました。また、シミュレーションされた物理環境でかくれんぼをしながら、人間のように道具を使えるエージェントを訓練しました。私たちが言及したエージェントのほとんどは、オンポリシーアルゴリズム(IMPALA[8]など)を使用してトレーニングされており、高度な並列処理と膨大な計算能力のサポートが必要です。たとえば、OpenAI Fiveは、データサンプルを収集してネットワークをトレーニングするために、128,000個のCPUと256個のP100 GPUを消費しました。

しかし、ほとんどの学術機関にとって、これほどの規模のコンピューティング リソースを備えることは困難です。そのため、MARL分野では、オンポリシーアルゴリズム(PPO[3]など)と比較して、オフポリシーアルゴリズム(MADDPG[5]、QMix[6]など)は、コンピューティングリソースが限られている場合にサンプリング効率が高いため、インテリジェントエージェントのトレーニングに適しているというコンセンサスがほぼ得られています。また、特定のドメイン固有の問題を解決するために、一連のSOTAアルゴリズムも進化してきました(SAD[9]、RODE[7]など)。

しかし、清華大学とカリフォルニア大学バークレー校の研究者は論文の中で、この従来の認識に対して異なる見解を提示しました。MARLアルゴリズムでは、データサンプル効率(サンプル効率)とアルゴリズム操作効率(実時間実行効率)を総合的に考慮する必要があるというものです。計算リソースが限られている状況では、オフポリシー アルゴリズムと比較して、オンポリシー アルゴリズムである MAPPO (マルチエージェント PPO) は、アルゴリズム操作効率が大幅に高く、データ サンプル効率も同等 (またはそれ以上) です。興味深いことに、研究者たちは、アルゴリズムやネットワーク アーキテクチャに変更を加えずに、SOTA アルゴリズムに匹敵するパフォーマンスを達成するには、MAPPO の最小限のハイパーパラメータ検索のみが必要であることを発見しました。さらに、MAPPOのパフォーマンスを向上させるための5つの重要な提案が示され、最適化されたMARLアルゴリズムのソースコードセットがオープンソース化されました(コードアドレス:
https://github.com/marlbenchmark/on-policy)。

したがって、MARL アルゴリズムがうまく機能していない場合は、この研究を参考にするとよいかもしれません。適切なアルゴリズムを使用していない可能性があります。MARL アルゴリズムの研究に重点を置いている場合は、ベースラインとして MAPPO を使用してみると、タスクのベンチマークが向上する可能性があります。MARL 研究の入門段階にある場合は、このソースコードセットを入手する価値があります。よく開発されており、使いやすいと言われています。この論文は、清華大学の王宇、呉毅らがカリフォルニア大学バークレー校の研究者と共同で完成させた。研究者たちは、さらに最適化されたアルゴリズムとタスクをオープンソース化し続ける予定です(ウェアハウスの指示:
(https://github.com/marlbenchmark) より

論文リンク:
https://arxiv.org/abs/2103.01955

MAPPOとは

PPO(Proximal Policy Optimization)[4]は現在非常に人気のあるシングルエージェント強化学習アルゴリズムであり、OpenAIが実験を行う際に選択するアルゴリズムでもあり、その幅広い適用性を示しています。 PPO は、古典的なアクター・クリティック・アーキテクチャを採用しています。このうち、アクターネットワーク(ポリシーネットワークとも呼ばれる)は、ローカル観測(obs)を受信して​​アクション(action)を出力します。一方、批評家ネットワーク(バリューネットワークとも呼ばれる)は、状態(state)を受信して​​アクション値(value)を出力し、アクターネットワークの出力アクションの品質を評価するために使用されます。直感的には、審査員(評論家)が俳優(俳優)の演技(行為)に点数(価値)をつけることだと理解できます。 MAPPO (マルチエージェント PPO) は、マルチエージェント タスクに適用される PPO アルゴリズムのバリエーションです。これもアクター クリティック アーキテクチャを使用しますが、違いは、クリティックが集中型の価値関数を学習する点です。つまり、クリティックは他のエージェントや環境に関する情報を含むグローバル情報を観察できます。

実験環境

次に、本論文における実験環境について紹介します。この論文では、代表的な協調型マルチエージェントタスクを 3 つ選択しました。協調型タスクを選択した重要な理由は、評価指標が明確で、さまざまなアルゴリズムを比較しやすくなることです。

最初の環境は、OpenAIのMulti-agent Particle World (MPE)タスクです(ソースコードの指示:
[1]は、軽量な環境と抽象的で多様なタスク設定により、MARLアルゴリズムを迅速に検証するためのテストプラットフォームとして好まれています。図 1 に示すように、MPE には Spread、Comm、Reference という 3 つの共同タスクがあります。

図1: MPE環境の3つのサブタスク: Spread、Comm、Reference

2番目の環境は、MARLフィールドの有名なStarCraftIIミッションです(ソースコード:
図 2 に示すように、https://github.com/oxwhirl/smac にアクセスします。このタスクはもともとM. Samvelyanら[2]によって提案されたもので、2~27のエージェント数を持つ23の実験マップを提供しています。ゲームに勝つためには、エージェントが協力して敵エージェントを倒す必要があります。このタスクが発表されて以来、古典的なアルゴリズムQMix[6]や最近発表されたRODE[7]など、多くの研究者がその特性に基づいたアルゴリズム研究を行ってきました。 StarCraftII はバージョンアップを重ねており、バージョン間でパフォーマンスに違いがあるため、この論文では最新バージョンの SC2.4.10 を使用していることに特に注意してください。

[[385520]]

図2: StarCraftII環境の代表的な2つのマップ: Corridorと2c vs. 64zg

3つ目の環境は、2019年にNolan Bardら[3]が提案した純粋に協調的なタスクHanabiである(ソースコード:
(https://github.com/deepmind/hanabi-learning-environment)Hanabiはターン制のカードゲームで、各ラウンドでカードをプレイできるのは1人のプレイヤーだけです。これまでのマルチエージェントタスクと比較して、Hanabiの重要な特徴は純粋な協力です。各プレイヤーは他のプレイヤーの意図を推論し、ポイントを獲得するために協力を完了する必要があります。Hanabiのプレイヤー数は2〜5人です。図3は4人プレイヤーのタスク図です。興味のある読者は自分でプレイしてみてください。

図3: 4人用Hanabi-Fullタスクの模式図

実験結果

まず、論文に記載されている実験結果を見てみましょう。論文に記載されているすべての実験は、256 GB のメモリ、64 コアの CPU、GeForce RTX 3090 24GB グラフィック カードを搭載したホスト コンピューターで完了したことに注意してください。さらに研究者らは、本論文のアルゴリズムはすべて微調整されているため、本論文で再現された実験結果の一部は元の論文よりも優れているだろうと述べています。

(1)MPE環境

図4は、MPEにおけるさまざまなアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較を示しています。IPPO(Independent PPO)は、批評家が分散価値関数を学習することを意味します。つまり、批評家とアクターの入力はローカル観測です。IPPOとMAPPOのハイパーパラメータは一致しています。MADDPG[5]は、MARL分野で非常に人気のあるオフポリシーアルゴリズムであり、MPE用に開発されたアルゴリズムでもあります。QMix[6]は、StarCraftII用に開発されたMARLアルゴリズムであり、StarCraftIIでよく使用されるベースラインでもあります。

図4からわかるように、MAPPOは他のアルゴリズムと比較して、データサンプル効率とパフォーマンスが同等であるだけでなく(図(a))、アルゴリズム操作効率も大幅に高くなっています(図(b))。

図4: MPEにおける異なるアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較

(2)スタークラフトII環境

表1は、MAPPOとIPPO、QMix、およびRODEがStarCraftII用に開発したSOTAアルゴリズムとの勝率比較を示しています。10Mデータに切り捨てた場合、MAPPOの勝率は19/23マップでSOTAに達しました。3s5z vs. 3s6zを除いて、他のマップとSOTAアルゴリズムの差は5%未満です。3s5z vs. 3s6zは、10Mに切り捨てたときに完全に収束しませんでした。25Mに切り捨てると、勝率は91%に達する可能性があります。

図 5 は、StarCraftII のさまざまなアルゴリズムのデータ サンプル効率とアルゴリズム操作効率の比較を示しています。 MAPPO は実際に QMix や RODE と同等のデータ サンプル効率と、より高速なアルゴリズム操作効率を備えていることがわかります。 StarCraftII タスクの実際のトレーニングでは 8 つの並列環境のみが使用され、MPE タスクでは 128 の並列環境が使用されるため、図 5 のアルゴリズム実行効率は図 4 ほど変わりません。しかし、それでも MAPPO の驚くべきパフォーマンスと実行効率がわかります。

表 1: StarCraftII の 23 マップにおけるさまざまなアルゴリズムの勝率の比較。カット マークは、SOTA アルゴリズムと公平に比較​​するために、MAPPO と QMix が RODE と同じステップ数に切り捨てられていることを示しています。

(3)花火環境

SAD は、Hanabi タスク用に開発された SOTA アルゴリズムです。SA​​D のスコアは元の論文から取得されていることに注意してください。元の著者は 13 個のランダム シードを実行しましたが、各シードには約 100 億のデータが必要でした。一方、時間の制約により、MAPPO は 4 個のランダム シードのみを実行しましたが、各シードには約 72 億のデータが必要でした。表 2 から、MAPPO は依然として SAD に匹敵するスコアを達成できることがわかります。

表2: 2人用Hanabi-FullタスクにおけるMAPPOとSADスコアの比較。

5つのヒント

論文に記載されている実験結果を読んだ後、元の質問に戻りましょう。MAPPO を正しく使用しましたか?

研究者らは、マルチエージェントタスクはシングルエージェントタスクとは大きく異なるものの、入力正規化、値クリップ、最大勾配ノルムクリップ、直交初期化、GAE 正規化など、他のシングルエージェントタスクで以前に提供された PPO 実装の提案は依然として非常に有用であることを発見しました。しかし、研究者らは、それだけでなく、MARL フィールドや見落とされがちなその他の要因についても 5 つの追加提案を行っています。

値の正規化: 研究者は PopArt を使用して値を正規化し、PopArt の使用は有害ではなく有益であると指摘しました。

エージェント固有のグローバル状態: エージェント固有のグローバル情報を使用して、グローバル情報の省略と過剰な次元性を回避します。研究者らが、StarCraft II の元のグローバル情報には情報の欠落があり、エージェントのローカル観測よりも情報が少ないことを発見したことは特筆に値します。これは、MAPPO を StarCraft II に直接適用するとパフォーマンスが低下する重要な理由でもあります。

トレーニング データの使用: 単純なタスクの場合は 15 のトレーニング エポックが推奨されますが、より難しいタスクの場合は 10 または 5 のトレーニング エポックを試してください。さらに、トレーニングのためにデータを多数の小さなバッチ (ミニバッチ) に分割するのではなく、トレーニング データのバッチ全体を使用するようにしてください。

アクション マスキング: マルチエージェント タスクでは、エージェントが特定のアクションを実行できないことがよくあります。これらの無効なアクションは、アクション確率の計算に参加しないように、フォワード実行とバックプロパゲーションの両方でマスクすることをお勧めします。

デス マスキング: マルチエージェント タスクでは、エージェントまたは一部のエージェントが途中で死亡することがよくあります (StarCraftII など)。エージェントが死亡した場合、そのエージェント ID のみが保持され、他の情報は保護されて、より正確な状態値関数を学習します。

より詳しい実験の詳細と分析については、原著論文を参照してください。

<<:  AI時代に誰かが密かにあなたの顔を真似している

>>:  手紙を開かずに読むことはできますか? MITのX線技術がネイチャー誌に掲載される

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Uberの自動運転車による死亡事故の捜査に新たな進展:横断歩道の外を歩く歩行者を識別できない

最近、国家運輸安全委員会(NTSB)は、Uberの自動運転車による死亡事故に関する調査の新たな進展を...

ChatGPT以外の14の大規模言語モデル

翻訳者 | 李睿レビュー | Chonglou今日、多くの企業幹部は人工知能を将来の発展方向と見てお...

3分レビュー! 2021年12月の自動運転業界の開発動向を簡単に概観

チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされたが、数ヶ月の回復期...

Ant Group の大規模セマンティック知識管理における主要技術と実践

1. Ant Financial Knowledge Graph プラットフォームの紹介まず、ナレッ...

...

2023年の人工知能の進歩を、大きなモデルだけでなく考察する記事

2023年には、ビッグモデル間の激しい競争が繰り広げられるでしょう。これ以外に、AI分野ではどのよう...

Microsoft Bing Chat が Chrome と Safari で利用可能になりましたが、いくつかの制限があります

Microsoft の人工知能チャットボット Bing Chat が、Google Chrome お...

スマートテクノロジーを組み合わせて、地震災害を予防・軽減する新しい方法を生み出します!

再び5月12日。13年前の今日、マグニチュード8.0の地震が四川省汶川市を襲いました。この地震は地元...

インテリジェントオートメーションの台頭:デジタル時代のAI、ロボット工学、製造業

人工知能 (AI)、ロボット工学、自動化の融合により、生産性、効率性、革新の新しい時代が到来していま...

インターネットの大失敗: 破壊された破壊者

[[324391]]インターネットの破壊的イノベーションは、自らの業界から生まれることはありません...

今日のアルゴリズム: 文字列内の単語を反転する

[[423004]]文字列が与えられたら、文字列内の各単語を 1 つずつ逆にします。例1:入力: 「...

あなたはまだこれらの仕事をしていますか?マシンビジョンと人工知能により、今後10年間で失業することになるかもしれません

[[216406]]新しい技術の出現は、それに関わる人々の仕事を常に変えていきます。メインフレームコ...

51CTO副社長ヤン・ウェンフェイ氏:ChatGPTは非常に人気があり、将来的にはさらに強力なアプリケーションが登場するでしょう。

51CTO は 2005 年に設立され、テクノロジー学習とメディアを統合したプラットフォームです。...

...

ネットワークデータセキュリティ管理に関する新たな規制が導入される

顔は機密性の高い個人情報です。一度漏洩すると、個人や財産の安全に大きな損害を与え、公共の安全を脅かす...