マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか?

マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか?

清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに一切変更を加えずに、MAPPO (マルチエージェント PPO) が 3 つの代表的なマルチエージェントタスク (Multi-Agent Particle World、StarCraftII、Hanabi) で SOTA アルゴリズムに匹敵するパフォーマンスを達成したことが判明しました。

近年、マルチエージェント強化学習(MARL)は飛躍的な進歩を遂げています。たとえば、DeepMindが開発したAlphaStarは、StarCraft IIでプロのStarCraftプレイヤーに勝利し、人間のプレイヤーの99.8%を超えました。OpenAI FiveはDOTA2で世界チャンピオンチームを何度も破り、eスポーツ大会でチャンピオンを破った最初の人工知能システムになりました。また、シミュレーションされた物理環境でかくれんぼをしながら、人間のように道具を使えるエージェントを訓練しました。私たちが言及したエージェントのほとんどは、オンポリシーアルゴリズム(IMPALA[8]など)を使用してトレーニングされており、高度な並列処理と膨大な計算能力のサポートが必要です。たとえば、OpenAI Fiveは、データサンプルを収集してネットワークをトレーニングするために、128,000個のCPUと256個のP100 GPUを消費しました。

しかし、ほとんどの学術機関にとって、これほどの規模のコンピューティング リソースを備えることは困難です。そのため、MARL分野では、オンポリシーアルゴリズム(PPO[3]など)と比較して、オフポリシーアルゴリズム(MADDPG[5]、QMix[6]など)は、コンピューティングリソースが限られている場合にサンプリング効率が高いため、インテリジェントエージェントのトレーニングに適しているというコンセンサスがほぼ得られています。また、特定のドメイン固有の問題を解決するために、一連のSOTAアルゴリズムも進化してきました(SAD[9]、RODE[7]など)。

しかし、清華大学とカリフォルニア大学バークレー校の研究者は論文の中で、この従来の認識に対して異なる見解を提示しました。MARLアルゴリズムでは、データサンプル効率(サンプル効率)とアルゴリズム操作効率(実時間実行効率)を総合的に考慮する必要があるというものです。計算リソースが限られている状況では、オフポリシー アルゴリズムと比較して、オンポリシー アルゴリズムである MAPPO (マルチエージェント PPO) は、アルゴリズム操作効率が大幅に高く、データ サンプル効率も同等 (またはそれ以上) です。興味深いことに、研究者たちは、アルゴリズムやネットワーク アーキテクチャに変更を加えずに、SOTA アルゴリズムに匹敵するパフォーマンスを達成するには、MAPPO の最小限のハイパーパラメータ検索のみが必要であることを発見しました。さらに、MAPPOのパフォーマンスを向上させるための5つの重要な提案が示され、最適化されたMARLアルゴリズムのソースコードセットがオープンソース化されました(コードアドレス:
https://github.com/marlbenchmark/on-policy)。

したがって、MARL アルゴリズムがうまく機能していない場合は、この研究を参考にするとよいかもしれません。適切なアルゴリズムを使用していない可能性があります。MARL アルゴリズムの研究に重点を置いている場合は、ベースラインとして MAPPO を使用してみると、タスクのベンチマークが向上する可能性があります。MARL 研究の入門段階にある場合は、このソースコードセットを入手する価値があります。よく開発されており、使いやすいと言われています。この論文は、清華大学の王宇、呉毅らがカリフォルニア大学バークレー校の研究者と共同で完成させた。研究者たちは、さらに最適化されたアルゴリズムとタスクをオープンソース化し続ける予定です(ウェアハウスの指示:
(https://github.com/marlbenchmark) より

論文リンク:
https://arxiv.org/abs/2103.01955

MAPPOとは

PPO(Proximal Policy Optimization)[4]は現在非常に人気のあるシングルエージェント強化学習アルゴリズムであり、OpenAIが実験を行う際に選択するアルゴリズムでもあり、その幅広い適用性を示しています。 PPO は、古典的なアクター・クリティック・アーキテクチャを採用しています。このうち、アクターネットワーク(ポリシーネットワークとも呼ばれる)は、ローカル観測(obs)を受信して​​アクション(action)を出力します。一方、批評家ネットワーク(バリューネットワークとも呼ばれる)は、状態(state)を受信して​​アクション値(value)を出力し、アクターネットワークの出力アクションの品質を評価するために使用されます。直感的には、審査員(評論家)が俳優(俳優)の演技(行為)に点数(価値)をつけることだと理解できます。 MAPPO (マルチエージェント PPO) は、マルチエージェント タスクに適用される PPO アルゴリズムのバリエーションです。これもアクター クリティック アーキテクチャを使用しますが、違いは、クリティックが集中型の価値関数を学習する点です。つまり、クリティックは他のエージェントや環境に関する情報を含むグローバル情報を観察できます。

実験環境

次に、本論文における実験環境について紹介します。この論文では、代表的な協調型マルチエージェントタスクを 3 つ選択しました。協調型タスクを選択した重要な理由は、評価指標が明確で、さまざまなアルゴリズムを比較しやすくなることです。

最初の環境は、OpenAIのMulti-agent Particle World (MPE)タスクです(ソースコードの指示:
[1]は、軽量な環境と抽象的で多様なタスク設定により、MARLアルゴリズムを迅速に検証するためのテストプラットフォームとして好まれています。図 1 に示すように、MPE には Spread、Comm、Reference という 3 つの共同タスクがあります。

図1: MPE環境の3つのサブタスク: Spread、Comm、Reference

2番目の環境は、MARLフィールドの有名なStarCraftIIミッションです(ソースコード:
図 2 に示すように、https://github.com/oxwhirl/smac にアクセスします。このタスクはもともとM. Samvelyanら[2]によって提案されたもので、2~27のエージェント数を持つ23の実験マップを提供しています。ゲームに勝つためには、エージェントが協力して敵エージェントを倒す必要があります。このタスクが発表されて以来、古典的なアルゴリズムQMix[6]や最近発表されたRODE[7]など、多くの研究者がその特性に基づいたアルゴリズム研究を行ってきました。 StarCraftII はバージョンアップを重ねており、バージョン間でパフォーマンスに違いがあるため、この論文では最新バージョンの SC2.4.10 を使用していることに特に注意してください。

[[385520]]

図2: StarCraftII環境の代表的な2つのマップ: Corridorと2c vs. 64zg

3つ目の環境は、2019年にNolan Bardら[3]が提案した純粋に協調的なタスクHanabiである(ソースコード:
(https://github.com/deepmind/hanabi-learning-environment)Hanabiはターン制のカードゲームで、各ラウンドでカードをプレイできるのは1人のプレイヤーだけです。これまでのマルチエージェントタスクと比較して、Hanabiの重要な特徴は純粋な協力です。各プレイヤーは他のプレイヤーの意図を推論し、ポイントを獲得するために協力を完了する必要があります。Hanabiのプレイヤー数は2〜5人です。図3は4人プレイヤーのタスク図です。興味のある読者は自分でプレイしてみてください。

図3: 4人用Hanabi-Fullタスクの模式図

実験結果

まず、論文に記載されている実験結果を見てみましょう。論文に記載されているすべての実験は、256 GB のメモリ、64 コアの CPU、GeForce RTX 3090 24GB グラフィック カードを搭載したホスト コンピューターで完了したことに注意してください。さらに研究者らは、本論文のアルゴリズムはすべて微調整されているため、本論文で再現された実験結果の一部は元の論文よりも優れているだろうと述べています。

(1)MPE環境

図4は、MPEにおけるさまざまなアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較を示しています。IPPO(Independent PPO)は、批評家が分散価値関数を学習することを意味します。つまり、批評家とアクターの入力はローカル観測です。IPPOとMAPPOのハイパーパラメータは一致しています。MADDPG[5]は、MARL分野で非常に人気のあるオフポリシーアルゴリズムであり、MPE用に開発されたアルゴリズムでもあります。QMix[6]は、StarCraftII用に開発されたMARLアルゴリズムであり、StarCraftIIでよく使用されるベースラインでもあります。

図4からわかるように、MAPPOは他のアルゴリズムと比較して、データサンプル効率とパフォーマンスが同等であるだけでなく(図(a))、アルゴリズム操作効率も大幅に高くなっています(図(b))。

図4: MPEにおける異なるアルゴリズムのデータサンプル効率とアルゴリズム操作効率の比較

(2)スタークラフトII環境

表1は、MAPPOとIPPO、QMix、およびRODEがStarCraftII用に開発したSOTAアルゴリズムとの勝率比較を示しています。10Mデータに切り捨てた場合、MAPPOの勝率は19/23マップでSOTAに達しました。3s5z vs. 3s6zを除いて、他のマップとSOTAアルゴリズムの差は5%未満です。3s5z vs. 3s6zは、10Mに切り捨てたときに完全に収束しませんでした。25Mに切り捨てると、勝率は91%に達する可能性があります。

図 5 は、StarCraftII のさまざまなアルゴリズムのデータ サンプル効率とアルゴリズム操作効率の比較を示しています。 MAPPO は実際に QMix や RODE と同等のデータ サンプル効率と、より高速なアルゴリズム操作効率を備えていることがわかります。 StarCraftII タスクの実際のトレーニングでは 8 つの並列環境のみが使用され、MPE タスクでは 128 の並列環境が使用されるため、図 5 のアルゴリズム実行効率は図 4 ほど変わりません。しかし、それでも MAPPO の驚くべきパフォーマンスと実行効率がわかります。

表 1: StarCraftII の 23 マップにおけるさまざまなアルゴリズムの勝率の比較。カット マークは、SOTA アルゴリズムと公平に比較​​するために、MAPPO と QMix が RODE と同じステップ数に切り捨てられていることを示しています。

(3)花火環境

SAD は、Hanabi タスク用に開発された SOTA アルゴリズムです。SA​​D のスコアは元の論文から取得されていることに注意してください。元の著者は 13 個のランダム シードを実行しましたが、各シードには約 100 億のデータが必要でした。一方、時間の制約により、MAPPO は 4 個のランダム シードのみを実行しましたが、各シードには約 72 億のデータが必要でした。表 2 から、MAPPO は依然として SAD に匹敵するスコアを達成できることがわかります。

表2: 2人用Hanabi-FullタスクにおけるMAPPOとSADスコアの比較。

5つのヒント

論文に記載されている実験結果を読んだ後、元の質問に戻りましょう。MAPPO を正しく使用しましたか?

研究者らは、マルチエージェントタスクはシングルエージェントタスクとは大きく異なるものの、入力正規化、値クリップ、最大勾配ノルムクリップ、直交初期化、GAE 正規化など、他のシングルエージェントタスクで以前に提供された PPO 実装の提案は依然として非常に有用であることを発見しました。しかし、研究者らは、それだけでなく、MARL フィールドや見落とされがちなその他の要因についても 5 つの追加提案を行っています。

値の正規化: 研究者は PopArt を使用して値を正規化し、PopArt の使用は有害ではなく有益であると指摘しました。

エージェント固有のグローバル状態: エージェント固有のグローバル情報を使用して、グローバル情報の省略と過剰な次元性を回避します。研究者らが、StarCraft II の元のグローバル情報には情報の欠落があり、エージェントのローカル観測よりも情報が少ないことを発見したことは特筆に値します。これは、MAPPO を StarCraft II に直接適用するとパフォーマンスが低下する重要な理由でもあります。

トレーニング データの使用: 単純なタスクの場合は 15 のトレーニング エポックが推奨されますが、より難しいタスクの場合は 10 または 5 のトレーニング エポックを試してください。さらに、トレーニングのためにデータを多数の小さなバッチ (ミニバッチ) に分割するのではなく、トレーニング データのバッチ全体を使用するようにしてください。

アクション マスキング: マルチエージェント タスクでは、エージェントが特定のアクションを実行できないことがよくあります。これらの無効なアクションは、アクション確率の計算に参加しないように、フォワード実行とバックプロパゲーションの両方でマスクすることをお勧めします。

デス マスキング: マルチエージェント タスクでは、エージェントまたは一部のエージェントが途中で死亡することがよくあります (StarCraftII など)。エージェントが死亡した場合、そのエージェント ID のみが保持され、他の情報は保護されて、より正確な状態値関数を学習します。

より詳しい実験の詳細と分析については、原著論文を参照してください。

<<:  AI時代に誰かが密かにあなたの顔を真似している

>>:  手紙を開かずに読むことはできますか? MITのX線技術がネイチャー誌に掲載される

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

プロセス産業におけるグリーン製造における人工知能の機会と課題

1. はじめにプロセス産業は原材料産業の一分野であり、国民経済にとって大きな意義を持っています。数十...

マルウェア検出のための機械学習

[[188537]] 1. はじめに機械学習は、コンピュータにデータから学習する能力を与え、現在イ...

人工知能は依然として人気があり、大学入試では3年連続で最も人気のある選択肢となっている。

百度がこのほど発表した「百度人気検索・2022年大学入試ビッグデータ」レポートによると、人工知能は3...

求人検索サイトIndeedの統計:AI採用は減速、求職者の関心は低下

6月末、わが国各省市で大学入試結果が次々と発表される中、学生の専攻選択は統計的な傾向に新たな波を起こ...

人気は高まり続け、医療AIは業界の爆発的な成長の重要なポイントに達している

現在、世界の注目は5Gに集中しているが、人工知能の発展も軽視できない。わが国では、継続的な優遇政策の...

MITの研究者はAIを使って自動運転車が赤信号でアイドリングを回避できるように支援する

ドライバーが毎回信号を直進できるように旅行を計画できたらどうなるでしょうか?これは、特に幸運な状況下...

上海は質の高い農業の発展を推進:科学技術設備の改善と無人農場の建設

農業の発展は人々の生存と社会の安定に関係しています。近年、農業需要の継続的な解放、農業労働力の継続的...

...

上級幹部との対話で洞察を得る - IBM アジア太平洋地域社長ブレンダ・ハーベイ氏による変革、クラウド コンピューティング、自動化に関する講演

調査データによると、過去18か月間、企業はさまざまな緊急事態に対応するために技術革新のペースを加速さ...

専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由

認証情報としての顔認識は、最新の正確で高速なテクノロジーを導入し、ほとんどのアクセス制御アプリケーシ...

2021 年のデジタル トランスフォーメーションの 10 大トレンド

2020 年に私たちがどうなるかは誰も予測できませんでした。過去 6 か月だけでも、過去 10 年間...

ディープラーニングの概要: パーセプトロンからディープネットワークまで

近年、人工知能の分野は再び活発化しており、伝統的な学術界に加え、Google、Microsoft、F...

5Gテクノロジーが人工知能の能力をどのように向上させるか

5Gは人工知能の可能性を解き放ちます。しかし、AI と 5G は私たちの日常のビジネス生活にどのよう...

世界に革命を起こす5つの新興技術

急速に進化するデジタル環境において、テクノロジーは私たちの生活を変え続け、私たちが可能だと思っていた...

人工知能開発の動向

ケビン・ケリー氏は「人工知能は人類社会を混乱させる次のものだ」と語った。 2020年は、全世界が前例...