上海交通大学のオープンソーストレーニングフレームワークは、大規模な集団ベースのマルチエージェント強化学習トレーニングをサポートします。

人口ベースのマルチエージェント深層強化学習 (PB-MARL) 手法は、StarCraft や Honor of Kings などのゲーム AI で実証されています。MALib は、PB-MARL 専用の最初のオープンソースの大規模並列トレーニングフレームワークです。 MALib は、さまざまな集団トレーニング方法 (セルフプレイ、PSRO、リーグトレーニングなど) をサポートし、一般的なマルチエージェント深層強化学習アルゴリズムを実装および最適化することで、トレーニング効率を大幅に向上させ、研究者の並列化作業負荷を軽減します。さらに、MALib は Ray の基盤となる分散フレームワークに基づいて、新しい集中型タスク分散モデルを実装します。一般的なマルチエージェント強化学習トレーニングフレームワーク (RLlib、PyMARL、OpenSpiel) と比較すると、同じハードウェア条件下でスループットとトレーニング速度が数倍向上します。現在、MALib は一般的なマルチエージェント環境 (StarCraft、Google Soccer、チェスやカードゲーム、マルチプレイヤー Atari など) に接続されており、将来的には自動運転やスマートグリッドなどのシナリオのサポートも提供される予定です。

プロジェクトのホームページ: https://malib.io。

ディープラーニングの分野では、コンピューティング能力は常に私たちの関心の焦点であり、人工知能アルゴリズムの実装に影響を与える重要な要素です。多くのアプリケーションシナリオでは、十分なコンピューティングパワーのサポートにより、アルゴリズムの提案、トレーニング、実装の効率が大幅に向上します。たとえば、OpenAI Five は数十億のパラメーターを使用し、毎日の GPU コンピューティング使用量は 770±50 ～ 820±50 PFlops/s です。深層強化学習の分野では、アプリケーションシナリオがシングルエージェントからマルチエージェントに拡大するにつれて、アルゴリズムソリューションの複雑さも飛躍的に増加し、コンピューティング能力の要件に新たな課題が生じ、より多くのコンピューティングリソースが必要になるようになりました。特に、扱う問題の規模や関与するエージェントの数が大きい場合、単一マシントレーニングアルゴリズムの実現可能性は大幅に低下します。

マルチエージェント強化学習は、グループ知能に関連する問題を解決することを目的としており、その研究ではグループ内のエージェント間の協力と対立が頻繁に行われます。群衆シミュレーション、自動運転、軍事シナリオにおけるドローン群の制御など、大規模なインテリジェントエージェントと複雑で多様な相互作用を伴う実際のミッションアプリケーションは数多くあります。

群衆シミュレーション (http://gamma.cs.unc.edu/CompAgent/imgs/sitterson3.jpg)。

[[412577]]

自動運転（https://github.com/huawei-noah/SMARTS/blob/master/docs/_static/smarts_envision.gif）。

ドローンの群れ (https://defensesystems.com/-/media/GIG/Defense-Systems/Web/2015/JanFeb/CODEdrones.png)。

アルゴリズムの観点から、このようなグループ問題を解決する重要な方法は、グループベースのマルチエージェント強化学習法であり、これは現段階で MALib の焦点でもあります。集団ベースのマルチエージェント強化学習 (PB-MARL) では、複数の戦略セットの相互作用が行われます。下の図は、一般的な意味での集団ベースのマルチエージェント強化学習アルゴリズムの主なプロセスを示しています。 PB-MARL アルゴリズムは、深層強化学習と動的集団選択方法 (ゲーム理論、進化戦略など) を組み合わせて、戦略セットを自動的に拡張します。 PB-MARL はこのようにして継続的に新しいインテリジェンスを生成することができ、リアルタイム意思決定ゲーム Dota2、StrarCraftII、カードタスク Leduc Poker などのいくつかの複雑なタスクで優れた結果を達成しています。しかし、実際の問題では、現在のマルチエージェント強化学習アルゴリズムとその応用の間にはまだギャップがあり、大規模なシナリオでのアルゴリズムのトレーニング効率は緊急に解決すべき問題です。集団アルゴリズムは本質的にマルチエージェントアルゴリズムと結合されているため、そのトレーニングプロセスには膨大なデータが必要であり、したがってその有効性を確保するには柔軟でスケーラブルなトレーニングフレームワークも必要です。

アルゴリズムのトレーニング効率を向上させるにはどうすればよいでしょうか?ディープラーニング技術に依存する多くの分野では、タスクの規模が大きくなり、モデルのパラメータが増えると、トレーニングの効率を向上させるために追加の技術を導入する必要があります。分散コンピューティングは、検討すべき最も直接的な方法です。マルチプロセスまたはマルチマシン方式により、アルゴリズムのコンピューティングリソースの使用率が向上し、アルゴリズムのトレーニングの効率が向上します。分散技術を深層強化学習の分野に応用することで、分散型深層強化学習の分野も生まれ、その研究の焦点にはコンピューティングフレームワークの設計や大規模な分散型強化学習アルゴリズムの開発などが含まれます。

近年、研究者は、大規模な深層強化学習アルゴリズムをより適切にトレーニングするために、アルゴリズムのインターフェースとシステム設計を抽象化することで、より複雑なリアルタイムのデータサンプリング、モデルのトレーニング、および推論の要件をサポートする、より専門的なトレーニングフレームワークを開発してきました。しかし、分散強化学習技術の発展は、集合知の問題には触れていないようです。実際、既存の分散強化学習フレームワークは、一般的なマルチエージェント強化学習アルゴリズムの分散コンピューティングサポートにはまったく不十分です。RLlib、Sample-Factory、SEED RL などの一般的な分散強化学習フレームワークはすべて、設計パターンでマルチエージェントタスクをシングルエージェントタスクとして扱い、マルチエージェントアルゴリズム間の異質性を無視しています。集中型トレーニング、ネットワークベースの分散アルゴリズム、通信機能を備えた共同アルゴリズムなど、エージェントの相互作用を重視する他の学習パラダイムに対する明示的なサポートはなく、アルゴリズムの実装とトレーニングのプロセスを簡素化するための対応する統合インターフェースが不足しています。したがって、研究者がより多くの種類のマルチエージェント強化学習アルゴリズムの分散トレーニングを検討したい場合、多くの場合、多くの追加のコーディング作業を行う必要があります。マルチエージェント強化学習アルゴリズムフレームワークの開発に関しては、既存の研究はアルゴリズムの実装に重点を置いており、大規模なシナリオでのアルゴリズムのスケーラビリティにはあまり注意を払っていないか、特定のシナリオ向けに設計されたアルゴリズムライブラリです。PyMARLやSMARTSなどのフレームワークは、専門分野のベンチマークとして機能する傾向があります。アルゴリズムの種類に関しては、ほとんどのフレームワークは包括的ではありません。そのため、マルチエージェント強化学習アルゴリズムフレームワークのサポートに関しては、アルゴリズムの実装、トレーニング、展開、テストのプロセスを結び付ける比較的包括的なフレームワークが常に不足していました。

私たちは、上記の 2 つの展開には少なくとも 2 つの主な理由があると考えています。(1) マルチエージェントアルゴリズム自体の構造的異質性が高く、アルゴリズムのインターフェイス実装の一貫性と再利用性が低いこと。(2) 一方、マルチエージェント分散アルゴリズムはまだ調査の初期段階にあります。さらに、分散展開の面では、既存の分散強化学習フレームワークは、よりフレンドリーで自然かつ直接的な独立した学習アルゴリズムをサポートします。機械学習分野における分散技術の一般的な応用と同様に、大規模マルチエージェント強化学習分野における分散技術のより深い応用を解決するには、アルゴリズムとフレームワークの両方が不可欠であり、両者は互いに補完し合います。

アルゴリズムの面では、グループベースのマルチエージェント強化学習法が重要なアプローチであり、これは現段階で MALib の焦点でもあります。集団ベースのマルチエージェント強化学習 (PB-MARL) では、複数の戦略セットの相互作用が行われます。下の図は、一般的な意味での集団ベースのマルチエージェント強化学習アルゴリズムの主なプロセスを示しています。 PB-MARL アルゴリズムは、深層強化学習と動的集団選択手法 (ゲーム理論、進化戦略など) を組み合わせて、戦略セットを自動拡張する点が特徴です。このようにして、PB-MARL は継続的に新しいインテリジェンスを生成し、リアルタイム意思決定ゲーム Dota2、StrarCraftII、カードタスク Leduc Poker などの複雑なタスクの解決において優れた結果を達成しました。

ただし、ポピュレーションアルゴリズムは本質的にマルチエージェントアルゴリズムと結合されているため、このタイプのアルゴリズムではトレーニングプロセス中に大量のデータが必要となり、その有効性を保証するために柔軟でスケーラブルなトレーニングフレームワークも必要になります。

論文リンク: https://arxiv.org/abs/2106.07551
GitHub: https://github.com/sjtu-marl/malib

MALib フレームワーク図

これらのニーズを満たすために、私たちは大規模なマルチエージェント強化学習アルゴリズムに次の3つの側面からソリューションを提供するMALibを提案しました: (1) 集中型タスクスケジューリング: トレーニングタスクの自動的かつ段階的な生成。ジョブプロセスのセミアクティブ実行により、トレーニングタスクの並列性が向上します。 (2) アクター-エバリュエーター-ラーナーモデル: データフローを分離して、複数のノードでの柔軟なデータストレージと分散のニーズに対応します。 (3) トレーニングレベルからのマルチエージェント強化学習の抽象化: 異なるトレーニングモード間でのマルチエージェントアルゴリズムの再利用率の向上を目指します。たとえば、DDPGまたはDQNは、集中型トレーニングモードに簡単に移植できます。

集中型タスクスケジューリングモデル（c）と従来の分散強化学習フレームワークスケジューリングモデルの比較：（a）完全分散型、（b）階層型

具体的には、MALib のフレームワーク機能は次のとおりです。

大規模な集団ベースのマルチエージェント強化トレーニングをサポートします。 StarCraft 2、Dota 2、Honor of Kingsなどのゲームで人間のトップレベルを超えるAIはすべて、大規模な集団ベースのマルチエージェント強化学習トレーニングの恩恵を受けていますが、関連する研究やアプリケーションをサポートするオープンソースの一般的なフレームワークは現在存在しません。このシナリオでは、MALib は Ray の分散実行フレームワークに基づいて柔軟かつカスタマイズ可能なマルチエージェント強化学習並列トレーニングフレームワークを実装し、集団ベースのトレーニングに特別な最適化を行います。StarCraft 2 に似たリーグメカニズムを実装できるだけでなく、PSRO (Policy Space Response Oracle) などのより柔軟なアルゴリズムもサポートします。同時に、MALib は e スポーツゲームに加えて、スポーツ (Google Football)、自動運転、その他のシナリオのサポートも提供します。
MALib のサンプリングスループットは、既存のマルチエージェント強化学習フレームワークと比較して大幅に向上しています。提案された集中型タスク分散モデルを利用することで、同じ GPU コンピューティングノードで UC Berkeley RISELab が開発したよく知られた汎用フレームワーク RLlib と比較して、MALib のスループットは最大サンプリング効率で 15 倍に増加し、高度に最適化された SOTA フレームワーク SampleFactory と比較してシステムスループットはほぼ 100% 増加します。純粋な CPU 環境での MALib のスループットの利点はさらに 450% 近くに拡大します。同様のアルゴリズムのトレーニング速度は、DeepMind が開発した open spiel の 3 倍以上です。
マルチエージェント強化学習アルゴリズムに対する最も包括的なサポート。トレーニングパラダイムレベルでは、MALib は同期/非同期、集中/分散モードを使用して、さまざまな種類のマルチエージェント強化学習アルゴリズムのトレーニングを抽象化し、統合された AgentInterface を通じて、独立した学習者、集中トレーニングの分散実行、自己再生、Policy Space Response Oracle (PSRO) などのアルゴリズムを実装します。同時に、もともと並列非同期トレーニングをサポートしていないアルゴリズムの場合、MALib を使用して並列サンプリングとトレーニングを高速化することもできます。

部分的なトレーニング効果

既存の分散強化学習フレームワークと比較しました。MADDPG を例にとると、下の図は、マルチエージェント粒子環境でさまざまな並列度でシンプルスプレッドタスクをトレーニングする学習曲線を示しています。

MADDPG のトレーニングのパフォーマンスを RLlib と比較します。

比較フレームワークは RLlib です。ワーカーの数が増えるにつれて、RLlib のトレーニングはますます不安定になりますが、MALib のパフォーマンスは安定したままです。 StarCraftII でのいくつかの実験など、より複雑な環境を含めて、PyMARL の実装と QMIX アルゴリズムを 80% の勝率までトレーニングするのにかかる時間を比較しました。MALib では効率が大幅に向上しています (ワーカー数は 32 に設定されています)。

恒星間ミッションにおける PyMARL との効率の比較。

一方、私たちはトレーニングプロセスのサンプリング効率についてより懸念しています。また、他の分散強化学習フレームワークとスループットを比較しました。Atari ゲームのマルチエージェントバージョンでは、MALib はスループットとスケーラビリティの両方で優れたパフォーマンスを示しました。

StarCraft およびマルチエージェント Atari タスクにおけるさまざまなフレームワークのスループット比較。

現在、私たちのプロジェクトは GitHub (https://github.com/sjtu-marl/malib) でオープンソース化されており、より多くの機能が積極的に開発されています。ぜひご利用いただき、改善のための貴重なご提案をお寄せください。同時に、プロジェクト開発への参加にご興味がございましたら、ぜひご連絡ください！連絡先：[email protected]。

チームについて

このプロジェクトは、上海交通大学とユニバーシティ・カレッジ・ロンドン（UCL）が共同で設立したマルチエージェント強化学習研究チームによって開発されました。 MALibプロジェクトは、主に上海交通大学のウェン・イン助教授の指導の下で開発されました。中心となる開発メンバーは、上海交通大学博士課程3年生の周明、ACMクラスの学部4年生の万子宇、博士課程1年生の王漢静、客員研究員のウェン・ムニン、ACMクラスの学部3年生の呉潤哲です。上海交通大学の張維南准教授とロンドン大学ユニバーシティ・カレッジの楊耀東博士と王軍教授が共同で指導しました。

チームは長年にわたり、理論アルゴリズム、システム、アプリケーションという 3 つのレベルから、オープンで現実的かつ動的なマルチインテリジェンスシナリオにおけるインテリジェントな意思決定に関する研究に取り組んできました。理論チームの中核メンバーは、人工知能と機械学習に関するトップカンファレンスでマルチエージェント強化学習に関する50以上の論文を発表し、CoRL 2020 Best System Paper AwardとAAMAS 2021 Blue Sky Track Best Paper Awardを受賞しています。システム面では、マルチエージェント強化学習集団トレーニングシステムであるMALibのほか、SMARTS、CityFlow、MAgentなどの大規模エージェント強化学習シミュレーションエンジンを開発しており、Githubで2,000以上のスターを獲得しています。さらに、チームは、ゲーム、自動運転、検索、推奨などのシナリオで強化学習技術を実際に応用した経験を持っています。

<<: Google、少量のサンプル学習と会話で記事を書き換えられるAIライティングアシスタントをリリース

>>: インドの農業変革における人工知能の役割