上海交通大学のオープンソーストレーニングフレームワークは、大規模な集団ベースのマルチエージェント強化学習トレーニングをサポートします。

上海交通大学のオープンソーストレーニングフレームワークは、大規模な集団ベースのマルチエージェント強化学習トレーニングをサポートします。

人口ベースのマルチエージェント深層強化学習 (PB-MARL) 手法は、StarCraft や Honor of Kings などのゲーム AI で実証されています。MALib は、PB-MARL 専用の最初のオープンソースの大規模並列トレーニング フレームワークです。 MALib は、さまざまな集団トレーニング方法 (セルフプレイ、PSRO、リーグトレーニングなど) をサポートし、一般的なマルチエージェント深層強化学習アルゴリズムを実装および最適化することで、トレーニング効率を大幅に向上させ、研究者の並列化作業負荷を軽減します。さらに、MALib は Ray の基盤となる分散フレームワークに基づいて、新しい集中型タスク分散モデルを実装します。一般的なマルチエージェント強化学習トレーニング フレームワーク (RLlib、PyMARL、OpenSpiel) と比較すると、同じハードウェア条件下でスループットとトレーニング速度が数倍向上します。現在、MALib は一般的なマルチエージェント環境 (StarCraft、Google Soccer、チェスやカードゲーム、マルチプレイヤー Atari など) に接続されており、将来的には自動運転やスマートグリッドなどのシナリオのサポートも提供される予定です。

プロジェクトのホームページ: https://malib.io。

ディープラーニングの分野では、コンピューティング能力は常に私たちの関心の焦点であり、人工知能アルゴリズムの実装に影響を与える重要な要素です。多くのアプリケーション シナリオでは、十分なコンピューティング パワーのサポートにより、アルゴリズムの提案、トレーニング、実装の効率が大幅に向上します。たとえば、OpenAI Five は数十億のパラメーターを使用し、毎日の GPU コンピューティング使用量は 770±50 ~ 820±50 PFlops/s です。深層強化学習の分野では、アプリケーション シナリオがシングル エージェントからマルチ エージェントに拡大するにつれて、アルゴリズム ソリューションの複雑さも飛躍的に増加し、コンピューティング能力の要件に新たな課題が生じ、より多くのコンピューティング リソースが必要になるようになりました。特に、扱う問題の規模や関与するエージェントの数が大きい場合、単一マシントレーニングアルゴリズムの実現可能性は大幅に低下します。

マルチエージェント強化学習は、グループ知能に関連する問題を解決することを目的としており、その研究ではグループ内のエージェント間の協力と対立が頻繁に行われます。群衆シミュレーション、自動運転、軍事シナリオにおけるドローン群の制御など、大規模なインテリジェントエージェントと複雑で多様な相互作用を伴う実際のミッションアプリケーションは数多くあります。

群衆シミュレーション (http://gamma.cs.unc.edu/CompAgent/imgs/sitterson3.jpg)。

[[412577]]

自動運転(https://github.com/huawei-noah/SMARTS/blob/master/docs/_static/smarts_envision.gif)。

ドローンの群れ (https://defensesystems.com/-/media/GIG/Defense-Systems/Web/2015/JanFeb/CODEdrones.png)。

アルゴリズムの観点から、このようなグループ問題を解決する重要な方法は、グループベースのマルチエージェント強化学習法であり、これは現段階で MALib の焦点でもあります。集団ベースのマルチエージェント強化学習 (PB-MARL) では、複数の戦略セットの相互作用が行われます。下の図は、一般的な意味での集団ベースのマルチエージェント強化学習アルゴリズムの主なプロセスを示しています。 PB-MARL アルゴリズムは、深層強化学習と動的集団選択方法 (ゲーム理論、進化戦略など) を組み合わせて、戦略セットを自動的に拡張します。 PB-MARL はこのようにして継続的に新しいインテリジェンスを生成することができ、リアルタイム意思決定ゲーム Dota2、StrarCraftII、カードタスク Leduc Poker などのいくつかの複雑なタスクで優れた結果を達成しています。しかし、実際の問題では、現在のマルチエージェント強化学習アルゴリズムとその応用の間にはまだギャップがあり、大規模なシナリオでのアルゴリズムのトレーニング効率は緊急に解決すべき問題です。集団アルゴリズムは本質的にマルチエージェント アルゴリズムと結合されているため、そのトレーニング プロセスには膨大なデータが必要であり、したがってその有効性を確保するには柔軟でスケーラブルなトレーニング フレームワークも必要です。

アルゴリズムのトレーニング効率を向上させるにはどうすればよいでしょうか?ディープラーニング技術に依存する多くの分野では、タスクの規模が大きくなり、モデルのパラメータが増えると、トレーニングの効率を向上させるために追加の技術を導入する必要があります。分散コンピューティングは、検討すべき最も直接的な方法です。マルチプロセスまたはマルチマシン方式により、アルゴリズムのコンピューティング リソースの使用率が向上し、アルゴリズムのトレーニングの効率が向上します。分散技術を深層強化学習の分野に応用することで、分散型深層強化学習の分野も生まれ、その研究の焦点にはコンピューティング フレームワークの設計や大規模な分散型強化学習アルゴリズムの開発などが含まれます。

近年、研究者は、大規模な深層強化学習アルゴリズムをより適切にトレーニングするために、アルゴリズムのインターフェースとシステム設計を抽象化することで、より複雑なリアルタイムのデータサンプリング、モデルのトレーニング、および推論の要件をサポートする、より専門的なトレーニングフレームワークを開発してきました。しかし、分散強化学習技術の発展は、集合知の問題には触れていないようです。実際、既存の分散強化学習フレームワークは、一般的なマルチエージェント強化学習アルゴリズムの分散コンピューティングサポートにはまったく不十分です。RLlib、Sample-Factory、SEED RL などの一般的な分散強化学習フレームワークはすべて、設計パターンでマルチエージェントタスクをシングルエージェントタスクとして扱い、マルチエージェントアルゴリズム間の異質性を無視しています。集中型トレーニング、ネットワークベースの分散アルゴリズム、通信機能を備えた共同アルゴリズムなど、エージェントの相互作用を重視する他の学習パラダイムに対する明示的なサポートはなく、アルゴリズムの実装とトレーニングのプロセスを簡素化するための対応する統合インターフェースが不足しています。したがって、研究者がより多くの種類のマルチエージェント強化学習アルゴリズムの分散トレーニングを検討したい場合、多くの場合、多くの追加のコーディング作業を行う必要があります。マルチエージェント強化学習アルゴリズムフレームワークの開発に関しては、既存の研究はアルゴリズムの実装に重点を置いており、大規模なシナリオでのアルゴリズムのスケーラビリティにはあまり注意を払っていないか、特定のシナリオ向けに設計されたアルゴリズムライブラリです。PyMARLやSMARTSなどのフレームワークは、専門分野のベンチマークとして機能する傾向があります。アルゴリズムの種類に関しては、ほとんどのフレームワークは包括的ではありません。そのため、マルチエージェント強化学習アルゴリズム フレームワークのサポートに関しては、アルゴリズムの実装、トレーニング、展開、テストのプロセスを結び付ける比較的包括的なフレームワークが常に不足していました。

私たちは、上記の 2 つの展開には少なくとも 2 つの主な理由があると考えています。(1) マルチエージェント アルゴリズム自体の構造的異質性が高く、アルゴリズムのインターフェイス実装の一貫性と再利用性が低いこと。(2) 一方、マルチエージェント分散アルゴリズムはまだ調査の初期段階にあります。さらに、分散展開の面では、既存の分散強化学習フレームワークは、よりフレンドリーで自然かつ直接的な独立した学習アルゴリズムをサポートします。機械学習分野における分散技術の一般的な応用と同様に、大規模マルチエージェント強化学習分野における分散技術のより深い応用を解決するには、アルゴリズムとフレームワークの両方が不可欠であり、両者は互いに補完し合います。

アルゴリズムの面では、グループベースのマルチエージェント強化学習法が重要なアプローチであり、これは現段階で MALib の焦点でもあります。集団ベースのマルチエージェント強化学習 (PB-MARL) では、複数の戦略セットの相互作用が行われます。下の図は、一般的な意味での集団ベースのマルチエージェント強化学習アルゴリズムの主なプロセスを示しています。 PB-MARL アルゴリズムは、深層強化学習と動的集団選択手法 (ゲーム理論、進化戦略など) を組み合わせて、戦略セットを自動拡張する点が特徴です。このようにして、PB-MARL は継続的に新しいインテリジェンスを生成し、リアルタイム意思決定ゲーム Dota2、StrarCraftII、カードタスク Leduc Poker などの複雑なタスクの解決において優れた結果を達成しました。

ただし、ポピュレーション アルゴリズムは本質的にマルチエージェント アルゴリズムと結合されているため、このタイプのアルゴリズムではトレーニング プロセス中に大量のデータが必要となり、その有効性を保証するために柔軟でスケーラブルなトレーニング フレームワークも必要になります。

  • 論文リンク: https://arxiv.org/abs/2106.07551
  • GitHub: https://github.com/sjtu-marl/malib

MALib フレームワーク図

これらのニーズを満たすために、私たちは大規模なマルチエージェント強化学習アルゴリズムに次の3つの側面からソリューションを提供するMALibを提案しました: (1) 集中型タスクスケジューリング: トレーニングタスクの自動的かつ段階的な生成。ジョブプロセスのセミアクティブ実行により、トレーニングタスクの並列性が向上します。 (2) アクター-エバリュエーター-ラーナーモデル: データフローを分離して、複数のノードでの柔軟なデータストレージと分散のニーズに対応します。 (3) トレーニングレベルからのマルチエージェント強化学習の抽象化: 異なるトレーニングモード間でのマルチエージェントアルゴリズムの再利用率の向上を目指します。たとえば、DDPGまたはDQNは、集中型トレーニングモードに簡単に移植できます。

集中型タスクスケジューリングモデル(c)と従来の分散強化学習フレームワークスケジューリングモデルの比較:(a)完全分散型、(b)階層型

具体的には、MALib のフレームワーク機能は次のとおりです。

  • 大規模な集団ベースのマルチエージェント強化トレーニングをサポートします。 StarCraft 2、Dota 2、Honor of Kingsなどのゲームで人間のトップレベルを超えるAIはすべて、大規模な集団ベースのマルチエージェント強化学習トレーニングの恩恵を受けていますが、関連する研究やアプリケーションをサポートするオープンソースの一般的なフレームワークは現在存在しません。このシナリオでは、MALib は Ray の分散実行フレームワークに基づいて柔軟かつカスタマイズ可能なマルチエージェント強化学習並列トレーニング フレームワークを実装し、集団ベースのトレーニングに特別な最適化を行います。StarCraft 2 に似たリーグ メカニズムを実装できるだけでなく、PSRO (Policy Space Response Oracle) などのより柔軟なアルゴリズムもサポートします。同時に、MALib は e スポーツ ゲームに加えて、スポーツ (Google Football)、自動運転、その他のシナリオのサポートも提供します。
  • MALib のサンプリング スループットは、既存のマルチエージェント強化学習フレームワークと比較して大幅に向上しています。提案された集中型タスク分散モデルを利用することで、同じ GPU コンピューティング ノードで UC Berkeley RISELab が開発したよく知られた汎用フレームワーク RLlib と比較して、MALib のスループットは最大サンプリング効率で 15 倍に増加し、高度に最適化された SOTA フレームワーク SampleFactory と比較してシステム スループットはほぼ 100% 増加します。純粋な CPU 環境での MALib のスループットの利点はさらに 450% 近くに拡大します。同様のアルゴリズムのトレーニング速度は、DeepMind が開発した open spiel の 3 倍以上です。
  • マルチエージェント強化学習アルゴリズムに対する最も包括的なサポート。トレーニング パラダイム レベルでは、MALib は同期/非同期、集中/分散モードを使用して、さまざまな種類のマルチエージェント強化学習アルゴリズムのトレーニングを抽象化し、統合された AgentInterface を通じて、独立した学習者、集中トレーニングの分散実行、自己再生、Policy Space Response Oracle (PSRO) などのアルゴリズムを実装します。同時に、もともと並列非同期トレーニングをサポートしていないアルゴリズムの場合、MALib を使用して並列サンプリングとトレーニングを高速化することもできます。

部分的なトレーニング効果

既存の分散強化学習フレームワークと比較しました。MADDPG を例にとると、下の図は、マルチエージェント粒子環境でさまざまな並列度でシンプルスプレッドタスクをトレーニングする学習曲線を示しています。

MADDPG のトレーニングのパフォーマンスを RLlib と比較します。

比較フレームワークは RLlib です。ワーカーの数が増えるにつれて、RLlib のトレーニングはますます不安定になりますが、MALib のパフォーマンスは安定したままです。 StarCraftII でのいくつかの実験など、より複雑な環境を含めて、PyMARL の実装と QMIX アルゴリズムを 80% の勝率までトレーニングするのにかかる時間を比較しました。MALib では効率が大幅に向上しています (ワーカー数は 32 に設定されています)。

恒星間ミッションにおける PyMARL との効率の比較。

一方、私たちはトレーニング プロセスのサンプリング効率についてより懸念しています。また、他の分散強化学習フレームワークとスループットを比較しました。Atari ゲームのマルチエージェント バージョンでは、MALib はスループットとスケーラビリティの両方で優れたパフォーマンスを示しました。

StarCraft およびマルチエージェント Atari タスクにおけるさまざまなフレームワークのスループット比較。

現在、私たちのプロジェクトは GitHub (https://github.com/sjtu-marl/malib) でオープンソース化されており、より多くの機能が積極的に開発されています。ぜひご利用いただき、改善のための貴重なご提案をお寄せください。同時に、プロジェクト開発への参加にご興味がございましたら、ぜひご連絡ください!連絡先:[email protected]

チームについて

このプロジェクトは、上海交通大学とユニバーシティ・カレッジ・ロンドン(UCL)が共同で設立したマルチエージェント強化学習研究チームによって開発されました。 MALibプロジェクトは、主に上海交通大学のウェン・イン助教授の指導の下で開発されました。中心となる開発メンバーは、上海交通大学博士課程3年生の周明、ACMクラスの学部4年生の万子宇、博士課程1年生の王漢静、客員研究員のウェン・ムニン、ACMクラスの学部3年生の呉潤哲です。上海交通大学の張維南准教授とロンドン大学ユニバーシティ・カレッジの楊耀東博士と王軍教授が共同で指導しました。

チームは長年にわたり、理論アルゴリズム、システム、アプリケーションという 3 つのレベルから、オープンで現実的かつ動的なマルチインテリジェンス シナリオにおけるインテリジェントな意思決定に関する研究に取り組んできました。理論チームの中核メンバーは、人工知能と機械学習に関するトップカンファレンスでマルチエージェント強化学習に関する50以上の論文を発表し、CoRL 2020 Best System Paper AwardとAAMAS 2021 Blue Sky Track Best Paper Awardを受賞しています。システム面では、マルチエージェント強化学習集団トレーニングシステムであるMALibのほか、SMARTS、CityFlow、MAgentなどの大規模エージェント強化学習シミュレーションエンジンを開発しており、Githubで2,000以上のスターを獲得しています。さらに、チームは、ゲーム、自動運転、検索、推奨などのシナリオで強化学習技術を実際に応用した経験を持っています。

<<:  Google、少量のサンプル学習と会話で記事を書き換えられるAIライティングアシスタントをリリース

>>:  インドの農業変革における人工知能の役割

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

...

TensorFlow で発見された脆弱性の背後にあるもの: AI セキュリティに関する私たちの愚かさと無知

AI がインターネット セキュリティに与える影響について議論してきたとき、AI 自体も安全ではないと...

MetaHuman の効果は素晴らしいです!しかし、メタバースだけを考えると、パターンは少し小さくなります。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2021年に自動運転は私たちをどこへ連れて行くのでしょうか?

[[361430]]文/Quiu Yueye 編集/Tan Lu新年、自動運転は私たちをどこへ連れ...

ネイチャー誌の年間トップ10科学者・イベント:天問1号の主任設計者、張栄橋氏がリスト入り

Nature の年間トップ 10 科学者およびトップ 10 科学イベントが発表されました。今年の科学...

...

その本を読むのは時間の無駄だ!ロボットは北京大学入試数学テストに挑戦し、105点を獲得した。

6月7日、成都ハイテクの人工知能システム「AI-MATHS」数学大学入試ロボットが2017年度大学...

美団におけるナレッジグラフ可視化技術の実践と探究

著者 | 魏耀成魏ナレッジ グラフの視覚化により、ナレッジ グラフ データをより直感的に表示および分...

AIは旅行業界の困難を軽減できるか?

[[323317]]現時点では、多くの企業が、数か月前に考えていたよりも見通しが不透明であると感じ...

機械学習はとても興味深い:音声認識にディープラーニングを使用する方法

[[203766]]音声認識は私たちの生活に「侵入」しています。携帯電話、ゲーム機、スマートウォッチ...

アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

アマゾンの幹部は7月27日、クラウドコンピューティング部門が人工知能サービス「ベッドロック」を試す顧...

...

中国科学院研究員蔡少偉:SATソルバーEDA基本エンジン

[[441194]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...