マルチエージェント強化学習の大規模モデルに関する予備的研究

1. 大規模マルチエージェント意思決定モデルの課題

現実世界における多くの実際的な問題は、複数のエージェントが関与する協調制御および最適化の問題としてモデル化できます。協調型マルチエージェントシステムは、ゲーム AI における複数ヒーローのコラボレーション、複数ユーザーと複数製品の推奨、複数車両の輸送と配送の最適化、スマート倉庫の複数車両のスケジューリング、クラウドコンピューティングの複数リソースのスケジューリング、複数車両の協調スケジューリングなど、同じ目的関数の 1 つ (または複数) を最適化するために協力する複数の参加者で構成されます。

マルチエージェント問題とシングルエージェント強化学習問題の主な違いは、エージェントの数が1からnに増加し、シングルエージェントのアクション空間が直積の下で指数関数的なジョイントアクション空間になることです。アクションは環境に作用し、環境フィードバックの状態はnエージェントの情報を含む状態セット、つまり指数状態空間に変更されます。通常、このタイプのシステムは、MMDP または Dec-POMDP を使用して正式に記述されます。 MMDP メソッドは、単一エージェントのマルコフ過程を複数エージェントに拡張します。主な違いは、アクション空間と状態空間の指数関数的拡張にあり、システム内の各エージェントがシステムのグローバル状態を観察できることを前提としています。 Dec-POMDP メソッドは、観測関数を使用して、限られた視野内でシステム内の各エージェントによって観測された情報をモデル化します。協力システムの目標は、すべてのエージェントの共同戦略を最適化して、システム全体の累積報酬を最大化することです。

協調型マルチエージェントシステムの最適制御戦略を解くことは、通常、次の 3 つの困難に直面します。①状態観測空間と共同行動空間がエンティティの数とともに指数関数的に増加することによって生じる次元の呪い。②既存の強化学習アルゴリズムは、次元の呪いのために学習サンプル効率が低い。③モデルの複数のタスク間の普遍性と一般性が低い。

マルチエージェント強化学習大規模モデルの基本的な目的は、より優れた一般化を備えたモデルを設計し、同じゲームの異なるシナリオや異なるゲームの異なるシナリオなど、複数の類似した問題を 1 つのモデルで解決できるようにすることです。

大規模モデルは、自然言語処理、コンピュータービジョンなどの分野で画期的な成果を達成しています。最新の研究では、強化学習にも BBF (Bigger, Better, Faster) の結論があることが示されています。モデルが大きいほど、モデルのパフォーマンスが向上し、学習速度が速くなります。強化学習の古典的な Atari-100k テスト環境では、モデルベースの EfficientZero メソッドは高いサンプル効率を持つことが認識されています。BBF の調査によると、モデルフリー DQN アルゴリズムは、モデルのサイズを大きくすることで EfficientZero と同じサンプル効率を達成でき、トレーニングコストを大幅に削減できます。ネットワークパラメータの規模が大きくなるにつれて、合理的なメカニズム設計を通じてアルゴリズムのパフォーマンスを徐々に向上させることができます。

大規模マルチエージェント強化学習モデルは現在、4 つの主な課題に直面しています。① 異なるシナリオにおけるエージェントの数と種類が異なる。② エンティティの特性、観察、状態が異なるため、モデルネットワークの入力次元と意味が異なる。③ アクションスペースが異なると、戦略ネットワークの出力次元と意味が異なる。④ 報酬関数が異なると、価値関数ネットワークの出力スケールが異なる。

上記の課題に対処するには、マルチエージェントシステムの完全な記述方法を構築し、この記述に基づいて一般的な意思決定モデルを設計できるようにする必要があります。類推言語モデルは、マルチエージェントシステムの内部構造の統一された記述を提供できます。大規模言語モデルの基礎は語彙で構成されており、語彙は文を構成し、客観的な世界の基本的な記述を形成します。トークナイザーを使用して単語を学習可能な単語ベクトルに変換し、意味と次元を調整し、単語ベクトルをニューラルネットワークに渡して、特定のタスク用にトレーニングします。同様に、マルチエージェントシステムでは、グローバル属性テーブルとアクションテーブル（アクションセマンティクス）を通じてシステム内のエンティティの完全な記述（エンティティテーブル）が形成され、属性はトークナイザーを通じて属性ベクトルとエンティティベクトルに変換されます。エンティティベクトルは、戦略ネットワークなどの後続のニューラルネットワークモデルに渡され、制御戦略を出力します。

2. アクションセマンティックネットワーク

アクションセマンティックネットワーク研究の中心的な考え方は、上記で定義された言語記述に基づいて、システムの全体的なアクション空間をさまざまなアクションセマンティクスに分割することです。たとえば、StarCraft では、アクションは、自分の状態に関連する移動アクションと、2 つのエージェント間の相互作用を伴う攻撃アクションに分けられます。アクションの意味分割が完了した後、異なるアクションの種類に応じて異なる後続処理が実行されます。移動アクションはエージェント自身の状態にのみ関連し、攻撃アクションはペアワイズ方式を使用して 2 つのエージェント間の相互作用関係を表します。

この事前知識の導入により、StarCraft や Neural MMO などのシナリオにおけるモデルのパフォーマンスが大幅に向上しました。このソリューションはNetEaseのゲーム「Ni Shui Han」にも実装されており、ゲームのAIのパフォーマンスが大幅に向上しました。

3. 置換不変性と置換等変性

複数のエージェント間の順列不変性と順列同値性は、システム内に自然に存在する情報の冗長性を圧縮するために使用され、それによってシステムの学習空間が削減され、異なるネットワーク入力次元の問題に間接的に対処します。

m 個のエンティティ (n 個のエージェントと mn 個の非プレイヤーオブジェクトを含む) を持つシステムでは、状態と観測空間はエンティティの数に応じて指数関数的に増加します。システムの状態は、エンティティセットの客観的な情報を記述するものであり、入力順序によって変化しません。同種エージェントを含むシステムでは、エンティティ情報の配置に冗長性があります。そのため、同種エージェント間の自然な対称性を活用し、モデル構築中に入力順序の影響を無視することで、元の指数関数的に増加する状態空間を大幅に削減できます。

同時に、システム内には、システム自身の状態にのみ関連するアクションや、エンティティ間の相互作用を伴うアクションなど、さまざまな種類のアクションが存在します。入力順序の影響を排除することを考慮すると、エンティティ間の相互作用アクションと対応するエンティティの状態の間には 1 対 1 の対応があるため、入力順序の変更は出力の意味の対応する変更につながり、これは関数の順列同値性に対応します。自身の状態にのみ関連する別のタイプのアクション。入力順序を変更した後も出力は変更されず、これは関数の順列不変性に対応します。

順列同値性と順列不変性の両方を備えたポリシーネットワーク構造を設計し、事前知識を使用してシステム状態空間を圧縮することで、その後のポリシー学習の効率と有効性を大幅に向上させることができます。

決定ネットワークの入力は、複数のエンティティで構成される観測であり、典型的な入力層、バックボーン層 (任意のネットワーク構造)、および出力層を通過して制御ポリシーを出力します。出力においては、自身の状態に関連するアクションのみが入力順序の影響を受けず（順列不変性を持つ）、入力エンティティと1対1に対応するアクションは入力順序の変化と同じ変化を受ける（順列同値性を持つ）ことが期待されます。より一般的なモデルアーキテクチャを設計するために、既存のネットワーク構造をできるだけ変更せずに、必要なプロパティを実現する「最小変更原則」に従うことに重点を置いています。最終的には、入力層 A を変更して順列不変にし、出力層 D に通知して変更して順列等価にします。

順列不変性を持たない従来の MLP ネットワークの入力は、各エンティティ情報を独立した対応するサブモジュールパラメータで乗算し、出力を合計したものと見なすことができます。まず、特定のサブモジュールパラメータを各入力エンティティ情報に1つずつバインドするカテゴリ選択機能を追加し、入力層の順列不変性を実現する動的順列ネットワーク（DPN）を提案します。出力層は、入力と1対1に対応し、類似の分類ネットワークを構築し、各エンティティの出力特徴に対して決定論的な行列を選択して、入力順序の変化に応じて出力の順序が相乗的に変化し、順列等価性を実現する必要があります。

同じアイデアに基づいて、私たちはさらにハイパーポリシーネットワーク (HPN) を提案します。これは、「ハイパーネットワーク」(1 つのネットワークを使用して別のネットワークの重みパラメータを生成する) を使用して、各エンティティに対応するパラメータマトリックスを自動的に生成します。各エンティティの特性はハイパーネットワークの入力として使用され、ハイパーネットワークは各エンティティに対応するパラメータを出力します。この構造では、エンティティの特性とパラメータ行列は自然に 1 対 1 の対応を持ち、合計出力は順列不変です。出力層はハイパーネットワーク構造を使用して、各入力エンティティ機能に対応するパラメータを生成するため、出力と入力エンティティは 1 対 1 で対応し、順列同値になります。

典型的な StarCraft テスト環境では、HPN ネットワーク構造が QMIX アルゴリズムに統合され、すべての困難なシナリオで 100% の勝率を達成しました。

設計は最小限の変更の原則に従っているため、ネットワーク構造をさまざまなアルゴリズム (QPLEX、MAPPO など) に簡単に統合でき、アルゴリズムのパフォーマンスが大幅に向上します。

さらに、このモデルアーキテクチャは、StarCraft V2、MPE、Google Football などのより複雑でランダムな環境でも大幅なパフォーマンス上の利点を実現できます。

同時に、ネットワーク構造は、異なるエンティティによってもたらされる異なる入力次元と出力次元の問題に自動的に適応できるため、優れた一般化と転送性を備え、異なる数と規模のタスクで制御戦略の効率的な再利用を実現できます。

4. クロスタスク自動化コースの学習

クロスタスクコース学習プロセスでは、システムで学習するタスクが複数あり、その中には難しいターゲットタスク、より簡単な開始タスク、その他の候補タスクセットが含まれます。コース学習アルゴリズムの各ステップでは、候補タスクセットから最も適切なタスクを選択し、最終的に「最適な学習シーケンス（パス）」を出力する必要があります。この問題を解決するには、次の 2 つの基本的な質問に答える必要があります。

①次の学習目標としてどのコースが適していますか？

②以前に学んだ知識を新しいコースでどのように再利用するか？

難易度とタスクの類似性に基づいてコースを選択することを提案します。候補タスクセット内のすべてのタスクに対して現在の戦略を評価し、対応する報酬値を取得します。報酬値のソートに従って、中間の 40% のタスクが選択され、これらのタスクから次のコースが生成されます。同時に、タスクの類似性に基づいて、中程度の難易度の候補タスクの中から、目標タスクに最も近いタスクが最終選択コースとして選択されます。対象タスクとの類似性を評価するために、現在の戦略に基づいて対象タスクと候補タスクでロールアウトを実行して状態アクセス分布を取得し、混合ガウスモデルを使用して分布をモデル化し、分布の類似性を使用してタスクの類似性を測定します。

HPN ネットワーク構造に基づいてポリシーの移行と再利用を実現します。前述の、可変長の入力と出力をサポートする順列不変性と順列同変性を備えた HPN ネットワーク構造は、戦略の移行と再利用を実現するために使用されます。自動コース学習の全体的なフレームワークは、難易度と類似性を使用して次の学習タスクを選択することです。このタスクの学習プロセス中に、HPN 構造を使用して、前のタスクから学習した戦略をオーバーロードし、サイクルを繰り返して、最終的にターゲットタスクでより良いパフォーマンスを実現します。

私たちは StarCraft シナリオでアルゴリズムを検証し、StarCraft のゲームシナリオをレースタイプに応じて異なるミッションセット (Marines、Stalkers & Zealots、Medivac & Marauders & Marines) に分割しました。各ミッションセットには、開始ミッションと非常に難しい最終ミッションが与えられます。従来の転移学習アルゴリズムと比較すると、異なるアルゴリズムではタスク選択シーケンスに大きな違いがあります。私たちのアルゴリズムは、タスクの難易度と最終タスクへの有用度に基づいて、より適切なタスクシーケンスを選択でき、最終タスクで大幅なパフォーマンス向上を実現できます。

5. pymarl3: オープンソースコード

最後に、この一連の作業のソースコードをオープンソース化し、MARL コミュニティで一般的に使用されている pymarl2 (https://github.com/hijkzzz/pymarl2) コードベースを、次の機能を持つ pymarl3 (https://github.com/tjuHaoXiaotian/pymarl3) にアップグレードしました。

（1）SMAC-V2のサポートを追加しました（https://github.com/oxwhirl/smacv2）。SMAC-V1とSMAC-V2の両方がサポートされ統合されているため、それぞれの環境を個別にインストールする必要はありません。

（２）pymarl2のアルゴリズムは、順列不変かつ順列同変になるようにアップグレードされています。設計されたネットワーク構造は、あらゆるMARLアルゴリズムに簡単に統合でき、そのパフォーマンスを向上させることができます。

（３）強化されたアルゴリズムはSMAC-V1とSMAC-V2の両方でSOTA性能を達成する。

この共有セッションでは、大規模なマルチエージェント意思決定モデルが直面する課題と、アナログ言語モデルを使用してマルチエージェントシステムを記述およびモデル化するソリューションの概要を説明します。また、アクションセマンティックネットワーク、順列不変性と順列同値性、およびタスク間自動コース学習という 3 つの重要な設計上の事前条件を提案します。強化学習の大規模モデルをさらに研究するために、皆様のご協力をお待ちしています。

<<: AIGCと因果推論により双方向の

>>: