AlphaGoの仕組み：マルチエージェント強化学習の詳細な説明

このレビュー記事では、著者はマルチインテリジェンス強化学習の理論的基礎を詳細に紹介し、さまざまなマルチインテリジェンスの問題を解決するための古典的なアルゴリズムについて説明します。さらに、著者は、AlphaGo と AlphaStar を例に、マルチエージェント強化学習の実際的な応用についても概説しました。

近年、強化学習が複数の応用分野で目覚ましい成果を上げていること、また、実際のシナリオでは通常複数の意思決定者（エージェント）が同時に存在するということを考慮して、一部の研究者は徐々にその視野をシングルエージェント分野からマルチエージェント分野へと広げてきました。

この記事ではまず、問題の定義、問題のモデル化、関連する中核的なアイデアや概念など、マルチエージェント強化学習 (MARL) の関連する理論的基礎について簡単に紹介します。次に、特定のアプリケーションにおけるエージェント間の関係に応じて、マルチエージェント問題を、完全協力型、完全競争型、混合関係型の 3 つのタイプに分類し、さまざまなタイプのマルチエージェント問題を解決するための古典的なアルゴリズムについて簡単に説明します。最後に、マルチエージェント研究における深層強化学習で提案されている手法（マルチエージェント深層強化学習）をいくつか挙げます。

1. 強化学習とマルチエージェント強化学習

強化学習の核となる考え方は「試行錯誤」であることはわかっています。つまり、インテリジェントエージェントは、環境とのやり取りを通じて得られたフィードバック情報に基づいて反復的に最適化を行います。 RL の分野では、解決すべき問題は通常、マルコフ決定プロセスとして記述されます。

図 1: 強化学習のフレームワーク (マルコフ決定プロセスも表示)。画像出典: [1]

複数のエージェントが同時に環境と相互作用する場合、システム全体がマルチエージェントシステムになります。各エージェントは、獲得できる累積報酬を最大化するという強化学習の目標を依然として追求しています。このとき、環境のグローバル状態の変化は、すべてのエージェントの共同アクションに関係しています。したがって、エージェントの戦略学習のプロセスでは、共同行動の影響を考慮する必要があります。

1.1 マルチエージェント問題のモデリング - ゲーム理論の基礎

マルコフ決定プロセスはマルチエージェントシステムに拡張され、マルコフゲーム (確率ゲーム、マルコフ/確率ゲームとも呼ばれる) として定義されます。ゲーム理論についてある程度理解すれば、それを使ってマルチエージェント強化学習の問題をモデル化し、問題に対するより明確な解決策を見つけることができます。

図 2: マルコフゲームプロセス。画像出典: [2]

マルコフゲームでは、すべてのエージェントが現在の環境状態（または観測値）に基づいて同時に独自のアクションを選択し、実行します。個々のアクションによってもたらされる共同アクションは、環境状態の転送と更新に影響を与え、エージェントが得る報酬フィードバックを決定します。これはタプル < S,A1,...,An,T,R1,...,Rn > で表すことができます。ここで、S は状態セット、Ai と Ri はそれぞれエージェント i のアクションセットと報酬セット、T は環境状態遷移確率、損失係数を表します。この時点で、エージェント i が得る累積報酬の期待値は次のように表すことができます。

マルコフゲームでは、ナッシュ均衡は非常に重要な概念です。これは、複数のエージェント間で到達する固定点です。どのエージェントにとっても、他の戦略を採用することでより高い累積報酬を得ることは不可能です。これは、次のように数学的に表現できます。

この式では、π^はエージェントiのナッシュ均衡戦略を表します。

ナッシュ均衡は必ずしもグローバルな最適状態ではありませんが、確率的に最も起こりそうな結果であり、特に現在のエージェントが他のエージェントがどのような戦略を採用するかを知らない場合には、学習中に収束しやすい状態であることに留意する価値があります。理解を助けるために、ゲーム理論における古典的な囚人のジレンマの簡単な例を示します。二人の発言によって文章は異なっていました。

この表では、A と B の両方が嘘をつくことを選択した場合、全体的な最適な報酬を達成できます。しかし、各個人は他の個人がどのように行動するかを知りません。A または B の場合、正直に行動することを選択すれば、より良いリターンを得ることができます。実際、A にとっても B にとっても、相手がどのような行動を選択したとしても、正直であることが最大の利益を得られる選択です。したがって、最終的には A と B の両方が自白を選択する状況に収束し、これが囚人のジレンマにおけるナッシュ均衡戦略となります。

均衡解法は、マルチエージェント強化学習の基本的な方法であり、マルチエージェント学習の問題に対して、強化学習の古典的な方法（Q学習など）とゲーム理論の均衡の概念を組み合わせ、RL法を通じて均衡目標を解決し、マルチエージェントの関連タスクを完了します。この考え方は、後ほど紹介する具体的な学習方法にも反映されます。

シングルエージェントシステムと比較して、強化学習をマルチエージェントシステムに適用すると、どのような問題や課題が発生しますか?

環境の不安定性: エージェントが決定を下している間、他のエージェントも行動を起こします。環境の状態の変化は、すべてのエージェントの共同行動に関連しています。

エージェントによる情報取得の制限: エージェントはグローバル情報を取得できない可能性があります。エージェントはローカルな観測情報のみを取得できますが、他のエージェントの観測情報、アクション、報酬などを知ることはできません。

個々の目標の一貫性: 各エージェントの目標は最適なグローバルリターンである場合もあれば、最適なローカルリターンである場合もあります。

スケーラビリティ: 大規模なマルチエージェントシステムでは、高次元の状態空間とアクション空間が関係するため、実際のシナリオではモデルの表現力とハードウェアの計算能力に一定の要件が課せられます。

1.2 マルチエージェント問題の解決 - マルチエージェント強化学習アルゴリズムの紹介

マルチエージェント強化学習問題を直接解決するには、シングルエージェント強化学習法をマルチエージェントシステムに直接適用することです。つまり、各エージェントは他のエージェントを環境内の要素として扱い、シングルエージェント学習の方法と環境との相互作用を通じて戦略を更新します。これが独立Q学習法の考え方です。この学習方法はシンプルで実装も簡単ですが、他のインテリジェントエージェントにも意思決定能力があり、すべての個体の行動が共同で環境の状態に影響を与えるという事実を無視しているため、安定して学習し、良好な結果を達成することが困難です。

一般的に、インテリジェントエージェント間の関係には、競争関係（非協力関係）、半競争半協力関係（混合関係）、または完全に協力的な関係があります。これらの関係モードでは、個人が考慮する必要がある他のインテリジェントエージェントの意思決定行動の影響も異なります。以下ではレビュー[3]を参考に、完全競争、半競争半協力、完全協力という形で、エージェント間の関係性に応じたマルチエージェント問題のモデル化と解決法について説明する。

1.2.1 エージェント間には完全競争がある

ミニマックス Q 学習アルゴリズムは、2 つのエージェント間の関係が完全に競争的であるゼロサム確率ゲームに使用されます。まず、最適値関数の定義です。エージェント i については、他のエージェント (i-) が実行するアクション (a-) によってその (i) の収益が最悪 (min) になったときに得られる最大 (max) の期待収益を考慮する必要があります。このリターンは次のように表現できます。

この式では、ゼロサムゲームではQ1=-Q2が設定されているため、VとQでエージェントiの添え字は省略されており、したがって、上記の式は他のエージェントと対称的に同等です。この価値関数は、現在のエージェントが対戦相手の戦略を考慮しながら貪欲な選択を使用していることを示しています。このアプローチにより、エージェントはナッシュ均衡戦略に収束しやすくなります。

学習プロセスでは、強化学習における Q 学習法に基づいて、ミニマックス Q 学習は上記のミニマックスの考え方で定義された価値関数を使用して反復を通じて Q 値を更新します。アクション選択は、線形計画法を通じて現在のステージ状態 s に対応するナッシュ均衡戦略を解きます。

図 3: Minimax-Q 学習アルゴリズムのフロー。画像出典[4]

ミニマックス Q 法は、競争ゲームにおける古典的なアイデアです。このアイデアに基づいて、Friend-or-Foe Q 学習、相関 Q 学習、次に説明するナッシュ Q 学習など、他の多くの方法が派生しています。

1.2.2 エージェント間の関係は半協力的かつ半競争的（混合）である

2 人プレイヤーのゼロ和ゲームのより一般的な形式は、マルチプレイヤーの一般和ゲームであり、ミニマックス Q 学習法をナッシュ Q 学習法に拡張できます。各エージェントが通常の Q 学習法を採用し、貪欲なアプローチ、つまり自身の Q 値を最大化するアプローチを取ると、そのような方法はナッシュ均衡戦略に容易に収束します。ナッシュ Q 学習法は、ナッシュ均衡を解とするマルチエージェント学習問題に対処するために使用できます。その目的は、各状態のナッシュ均衡点を見つけ、学習プロセス中にナッシュ均衡戦略に基づいて Q 値を更新することです。

具体的には、エージェント i のナッシュ Q 値は次のように定義されます。

この時点で、すべてのエージェントが次の瞬間からナッシュ均衡戦略を採用すると仮定します。ナッシュ戦略は、2次計画法（離散行動空間のみを考慮し、πは各行動の確率分布）で解くことができます。

Q 値の反復更新プロセスでは、ナッシュ Q 値を使用して次の値を更新します。

単一のエージェント i の場合、ナッシュ Q 値を使用して更新を行う場合、他のエージェントのグローバル状態 s とアクション a を知ることに加えて、他のすべてのエージェントの次の状態に対応するナッシュ均衡戦略 π も知る必要があることがわかります。さらに、現在のエージェントは他のエージェントの Q(s') 値を知る必要があります。これは通常、他のエージェントの観察された報酬とアクションに基づいて推測され計算されます。そのため、ナッシュ Q 学習法では、エージェントが他のエージェントから取得できる情報 (アクション、報酬などを含む) について強い仮定が置かれます。このような厳しい条件は、複雑な現実の問題では一般に満たされず、この方法の適用範囲は限られています。

図 4: Nash-Q 学習アルゴリズムのフロー。画像出典: [5]

1.2.3 エージェント間の関係は完全に協力的である

上で述べた 2 つのインテリジェントエージェント間の関係は、どちらも個体間の競争を伴うため、個体は戦略学習の過程で相手 (より一般的には他のインテリジェントエージェント) の意思決定行動を考慮して、より良い対応を行う必要があることは比較的容易に理解できます。では、インテリジェントエージェント間の関係が完全に協力的である場合、個々の決定では他のインテリジェントエージェントの決定も考慮する必要があるのでしょうか?実際、「協力」とは、複数のインテリジェントエージェントが協力して目標タスクを完了する必要があることを意味します。つまり、この目標の達成は、各個体の行動を組み合わせて得られる共同行動に関連しています。個体が「単独で行動」すると、他のチームメイトと協力して一緒に良い報酬を得ることが難しくなります。したがって、インテリジェントエージェントの戦略学習では、共同アクションの効果と意思決定能力を持つ他のインテリジェントエージェントの影響を考慮する必要があります。

エージェント戦略の学習プロセス中に他の協調エージェントの影響をどのように考慮すればよいでしょうか?この問題はさまざまなカテゴリで議論することができます。分類の基礎となるのは、特定の問題におけるインテリジェントエージェントのコラボレーションに必要な条件、つまり、インテリジェントエージェントがコラボレーションを通じて最高の利益を得るときに調整メカニズムが必要かどうかです。

コラボレーションは不要

問題 (またはタスク) において、すべてのエージェントの共同最適アクションが一意である場合、タスクを完了するために調整メカニズムは必要ありません。これは理解しやすいです。環境内のすべてのエージェントにとって最適な共同行動が複数ある、つまりとがあると仮定すると、A と B の間で、π を同時に取るか h を同時に取るかを決定する交渉メカニズムが必要になります。なぜなら、一方が π を取り、もう一方が h を取ると、結果として得られる共同行動が最適なものではない可能性があるからです。チーム Q 学習は、協調メカニズムを必要としない問題に適した学習方法です。単一のエージェント i の場合、その最適なアクション hi は次の式で見つけられると提案されています。

分散 Q 学習は、協調メカニズムを必要としない問題に適した学習方法でもあります。最適な個別行動を選択する際に他のエージェントの行動を知る必要があるチーム Q 学習とは異なり、この方法ではエージェントは自分の行動にのみ対応する Q 値を維持して最適な個別行動を取得します。

暗黙的なコラボレーションメカニズム

エージェントが最適な共同行動に到達するために互いに交渉する必要がある問題では、個体間の相互モデリングにより、エージェントの意思決定のための潜在的な調整メカニズムを提供できます。共同行動学習器（JAL）[6]アプローチでは、エージェントiは他のエージェントjの過去の行動に基づいて他のエージェントjの戦略をモデル化します。頻度最大Q値（FMQ）[7]法では、個々の行動が最適な報酬を達成する共同行動の頻度を個々のQ値の定義に導入することで、学習の過程でエージェントが共同行動の中で最適な報酬を達成できる自身の行動を選択するように誘導し、エージェント全体の最適な行動の組み合わせが選択される確率が高くなる。

JAL 法と FMQ 法の基本的な考え方は均衡解に基づいていますが、このような方法では通常、小規模 (つまり、エージェントの数が少ない) のマルチエージェント問題しか処理できません。実際の問題では、多数のエージェント間の相互作用と相互影響が関係しており、一般均衡解は計算効率と複雑さによって制限され、複雑な状況を処理するのは困難です。大規模なマルチエージェント学習問題では、現在のエージェントへの影響やグループ内でのエージェントの役割など、グループの共同行動の効果を考慮することは、エージェントの戦略学習に大いに役立ちます。

平均場理論に基づく平均場 MARL (MFMARL) 法は、2018 年の ICML カンファレンスで UCL の学者によって提案された大規模グループ問題に対する手法です。従来の強化学習法 (Q 学習) と平均場理論を組み合わせたものです。平均場理論は、複雑で大規模なシステムのモデリングに適用できます。平均場理論では、システム内の特定の個体について、他のすべての個体の複合効果を「平均量」で定義および測定できるという、単純化されたモデリングの考え方が採用されています。このとき、ある個体にとって、他のすべての個体の影響は、その個体に対する単一の個体の影響と同等になります。このモデリング方法は、高次元空間と大量の計算を伴う問題を効果的に処理できます。

MFMARL法は平均場理論のモデリングアイデアに基づいています。すべてのインテリジェントエージェントを「平均場」と見なします。個体と他のインテリジェントエージェントの関係は、個体と平均場の相互影響として記述できるため、その後の分析プロセスが簡素化されます。

図 5: 平均場理論に基づくマルチエージェントモデリング。単一のエージェントが他の隣接エージェントとの相互作用のみを考慮します (青い球の領域)。画像出典: [8]

まず、集中型グローバル価値関数の学習効果がエージェント数（共同行動の次元）によって影響を受けるという事実に対処するために、価値関数を分解します。単一のエージェントjの場合、その価値関数Qj(s,a)には、Nj個の隣接エージェントkとの相互作用が含まれます。

そして、上記の式に平均場理論の考え方が組み込まれます。離散アクション空間を考慮すると、単一のエージェントのアクションはワンホット形式、つまりaj=[h(aj_1), ... h(aj_d)]でエンコードされます。ここで、aj=aj_i ?: 0の場合、h(aj_i)=1です。他の隣接エージェントのアクションは、平均アクション\ barと変動δとして表すことができます。

テイラーの2次展開を用いると、

この式は、現在のエージェント j と他の隣接エージェント k 間の相互作用を、現在のエージェント j と仮想エージェント \ bar 間の相互作用に簡略化します。これは、平均場の考え方を数学的に具体化したものです。このとき、学習プロセスにおいて反復更新の対象は平均場（MF-Q）におけるQ(s,aj,\bar)値であり、次の式で表される。

更新で max Q の代わりに v を使用する理由は、Q の最大値を取得するには隣接するエージェント戦略 \ bar の協力が必要であり、エージェント j は他のエージェントの意思決定に直接干渉できないためです。一方、貪欲な選択を行うと、学習プロセスは依然として環境の不安定性の影響を受けます。

同様に、エージェント j の戦略も、ボルツマン分布を使用して Q 値に基づいて反復的に更新されます。

元の論文では、このような反復更新方法により、\bar は最終的に一意の均衡点に収束できることを証明し、エージェント j の戦略 πj がナッシュ均衡戦略に収束できることを推論しています。

明示的なコラボレーションメカニズム

明示的なコラボレーションメカニズムについては、マルチエージェント深層強化学習をマルチロボットの分野（主に、既存の制約/事前ルールなどを考慮した人間と機械の相互作用）に適用することで簡単に紹介します。

2. マルチエージェント深層強化学習

ディープラーニングの発展に伴い、ニューラルネットワークの強力な表現力を利用して、近似モデル (値の近似) とポリシーモデル (ポリシーベースの DRL 方式でよく使用される) が構築されるようになりました。深層強化学習法は、価値ベースとポリシーベースの 2 種類に分けられます。マルチエージェント問題を考慮する場合、主なアプローチは、価値関数またはポリシーの定義にマルチエージェント関連の要素を導入し、対応するネットワーク構造を価値関数モデルとポリシーモデルとして設計することです。最終的にトレーニングされたモデルは、適応 (エージェント間の複雑な関係を直接または潜在的に学習) し、特定のタスクで優れた結果を達成できます。

2.1 ポリシーベースのアプローチ

完全に協力的な設定では、通常、マルチエージェントアンサンブルは全体的な期待報酬を最大化する必要があります。上記の完全集中型アプローチでは、中央モジュールを使用してグローバルな情報取得と意思決定計算を完了し、単一エージェントに適用可能な RL メソッドをマルチエージェントシステムに直接拡張できます。しかし、実際の状況では、集中型コントローラーが常に実行可能であるとは限らず、必ずしも意思決定を行う理想的な方法であるとは限りません。しかし、完全に分散化されたアプローチを採用すると、各エージェントは他のエージェントが自分自身に与える影響を考慮せずに、独自の価値関数ネットワークと戦略ネットワークを独立して学習することになり、環境の不安定性にうまく対処できなくなります。強化学習におけるアクター・クリティック・フレームワークの特性を利用することで、これら 2 つの極端なアプローチを調整する方法を見つけることができます。

1. マルチエージェントディープ決定論的ポリシー勾配（MADDPG）

この方法は、Deep Deterministic Policy Gradient (DDPG) 方法に含まれるアクタークリティックフレームワークを改善し、集中型トレーニングと分散型実行メカニズムを使用して、マルチエージェント問題を解決するためのより一般的なアプローチを提供します。

MADDPG は各エージェントに対して集中型の批評家を確立し、グローバル情報 (グローバル状態とすべてのエージェントのアクションを含む) を取得し、対応する価値関数 Qi(x,a1,...,an) を与えることで、マルチエージェントシステムの環境不安定性の問題をある程度軽減できます。一方、各エージェントアクターはローカルな観測情報に基づいて意思決定を行うだけでよいため、複数のエージェントの分散制御を実現できます。

アクター・クリティック・フレームワークに基づく学習プロセスでは、クリティックとアクターの更新方法は DDPG に似ています。批評家にとっての最適化の目標は次のとおりです。

アクターの場合、決定論的ポリシーμi(ai|oi)を考慮すると、ポリシー更新中の勾配計算は次のように表すことができます。

図 6: 集中型 Q 値学習 (緑) と分散型ポリシー実行 (茶色)。 Q値は全エージェントの観測情報oと行動aを取得し、戦略πは個々の観測情報に基づいて個々の行動を出力します。画像出典: [9]

MADDPGでは、個体が保持する集中型のQ値は、すべてのエージェントのグローバルな状態情報と行動情報を知る必要があります。このとき、エージェントは通信または他の何らかの手段を通じて、他のエージェントの観測値と戦略を知ることができると仮定されていますが、この仮定は厳しすぎます。 MADDPGはさらに、戦略近似関数\hat{\miu}を維持することで他のエージェントの戦略を推定できることを提案しています。他のエージェントの行動をモデル化することで、単一の個体が集中的なQ値を維持し、共同行動の影響を考慮することが可能になります。エージェント i が j 番目のエージェントのポリシー関数に近づくとき、その最適化の目標は、ポリシーのエントロピーを考慮しながら、ポリシー関数を経験サンプル内のエージェント j の動作に近づけることです。これは次のように表すことができます。

MADDPG は共同行動を考慮するだけでなく、環境の不安定性に対処するために政策アンサンブル手法も使用します。環境内の各エージェントの戦略は反復的に更新されるため、単一のエージェントの戦略が他のエージェントの戦略に過剰適合することが容易になります。つまり、他のエージェントの戦略が変化すると、現在の最適な戦略が他のエージェントの戦略にうまく適応できない可能性があります。過剰適合の問題を軽減するために、MADDPG は戦略統合という考え方を提案します。つまり、単一のエージェント i の場合、その戦略 μi は複数のサブ戦略 μi^k のセットになります。エピソードでは、セットからサンプリングされた 1 つのサブ戦略のみが決定を下し、対話を完了するために使用されます。学習プロセス中に最大化される目標は、すべてのサブ戦略の期待収益です。

各サブ戦略の更新勾配は次のとおりです。

一般的に、MADDPG の核心は、DDPG アルゴリズムに基づいて、グローバル Q 値を使用して各エージェントのローカル戦略を更新することです。この方法は、完全協力、完全競争、混合関係の問題で良好な結果を達成できます。アルゴリズムのフローは次のとおりです。

図 7: MADDPG アルゴリズムのフロー。画像出典: [9]

2. 反事実的マルチエージェントポリシー勾配 (COM)

協調型マルチエージェント学習問題では、各エージェントが報酬を共有します（つまり、同じ報酬を同時に受け取ります）。このとき、「クレジット割り当て」問題があります。この共有報酬に対する各エージェントの貢献をどのように評価するか？

COMA メソッドは、信頼度割り当てにおいて反事実ベースラインを使用します。つまり、エージェントの現在のアクションがデフォルトのアクションと比較されます。現在のアクションがデフォルトのアクションよりも高い報酬を獲得できる場合、現在のアクションは良い貢献を提供していることを意味します。そうでない場合は、現在のアクションが悪い貢献を提供していることを意味します。デフォルトのアクションの報酬は、現在の戦略の平均効果 (つまり、反事実ベースライン) によって提供されます。エージェントをベースラインと比較する場合、他のエージェントのアクションを修正する必要があります。現在の戦略の平均効果と利点関数は次のように定義されます。

COMA メソッドは、集中型トレーニングと分散型実行の考え方を組み合わせたものです。分散型個別戦略は、ローカル観測を入力として受け取り、個別のアクションを出力します。集中型批評家は、特別なネットワーク構造を使用して、アドバンテージ関数値を出力します。

具体的には、批評ネットワークの入力には、グローバル状態情報s、個体のローカル観測情報o、個体番号a、および他のエージェントの行動が含まれます。まず、現在のエージェントの異なる行動に対応するジョイントQ値が出力されます。次に、COMA モジュールを通過し、エージェントの現在の戦略とアクションを入力として使用し、反事実ベースラインを計算して、最終的なアドバンテージ関数を出力します。

図 8: (a) COMA メソッドのアクター - クリティックフレームワーク、(b) アクターネットワーク構造、(c) クリティックネットワーク構造 (アドバンテージ関数値を提供するコア COMA モジュールを含む)。画像出典: [10]

2.2 価値ベースの方法

前述のポリシーベースの方法では、個人の特性を考慮することなく、グローバル情報を使用して集中型の価値関数を直接モデル化します。マルチエージェントシステムが多数の個体から構成される場合、このような価値関数を学習または収束するように訓練することは困難であり、理想的な戦略を導き出すことは困難です。さらに、局所的な観察だけに頼っていては、現在の報酬が自分自身の行動によるものなのか、環境内の他のチームメイトの行動によるものなのかを判断することは不可能です。

価値分解ネットワーク (VDN) は、2018 年に DeepMind チームによって提案されました。この方法の中核は、グローバル Q(s,a) 値を各ローカル Qi(si,ai) の加重合計に分解することであり、各エージェントは独自のローカル価値関数を持ちます。

この分解方法は、共同行動の Q 値の構造構成において個々の行動の特性を考慮するため、Q 値の学習が容易になります。一方、集中型のトレーニング方法にも適応でき、マルチエージェントシステムにおける環境の不安定性の問題をある程度克服することもできます。トレーニングプロセスでは、共同行動のQ値を使用して戦略の最適化をガイドし、同時に、個体はグローバルQ値からローカルQi値を抽出して独自の決定を完了し（貪欲戦略ai = argmax Qiなど）、マルチエージェントシステムの分散制御を実現します。

図 9: 左の図は完全に分散されたローカル Q 値ネットワーク構造、右の図は VDN の共同動作 Q 値ネットワーク構造です。 2 つのエージェントを考えます。エージェントの共同アクション Q 値は、個々の Q1 と Q2 を合計することによって得られます。学習中、この共同 Q 値は反復的に更新され、実行中、個々のエージェントはそれぞれの Qi 値に応じて独自のアクション ai を取得します。画像出典: [11]

VDN はエージェント間の関係について強力な仮定を持っていますが、そのような仮定は必ずしもすべての協力型マルチエージェント問題に適しているわけではありません。 2018年のICML会議で、研究者らは改良された方法QMIXを提案しました。

QMIX は、VDN に基づいて 2 つの改善を実現します。1) トレーニングプロセスを支援するためにグローバル情報が追加されます。2) ハイブリッドネットワークを使用して、単一エージェントのローカル値関数をマージします (単純な線形加算ではなく)。

QMIX法では、まずグローバルQ値とローカルQ値が次の関係を満たすと仮定します。グローバルQ_tot値を最大化するアクションは、ローカルQ_a値を最大化するアクションの組み合わせです。つまり、

このような制約の下では、集中学習法を使用して環境の不安定性に対処し、複数のエージェントの共同行動効果を考慮することができます（グローバル Q 値の学習）。また、分散制御を実現するための個別の戦略を抽出することもできます（ローカル Q 値に基づく動作選択）。さらに、この制約は、グローバル Q 値とローカル Q 値の間の単調性制約関係に変換できます。

グローバル Q 値とローカル Q 値の間の制約関係を満たすことができる関数式は多数あります。VDN 法の加重和もその 1 つです。ただし、単純な線形和では、異なる個体の特性が十分に考慮されておらず、全体的な動作とローカルな動作の関係を記述する際に一定の制限があります。 QMIX は、Qa を統合して Q_tot を生成するための関数式としてミキシングネットワークモジュールを使用し、上記の単調性制約を満たすことができます。

図10: QMIXネットワーク構造。画像出典: [12]

QMIX法で設計されたネットワーク構造では、各エージェントがDRQNネットワーク（緑のブロック）を持ち、個体の観察結果を入力として受け取り、リカレントニューラルネットワークを使用して履歴情報を保持・活用し、個体のローカルQi値を出力します。

すべての個体のローカル Qi 値はハイブリッドネットワークモジュール (青いブロック) に入力され、ハイパーネットワークと絶対値計算を使用して各レイヤーの重みが生成されます。絶対値計算により、重みが負でないこと、およびローカル Q 値の積分が単調性制約を満たすことが保証されます。グローバル状態を使用してハイパーネットワークを介して重みを生成すると、グローバル情報をより完全かつ柔軟に利用して共同アクションの Q 値を推定できるため、グローバル Q 値の学習と収束がある程度促進されます。

DQN の考え方を組み合わせて、Q_tot を反復更新の対象とすると、各エージェントのアクションは各反復で Q_tot に応じて次のように選択されます。

最後に、学習は最適な Q_tot に収束し、対応する戦略を導入します。これが QMIX メソッドの学習プロセス全体です。

3. マルチエージェント強化学習の応用

3.1. ゲームアプリケーション

ステップバイステップの対決ゲーム

このタイプのゲームには、Go、Chess、Pokerなどが含まれます。Marlは、これらのゲームで関連する研究の進歩を遂げ、良い結果を達成しました。その中で、有名なアルファゴは、人間に対するGOゲームでの驚くべき結果を通して人々の注目を集めました。 Goは2人のゼロサム確率的ゲームで、毎回プレイヤーがボード全体にアクセスできます。これは、非常に大きな状態空間を含むターンベースのゲームであり、従来のRLメソッドまたは検索方法を直接使用することは困難です。 Alphagoは、深い学習と強化学習方法を組み合わせています。

巨大な状態空間の問題については、ネットワーク構造CNNを使用して、状態情報を抽出および表現します。

トレーニングの最初の段階では、監視されたトレーニングが人間のプレーヤーデータを使用して実行され、事前に訓練されたネットワークを取得します。

トレーニングの第2段階では、ネットワークは強化学習方法と自己ゲームを通じてさらに更新されます。

実際にゲームに参加すると、Value NetworkとPolicy Networkが組み合わされ、Monte Carlo Tree Search（MCTS）メソッドが実際の実行アクションを取得するために使用されます。

図11：2016年にAlphagoが人間のプレーヤーを倒しました。画像ソース：https：//rlss.inria.fr/files/2019/07/rlss_multiagent.pdf

リアルタイム戦略ゲーム

Marlのもう1つの重要なゲームアプリケーションエリアは、StarCraft、Dota、Honor of Kings、Chicken Dinnerなどのリアルタイム戦略ゲームです。上記のターンベースのゲームと比較して、このタイプのゲームはAIをトレーニングするのがより困難です。内部チームの協力を検討する場合、外部の競争も考慮する必要があります。

Openai Fiveは、DOTA 2のOpenaiチームによって開発されたゲームAIです[13]。各ヒーローの分散制御方法（つまり、各ヒーローには独自の意思決定ネットワークモデルがあります）に基づいて、ゲーム内のヒーローのコラボレーションを考慮して、トレーニングプロセス中に、ハイパーパラメーターの「チームスピリット」は、各ヒーローとコントロールチームワークを重視し、チームの全体的な行動に基づく報酬メカニズムを使用します。他のチームとの競争を考慮して、トレーニング中に自己競争（架空の自己プレイ、FSPとも呼ばれます）を使用して、複雑な環境または複雑な対立状況に対処する戦略の能力を向上させます。早くも、OpenaiはDOTA2に基づいたこの自己競争的トレーニング方法に関する関連研究と分析を実施し、インテリジェントエージェントがグループの対立の全体的な能力を強化することができることを発見しました。

Alphastarは、StarCraft IIのOpenaiチームによって開発された別のゲームAIです。メインエージェント、メインエクスプロイト、リーグの搾取者、過去のプレイヤーなど、複数のタイプの個人を使用してリーグを構築します。これらのタイプのエージェントの戦略は、アライアンス内での各タイプのエージェントの戦略と競合します。

図12：リーグエクスプロイトの発見のための学習フレームワーク。画像ソース：[14]

3.2マルチロボット衝突回避

実生活では、マルチロボットのアプリケーションシナリオは、主に複数のロボットのコラボレーションを通じてシステムのパフォーマンスと効率を向上させることです。

モバイルロボットの観点から、自律的な障害物は、基礎となるアプリケーションの重要な技術です。 Jia Panのチーム[13]は、学習プロセス中にマルチロボット衝突回避ナビゲーションの問題を解決するために、集中学習および分散実行メカニズムを使用しました。

図13：複数のロボットは、それぞれのターゲットポイントに向かって移動しながら衝突を避けます。ウェアハウスオブジェクトの分布は、この問題の一般的なシナリオです。画像ソース：[15]

さらに、ロボット間の衝突回避の問題だけでなく、一部の研究では、ロボットと人間の間の衝突回避の問題をSA-CADRLなどの問題（社会的に認識している衝突回避のディープ補強学習）も考慮しています。ナビゲーションタスクの特定の設定（つまり、ロボットは混雑したシーンにあります）によれば、ロボットの戦略がロボットと人間の行動のコラボレーションを達成するために前のセクション1.2.3で言及した明示的な調整メカニズムを学習させることに相当するいくつかの社会的ルールが戦略トレーニングに導入されています。

図14：左の写真は、相互衝突回避のための2つの対称ルール、上部の左側のルール、下の右側のルールを示しています。右側の図は、SA-CADRL法にこのような対称情報を導入することです。出典：[16]

4. 結論

マルチエージェント強化学習（MARL）は、複数のエージェントの順次意思決定の問題に焦点を当てた、強化学習とマルチエージェント学習の2つの分野を組み合わせた重要な研究方向です。この記事では、主に、完全に協力的で完全に競争力のあるハイブリッド関係を含むエージェント間の関係タイプに焦点を当て、マルチエージェントの強化学習の理論とアルゴリズムを紹介し、適用に関していくつかの関連する研究作業をリストします。将来、MARLに関する研究（理論レベルとアプリケーションレベルを含む）は、理論システムのサプリメントと改善、メソッドの再現性、モデルパラメーターのトレーニングと計算、モデルの安全性と堅牢性など、多くの問題を解決する必要があります。

<<: 自国の農業用ドローン産業の発展と成熟を促進するにはどうすればよいでしょうか?

>>: 独学で機械学習エンジニアを目指す人のための 10 の戒律