マルチエージェントシステムにおける協力：MASにおける不確実性、社会的メカニズム、強化学習の探究

マルチエージェントシステム (MAS) は、共通の目標または個別の目標を達成するために相互に対話および連携できる複数の自律エージェントで構成されるシステムです。マルチエージェントシステムは、ロボット工学、輸送、電気、ソーシャルネットワークなど、多くの分野で幅広く応用されています。しかし、特にインセンティブメカニズムが不確実な場合、インテリジェントエージェント間の協力行動をどのように促進するかは、この分野では常に難しい問題でした。インセンティブメカニズムの不確実性とは、エージェントが他のエージェントとやりとりすることによる利点とリスクを認識する際の不確実性を指します。これにより、エージェントの行動が最適または最も合理的な選択から逸脱し、システム全体の効率と安定性に影響を与える可能性があります。

不確実なインセンティブメカニズムの下でのマルチエージェントシステムの新たな協力を探求するため、オランダのフローニンゲン大学、アムステルダム大学、ブリュッセル自由大学の研究者4人が、2024 AAMASカンファレンスで「不確実なインセンティブ調整の下での新たな協力」と題する論文を発表しました。この論文の革新性と価値は次の点にあります。

1) 完全協力、完全競争、混合動機、閾値状況など、さまざまなタイプのゲーム環境におけるマルチエージェントシステムの相互作用と学習をシミュレートするために、拡張公共財ゲーム (EPGG) に基づく実験フレームワークが提案されています。このフレームワークは、連続的な乗法係数 𝑓 を調整することで、さまざまな程度のインセンティブ調整を表すことができ、それによってマルチエージェントシステムが直面する可能性のあるさまざまなシナリオをカバーします。

2) ガウスノイズモデルを導入して、エージェントの乗算係数 𝑓 に関する不確実性をシミュレートします。つまり、エージェントによって観測される 𝑓 値は、真の 𝑓 値にランダム誤差を加えた値になります。このモデルは、現実世界のインテリジェントエージェントの不完全で不正確な情報を反映できるため、実験の現実感と複雑さが増します。

3) 評判メカニズム、ガイドエージェント、内在的報酬メカニズムという 3 つの社会的メカニズムがインテリジェントエージェントの協力行動に与える影響を調査します。評判メカニズムとは、エージェントが自分自身と対戦相手の行動と評判に基づいて評判を更新し、それによって自身の戦略選択に影響を与えることを指します。ガイドエージェントとは、常に協力的な行動を選択し、他のエージェントの評判に大きな影響を与える固定エージェントを指します。内在的報酬メカニズムとは、環境から得られる報酬に加えて、エージェントは自身の行動や評判に基づいて追加の報酬も受け取り、それによってより協力的になるよう動機づけられることを意味します。

4) 彼らは、Q学習とDQNという2つの強化学習アルゴリズムを使用して、10人のエージェントのグループをトレーニングし、異なるゲーム環境でEPGGゲームを複数ラウンドプレイし、さまざまな社会的メカニズムがエージェントの平均協力率に与える影響を分析しました。平均協力率とは、エージェントが協力行動を選択する平均相対頻度を指し、エージェントの協力レベルと傾向を反映することができます。

この記事では、この論文の主な内容と結論を解釈および分析し、不確実なインセンティブメカニズムの下でのマルチエージェントシステムにおける協力の新たな問題と方法を読者がよりよく理解できるようにします。

モデルのルールと機能

まず、拡張公共財ゲーム（EPGG）の基本的なルールと特徴を紹介します。 EPGG は、複数の参加者間の協力と裏切りの問題を研究するために使用される古典的なゲーム理論モデルです。 EPGG では、各参加者は固定の資産 𝑐 を持ち、資産の一部またはすべてをパブリックプールに投資するか、自分の資産を保持するかを選択できます。パブリックプールの富は乗数 𝑓 で乗算され、すべての参加者に均等に分配されます。乗数𝑓は公共財の生産効率と価値を反映することができ、その大きさによってゲームの性質が決まります。 𝑓がプレイヤー数𝑁より大きい場合、ゲームは協力的であり、全員が自分の富をすべて投資することが最適な戦略であることを意味します。 𝑓 が 1 未満の場合、ゲームは競争的であり、最適な戦略は誰も富を投資しないことであることを意味します。 𝑓 が 1 から 𝑁 の間である場合、ゲームは混合動機、つまり複数の均衡があり、各人の最適な戦略は他の人の戦略に依存します。 𝑓 が 1 または 𝑁 に等しい場合、ゲームは閾値、つまり、どの戦略も均衡であり、全員が同じ報酬を得ます。

図1: プロファイルのエントリ𝒂と𝐼(𝑎𝑗)は、エージェントのアクション𝑗が協力的である場合に1、そうでない場合は0に等しいインジケータ関数であり、𝑐𝑗は合計𝒄の𝑗−番目のエントリを表します。1<𝑓<𝑛と仮定しているため、PGGでは、すべてのエージェントが裏切るプロファイルが優位戦略均衡であり、パレート最適プロファイルはすべてのエージェントが協力するプロファイルであることが簡単に確認できます。これは、PGG の社会的に困難な性質を反映しています。特に、𝑛 = 2の場合、PGGは囚人のジレンマゲームのクラスを定義します。

この論文では、著者らは次のような特徴を持つ拡張 EPGG モデルを使用しました。

いくつかの離散的な値の代わりに連続した乗算係数𝑓を使用すると、より多くのゲーム環境をカバーでき、ゲームの難易度と複雑さが増します。

ガウスノイズモデルは、エージェントの乗算係数 𝑓 に関する不確実性をシミュレートするために使用されます。つまり、エージェントによって観測される 𝑓 値は、真の 𝑓 値にランダム誤差を加えた値です。このモデルは、現実世界のインテリジェントエージェントの不完全で不正確な情報を反映することができ、また、不確実な環境でインテリジェントエージェントがどのように意思決定を行うかを調べることもできます。

評判メカニズムは、エージェント間の信頼と評価をシミュレートするために使用されます。つまり、エージェントは自分自身と対戦相手の行動と評判に基づいて評判を更新し、それによって自身の戦略選択に影響を与えます。評判メカニズムは、エージェント間の社会的規範や影響力を反映することができ、エージェントがより協力的になるように動機付けることもできます。

内在的報酬メカニズムは、エージェントの自己動機付けと満足度をシミュレートするために使用されます。つまり、環境から得られる報酬に加えて、エージェントは自身の行動と評判に基づいて追加の報酬も受け取り、それによってより協力的になるよう動機付けます。内在的報酬メカニズムの具体的な実装は次のとおりです。インテリジェントエージェントは、最初は 0 である自身の評判値を維持します。他のインテリジェントエージェントとやり取りするたびに、自身の行動と相手方の行動に基づいて評判値を更新します。協力を選択した場合、評判値は 1 増加します。裏切りを選択した場合、評判値は 1 減少します。相手が協力を選択した場合、評判値は変化しません。相手が裏切りを選択した場合、評判値は 2 減少します。評判値の範囲は[-10, 10]です。この範囲を超える場合は境界値に切り捨てられます。エージェントの内的報酬は、エージェント自身の評判に係数 𝛼 を掛けたものであり、係数 𝛼 は内的報酬の強度を制御するために使用される正のハイパーパラメータです。エージェントの総報酬は、外的報酬と内的報酬の合計です。

トレーニングプロセス

次に、著者が Q 学習と DQN アルゴリズムを使用してインテリジェントエージェントをトレーニングした具体的なプロセスと結果を見てみましょう。 Q 学習は、エージェントが継続的な試行とフィードバックを通じて、各状態とアクションに対応する期待利益であるアクション価値関数を学習できるようにするテーブルベースの強化学習アルゴリズムです。 DQN は、ニューラルネットワークに基づく強化学習アルゴリズムです。継続的な観察と学習を通じてアクション価値関数を近似的にフィッティングすることで、インテリジェントエージェントがより複雑で高次元の状態空間に適応できるようになります。著者らはこれら 2 つのアルゴリズムを使用して、さまざまなゲーム環境と社会的メカニズムにおけるパフォーマンスと違いを比較しました。

図 2: 異なる乗数を持つ環境でトレーニングされた DQN エージェントの平均協力。上段 (ad) は協力的援助がない場合の結果を示し、中段 (eh) は協力を促進する評判メカニズムと社会的規範がある場合を示し、下段 (il) は内発的報酬がある場合を示しています。

著者らはまず、不確実性のないQ学習アルゴリズムを使用してエージェントを訓練し、異なる乗数𝑓の下での平均協力率を観察した。著者らは、𝑓 = 0.5 の場合、エージェントの平均協力率は 0 に近く、つまりほぼすべてのエージェントが裏切ることを選択し、それが理論上の最適戦略と一致することを発見しました。 𝑓 = 1.0 の場合、エージェントの平均協力率は 0 よりわずかに高くなります。つまり、エージェントは時折協力行動を選択しますが、これはエージェントの探索行動または不完全な学習が原因である可能性があります。 𝑓 = 1.5のとき、エージェントの平均協力率は0.78に達します。つまり、エージェントはほとんどの場合協力行動を選択し、混合動機ゲームでエージェントが協力的均衡を達成できることを示しています。 𝑓 = 3.5 の場合、エージェントの平均協力率は 1 に近くなります。つまり、ほぼすべてのエージェントが協力行動を選択し、これは理論上の最適戦略と一致します。

著者らは、不確実性を導入しながらDQNアルゴリズムを使用してエージェントをトレーニングし、異なる乗数𝑓の下での平均協力率を観察しました。著者らは、𝑓 = 0.5 の場合、エージェントの平均協力率は 0.1 よりわずかに高い、つまりエージェントが時折協力行動を選択することを発見しました。これは、不確実性の影響によるもので、エージェントが裏切りの利益についてあまり確信が持てなくなるためと考えられます。 𝑓 = 1.0 の場合、エージェントの平均協力率は 0.1 よりわずかに高く、つまりエージェントは時折協力行動を選択し、これは Q 学習の結果に似ています。 𝑓 = 1.5 の場合、エージェントの平均協力率は 0.16 に低下します。これは、エージェントがほとんどの場合に裏切ることを選択することを意味します。これは、不確実性が混合動機ゲームに重大な悪影響を及ぼし、エージェントが協力的均衡に達することを不可能にすることを示しています。 𝑓 = 3.5 の場合、エージェントの平均協力率は 0.4 に低下します。つまり、エージェントが協力行動を選択する可能性は 50% しかありません。これは、不確実性が協力ゲームにも一定の悪影響を及ぼし、エージェントが最適な戦略を達成できなくなることを示しています。

著者らは評判メカニズムを導入し、DQNアルゴリズムを使用してエージェントをトレーニングし、異なる乗数𝑓の下での平均協力率を観察しました。著者らは、𝑓 = 0.5 の場合、エージェントの平均協力率は 0.2 よりわずかに高い、つまりエージェントは時折協力行動を選択することを発見しました。これは評判メカニズムがない場合と同様です。 𝑓 = 1.0 の場合、エージェントの平均協力率は 0.2 よりわずかに高くなります。つまり、エージェントは時折協力行動を選択しますが、これは評判メカニズムがない場合と同様です。 𝑓 = 1.5 の場合、エージェントの平均協力率は 0.33 に増加します。つまり、エージェントが協力行動を選択する確率が一定であり、これは評判メカニズムが混合動機ゲームに一定のプラスの影響を与え、エージェントが有益なパートナーを識別して協力できるようにすることを示しています。 𝑓 = 3.5 の場合、エージェントの平均協力率は 0.65 に増加します。つまり、エージェントはほとんどの場合協力行動を選択します。これは、評判メカニズムが協力ゲームに大きなプラスの影響を与え、エージェントがほぼ最適な戦略を達成できることを示しています。

図3: 不確実性（𝜎𝑖 = 2 ∀𝑖 ∈ 𝑁）下で異なる乗数を持つ環境で訓練されたDQNエージェントの平均協力。結果は4行で示されています。最初の行は評判や内発的報酬なし、2行目は評判と協力につながる社会規範あり、3行目は内発的報酬式あり、4行目は評判、協力につながる社会規範、内発的報酬式ありです。

最後に、著者らは内発的報酬メカニズムを導入し、DQNアルゴリズムを使用してエージェントをトレーニングし、異なる乗数𝑓の下での平均協力率を観察しました。著者らは、𝑓 = 0.5 の場合、エージェントの平均協力率が 0.31 に増加すること、つまり、エージェントが協力行動を選択する一定の確率を持つことを発見しました。これは、内在的報酬メカニズムが競争ゲームに一定のプラスの影響を与え、エージェントがより多くの満足度を得ることができることを示しています。 𝑓 = 1.0 の場合、エージェントの平均協力率は 0.36 に増加します。つまり、エージェントが協力行動を選択する確率が一定であり、これは内在的報酬メカニズムが閾値ゲームに一定のプラスの影響を与え、エージェントがより多くの満足度を得ることができることを示しています。 𝑓 = 1.5 の場合、エージェントの平均協力率は 0.45 に低下します。つまり、エージェントが協力行動を選択する可能性は 50% しかありません。これは、内発的報酬メカニズムが混合動機ゲームに一定の悪影響を及ぼし、エージェントが他のエージェントと協力するよりも自己ゲームに傾くことを示しています。 𝑓 = 3.5 の場合、エージェントの平均協力率は 0.78 に増加します。つまり、エージェントはほとんどの場合協力行動を選択します。これは、内在的報酬メカニズムが協力ゲームに一定のプラスの影響を与え、エージェントがより多くの満足度を得られることを示しています。

実験的結論

上記の実験結果から、以下の結論と視点を導き出すことができます。

不確実性は、特に動機と協力が混在するゲームにおいて、エージェントの協力行動に重大な悪影響を及ぼし、エージェントが協力的均衡または最適な戦略に到達することを不可能にします。これは、不確実性によってエージェントのリスクと不信感が高まり、エージェントが他のエージェントの行動や意図を判断することがより困難になり、保守的または利己的な行動を選択する傾向が高まるためと考えられます。

評判メカニズムは、特に混合動機や協力ゲームにおいて、エージェントの協力行動に大きなプラスの影響を及ぼし、エージェントが有益なパートナーを識別して協力できるようにします。これは、評判メカニズムによってエージェントの信頼と評価が高まり、エージェントが他のエージェントの行動や意図を判断しやすくなり、協力的または相互的な行動を選択する傾向が高まるためと考えられます。

図 4: 不確実性を伴う実験における過去 50 回のトレーニングエポックの平均をとった、各ゲームの協力の平均と標準偏差。これらの尺度は、評判対応メカニズムのみ (R) の場合と、評判メカニズムと内発的報酬の両方 (RI) の場合の 2 つのケースで別々に報告されます。統計的有意性を示す値は太字で表示されています。

内在的報酬メカニズムは、ゲームの性質や他の社会的メカニズムの存在に応じて、エージェントの協力行動にさまざまな影響を及ぼします。競争ゲームや閾値ゲームでは、エージェントは過度の利益の喪失を心配することなく協力からより多くの満足を得ることができるため、内在的報酬メカニズムによってエージェントの協力行動を改善できます。混合動機ゲームでは、エージェントが自己満足を過度に追求し、他のエージェントの関心やフィードバックを無視する可能性があるため、内発的報酬メカニズムによってエージェントの協力的な行動が減少する可能性があります。協力ゲームでは、エージェントは協力からより多くの満足を得ることができ、興味とフィードバックが他のエージェントのものと一致するため、内在的報酬メカニズムによってエージェントの協力行動を改善できます。評判メカニズムとガイダンスエージェントも存在する場合、内在的報酬メカニズムがそれらを補完し、エージェントが異なるゲーム環境で協力したり裏切ったりすることが容易になります。

さまざまなゲーム環境や社会的メカニズムにおける Q 学習と DQN アルゴリズムのパフォーマンスと違いはこの記事の焦点ではありませんが、実験結果からいくつかの興味深い現象が観察されます。たとえば、Q 学習アルゴリズムは不確実性がない場合に最適な戦略をより適切に学習できますが、DQN アルゴリズムは不確実性がある場合により複雑で高次元の状態空間に適応できます。さらに、Q 学習アルゴリズムは混合動機ゲームでより高い平均協力率を達成できますが、DQN アルゴリズムは協力ゲームでより高い平均協力率を達成できます。これらの現象は、アルゴリズムの特性やパラメータの選択に関係している可能性があり、あるいは実験の設定やランダム性に関係している可能性があり、さらなる研究と検証が必要です。

要約と展望

この論文の主な貢献は、拡張公共財ゲーム (EPGG) に基づく実験フレームワークを提案し、さまざまな種類のゲーム環境でのマルチエージェントシステムの相互作用と学習をシミュレートし、特にインセンティブメカニズムが不確実な場合に、3 つの社会的メカニズム (評判メカニズム、ガイダンスエージェント、内在的報酬メカニズム) がエージェントの協力行動に与える影響を調査することです。この論文の実験結果は、不確実性がエージェントの協力行動に重大な悪影響を及ぼし、社会的メカニズムはゲーム環境によって異なる効果を生み出し、時には互いに補完し、時には相殺する可能性があることを示しています。著者の研究は、マルチエージェントシステムの協力問題に対する新しい視点と方法を提供し、将来の研究へのインスピレーションと方向性も提供します。

今後の研究は、環境、アルゴリズム、メカニズムなどの面で拡大し、深めることができます。より多くの参加者、より複雑なアクション空間、より多くの情報次元などを考慮した、より多くのゲーム環境で実験を実施し、本論文の実験フレームワークと社会的メカニズムの普遍性と有効性をテストします。より高度なアルゴリズム、より多くのハイパーパラメータ、より多くのネットワーク構造などを考慮した、より多くの強化学習アルゴリズムで実験を実施し、さまざまなゲーム環境や社会的メカニズムにおけるさまざまなアルゴリズムのパフォーマンスと違いを比較します。より多くの評判更新ルール、エージェントを導くためのより多くの比率と戦略、より多くの形式の内在的報酬などを考慮するなど、より多くの社会的メカニズムを試して、さまざまな社会的メカニズムがエージェントの協力的行動に与える影響とメカニズムを調査します。エージェント間の言語通信、信号伝送、協力プロトコルなどのより多くの通信および調整メカニズムを試して、通信および調整メカニズムが社会的メカニズムとどのように相互作用するか、およびエージェント間の協力と信頼をどのように促進するかを研究します。

この論文の研究は、マルチエージェントシステムの協力問題に対する新しい視点と方法を提供し、将来の研究へのインスピレーションと方向性も提供します。この論文が読者の興味と注目を集めることを期待するとともに、より多くの研究者と実務家がこの興味深く有意義な分野に参加し、不確実なインセンティブメカニズムの下でのマルチエージェントシステムにおける新たな協力の謎と可能性を共同で探求することを期待しています。（終わり）

参照: https://arxiv.org/abs/2401.12646

<<: OpenAIはひっそりとその約束を放棄し、大量の社内文書を公開しなくなった

>>: