マルチエージェントシステムにおける協力:MASにおける不確実性、社会的メカニズム、強化学習の探究

マルチエージェントシステムにおける協力:MASにおける不確実性、社会的メカニズム、強化学習の探究

マルチエージェント システム (MAS) は、共通の目標または個別の目標を達成するために相互に対話および連携できる複数の自律エージェントで構成されるシステムです。マルチエージェントシステムは、ロボット工学、輸送、電気、ソーシャルネットワークなど、多くの分野で幅広く応用されています。しかし、特にインセンティブメカニズムが不確実な場合、インテリジェントエージェント間の協力行動をどのように促進するかは、この分野では常に難しい問題でした。インセンティブ メカニズムの不確実性とは、エージェントが他のエージェントとやりとりすることによる利点とリスクを認識する際の不確実性を指します。これにより、エージェントの行動が最適または最も合理的な選択から逸脱し、システム全体の効率と安定性に影響を与える可能性があります。

不確実なインセンティブメカニズムの下でのマルチエージェントシステムの新たな協力を探求するため、オランダのフローニンゲン大学、アムステルダム大学、ブリュッセル自由大学の研究者4人が、2024 AAMASカンファレンスで「不確実なインセンティブ調整の下での新たな協力」と題する論文を発表しました。この論文の革新性と価値は次の点にあります。

1) 完全協力、完全競争、混合動機、閾値状況など、さまざまなタイプのゲーム環境におけるマルチエージェントシステムの相互作用と学習をシミュレートするために、拡張公共財ゲーム (EPGG) に基づく実験フレームワークが提案されています。このフレームワークは、連続的な乗法係数 𝑓 を調整することで、さまざまな程度のインセンティブ調整を表すことができ、それによってマルチエージェントシステムが直面する可能性のあるさまざまなシナリオをカバーします。

2) ガウスノイズモデルを導入して、エージェントの乗算係数 𝑓 に関する不確実性をシミュレートします。つまり、エージェントによって観測される 𝑓 値は、真の 𝑓 値にランダム誤差を加えた値になります。このモデルは、現実世界のインテリジェントエージェントの不完全で不正確な情報を反映できるため、実験の現実感と複雑さが増します。

3) 評判メカニズム、ガイドエージェント、内在的報酬メカニズムという 3 つの社会的メカニズムがインテリジェントエージェントの協力行動に与える影響を調査します。評判メカニズムとは、エージェントが自分自身と対戦相手の行動と評判に基づいて評判を更新し、それによって自身の戦略選択に影響を与えることを指します。ガイドエージェントとは、常に協力的な行動を選択し、他のエージェントの評判に大きな影響を与える固定エージェントを指します。内在的報酬メカニズムとは、環境から得られる報酬に加えて、エージェントは自身の行動や評判に基づいて追加の報酬も受け取り、それによってより協力的になるよう動機づけられることを意味します。

4) 彼らは、Q学習とDQNという2つの強化学習アルゴリズムを使用して、10人のエージェントのグループをトレーニングし、異なるゲーム環境でEPGGゲームを複数ラウンドプレイし、さまざまな社会的メカニズムがエージェントの平均協力率に与える影響を分析しました。平均協力率とは、エージェントが協力行動を選択する平均相対頻度を指し、エージェントの協力レベルと傾向を反映することができます。

この記事では、この論文の主な内容と結論を解釈および分析し、不確実なインセンティブメカニズムの下でのマルチエージェントシステムにおける協力の新たな問題と方法を読者がよりよく理解できるようにします。

モデルのルールと機能

まず、拡張公共財ゲーム(EPGG)の基本的なルールと特徴を紹介します。 EPGG は、複数の参加者間の協力と裏切りの問題を研究するために使用される古典的なゲーム理論モデルです。 EPGG では、各参加者は固定の資産 𝑐 を持ち、資産の一部またはすべてをパブリックプールに投資するか、自分の資産を保持するかを選択できます。パブリックプールの富は乗数 𝑓 で乗算され、すべての参加者に均等に分配されます。乗数𝑓は公共財の生産効率と価値を反映することができ、その大きさによってゲームの性質が決まります。 𝑓がプレイヤー数𝑁より大きい場合、ゲームは協力的であり、全員が自分の富をすべて投資することが最適な戦略であることを意味します。 𝑓 が 1 未満の場合、ゲームは競争的であり、最適な戦略は誰も富を投資しないことであることを意味します。 𝑓 が 1 から 𝑁 の間である場合、ゲームは混合動機、つまり複数の均衡があり、各人の最適な戦略は他の人の戦略に依存します。 𝑓 が 1 または 𝑁 に等しい場合、ゲームは閾値、つまり、どの戦略も均衡であり、全員が同じ報酬を得ます。

図1: プロファイルのエントリ𝒂と𝐼(𝑎𝑗)は、エージェントのアクション𝑗が協力的である場合に1、そうでない場合は0に等しいインジケータ関数であり、𝑐𝑗は合計𝒄の𝑗−番目のエントリを表します。1<𝑓<𝑛と仮定しているため、PGGでは、すべてのエージェントが裏切るプロファイルが優位戦略均衡であり、パレート最適プロファイルはすべてのエージェントが協力するプロファイルであることが簡単に確認できます。これは、PGG の社会的に困難な性質を反映しています。特に、𝑛 = 2の場合、PGGは囚人のジレンマゲームのクラスを定義します。

この論文では、著者らは次のような特徴を持つ拡張 EPGG モデルを使用しました。

いくつかの離散的な値の代わりに連続した乗算係数𝑓を使用すると、より多くのゲーム環境をカバーでき、ゲームの難易度と複雑さが増します。

ガウスノイズモデルは、エージェントの乗算係数 𝑓 に関する不確実性をシミュレートするために使用されます。つまり、エージェントによって観測される 𝑓 値は、真の 𝑓 値にランダム誤差を加えた値です。このモデルは、現実世界のインテリジェントエージェントの不完全で不正確な情報を反映することができ、また、不確実な環境でインテリジェントエージェントがどのように意思決定を行うかを調べることもできます。

評判メカニズムは、エージェント間の信頼と評価をシミュレートするために使用されます。つまり、エージェントは自分自身と対戦相手の行動と評判に基づいて評判を更新し、それによって自身の戦略選択に影響を与えます。評判メカニズムは、エージェント間の社会的規範や影響力を反映することができ、エージェントがより協力的になるように動機付けることもできます。

内在的報酬メカニズムは、エージェントの自己動機付けと満足度をシミュレートするために使用されます。つまり、環境から得られる報酬に加えて、エージェントは自身の行動と評判に基づいて追加の報酬も受け取り、それによってより協力的になるよう動機付けます。内在的報酬メカニズムの具体的な実装は次のとおりです。インテリジェント エージェントは、最初は 0 である自身の評判値を維持します。他のインテリジェント エージェントとやり取りするたびに、自身の行動と相手方の行動に基づいて評判値を更新します。協力を選択した場合、評判値は 1 増加します。裏切りを選択した場合、評判値は 1 減少します。相手が協力を選択した場合、評判値は変化しません。相手が裏切りを選択した場合、評判値は 2 減少します。評判値の範囲は[-10, 10]です。この範囲を超える場合は境界値に切り捨てられます。エージェントの内的報酬は、エージェント自身の評判に係数 𝛼 を掛けたものであり、係数 𝛼 は内的報酬の強度を制御するために使用される正のハイパーパラメータです。エージェントの総報酬は、外的報酬と内的報酬の合計です。

トレーニングプロセス

次に、著者が Q 学習と DQN アルゴリズムを使用してインテリジェント エージェントをトレーニングした具体的なプロセスと結果を見てみましょう。 Q 学習は、エージェントが継続的な試行とフィードバックを通じて、各状態とアクションに対応する期待利益であるアクション価値関数を学習できるようにするテーブルベースの強化学習アルゴリズムです。 DQN は、ニューラル ネットワークに基づく強化学習アルゴリズムです。継続的な観察と学習を通じてアクション価値関数を近似的にフィッティングすることで、インテリジェント エージェントがより複雑で高次元の状態空間に適応できるようになります。著者らはこれら 2 つのアルゴリズムを使用して、さまざまなゲーム環境と社会的メカニズムにおけるパフォーマンスと違いを比較しました。

図 2: 異なる乗数を持つ環境でトレーニングされた DQN エージェントの平均協力。上段 (ad) は協力的援助がない場合の結果を示し、中段 (eh) は協力を促進する評判メカニズムと社会的規範がある場合を示し、下段 (il) は内発的報酬がある場合を示しています。

著者らはまず、不確実性のないQ学習アルゴリズムを使用してエージェントを訓練し、異なる乗数𝑓の下での平均協力率を観察した。著者らは、𝑓 = 0.5 の場合、エージェントの平均協力率は 0 に近く、つまりほぼすべてのエージェントが裏切ることを選択し、それが理論上の最適戦略と一致することを発見しました。 𝑓 = 1.0 の場合、エージェントの平均協力率は 0 よりわずかに高くなります。つまり、エージェントは時折協力行動を選択しますが、これはエージェントの探索行動または不完全な学習が原因である可能性があります。 𝑓 = 1.5のとき、エージェントの平均協力率は0.78に達します。つまり、エージェントはほとんどの場合協力行動を選択し、混合動機ゲームでエージェントが協力的均衡を達成できることを示しています。 𝑓 = 3.5 の場合、エージェントの平均協力率は 1 に近くなります。つまり、ほぼすべてのエージェントが協力行動を選択し、これは理論上の最適戦略と一致します。

著者らは、不確実性を導入しながらDQNアルゴリズムを使用してエージェントをトレーニングし、異なる乗数𝑓の下での平均協力率を観察しました。著者らは、𝑓 = 0.5 の場合、エージェントの平均協力率は 0.1 よりわずかに高い、つまりエージェントが時折協力行動を選択することを発見しました。これは、不確実性の影響によるもので、エージェントが裏切りの利益についてあまり確信が持てなくなるためと考えられます。 𝑓 = 1.0 の場合、エージェントの平均協力率は 0.1 よりわずかに高く、つまりエージェントは時折協力行動を選択し、これは Q 学習の結果に似ています。 𝑓 = 1.5 の場合、エージェントの平均協力率は 0.16 に低下します。これは、エージェントがほとんどの場合に裏切ることを選択することを意味します。これは、不確実性が混合動機ゲームに重大な悪影響を及ぼし、エージェントが協力的均衡に達することを不可能にすることを示しています。 𝑓 = 3.5 の場合、エージェントの平均協力率は 0.4 に低下します。つまり、エージェントが協力行動を選択する可能性は 50% しかありません。これは、不確実性が協力ゲームにも一定の悪影響を及ぼし、エージェントが最適な戦略を達成できなくなることを示しています。

著者らは評判メカニズムを導入し、DQNアルゴリズムを使用してエージェントをトレーニングし、異なる乗数𝑓の下での平均協力率を観察しました。著者らは、𝑓 = 0.5 の場合、エージェントの平均協力率は 0.2 よりわずかに高い、つまりエージェントは時折協力行動を選択することを発見しました。これは評判メカニズムがない場合と同様です。 𝑓 = 1.0 の場合、エージェントの平均協力率は 0.2 よりわずかに高くなります。つまり、エージェントは時折協力行動を選択しますが、これは評判メカニズムがない場合と同様です。 𝑓 = 1.5 の場合、エージェントの平均協力率は 0.33 に増加します。つまり、エージェントが協力行動を選択する確率が一定であり、これは評判メカニズムが混合動機ゲームに一定のプラスの影響を与え、エージェントが有益なパートナーを識別して協力できるようにすることを示しています。 𝑓 = 3.5 の場合、エージェントの平均協力率は 0.65 に増加します。つまり、エージェントはほとんどの場合協力行動を選択します。これは、評判メカニズムが協力ゲームに大きなプラスの影響を与え、エージェントがほぼ最適な戦略を達成できることを示しています。

図3: 不確実性(𝜎𝑖 = 2 ∀𝑖 ∈ 𝑁)下で異なる乗数を持つ環境で訓練されたDQNエージェントの平均協力。結果は4行で示されています。最初の行は評判や内発的報酬なし、2行目は評判と協力につながる社会規範あり、3行目は内発的報酬式あり、4行目は評判、協力につながる社会規範、内発的報酬式ありです。

最後に、著者らは内発的報酬メカニズムを導入し、DQNアルゴリズムを使用してエージェントをトレーニングし、異なる乗数𝑓の下での平均協力率を観察しました。著者らは、𝑓 = 0.5 の場合、エージェントの平均協力率が 0.31 に増加すること、つまり、エージェントが協力行動を選択する一定の確率を持つことを発見しました。これは、内在的報酬メカニズムが競争ゲームに一定のプラスの影響を与え、エージェントがより多くの満足度を得ることができることを示しています。 𝑓 = 1.0 の場合、エージェントの平均協力率は 0.36 に増加します。つまり、エージェントが協力行動を選択する確率が一定であり、これは内在的報酬メカニズムが閾値ゲームに一定のプラスの影響を与え、エージェントがより多くの満足度を得ることができることを示しています。 𝑓 = 1.5 の場合、エージェントの平均協力率は 0.45 に低下します。つまり、エージェントが協力行動を選択する可能性は 50% しかありません。これは、内発的報酬メカニズムが混合動機ゲームに一定の悪影響を及ぼし、エージェントが他のエージェントと協力するよりも自己ゲームに傾くことを示しています。 𝑓 = 3.5 の場合、エージェントの平均協力率は 0.78 に増加します。つまり、エージェントはほとんどの場合協力行動を選択します。これは、内在的報酬メカニズムが協力ゲームに一定のプラスの影響を与え、エージェントがより多くの満足度を得られることを示しています。

実験的結論

上記の実験結果から、以下の結論と視点を導き出すことができます。

不確実性は、特に動機と協力が混在するゲームにおいて、エージェントの協力行動に重大な悪影響を及ぼし、エージェントが協力的均衡または最適な戦略に到達することを不可能にします。これは、不確実性によってエージェントのリスクと不信感が高まり、エージェントが他のエージェントの行動や意図を判断することがより困難になり、保守的または利己的な行動を選択する傾向が高まるためと考えられます。

評判メカニズムは、特に混合動機や協力ゲームにおいて、エージェントの協力行動に大きなプラスの影響を及ぼし、エージェントが有益なパートナーを識別して協力できるようにします。これは、評判メカニズムによってエージェントの信頼と評価が高まり、エージェントが他のエージェントの行動や意図を判断しやすくなり、協力的または相互的な行動を選択する傾向が高まるためと考えられます。

図 4: 不確実性を伴う実験における過去 50 回のトレーニング エポックの平均をとった、各ゲームの協力の平均と標準偏差。これらの尺度は、評判対応メカニズムのみ (R) の場合と、評判メカニズムと内発的報酬の両方 (RI) の場合の 2 つのケースで別々に報告されます。統計的有意性を示す値は太字で表示されています。

内在的報酬メカニズムは、ゲームの性質や他の社会的メカニズムの存在に応じて、エージェントの協力行動にさまざまな影響を及ぼします。競争ゲームや閾値ゲームでは、エージェントは過度の利益の喪失を心配することなく協力からより多くの満足を得ることができるため、内在的報酬メカニズムによってエージェントの協力行動を改善できます。混合動機ゲームでは、エージェントが自己満足を過度に追求し、他のエージェントの関心やフィードバックを無視する可能性があるため、内発的報酬メカニズムによってエージェントの協力的な行動が減少する可能性があります。協力ゲームでは、エージェントは協力からより多くの満足を得ることができ、興味とフィードバックが他のエージェントのものと一致するため、内在的報酬メカニズムによってエージェントの協力行動を改善できます。評判メカニズムとガイダンスエージェントも存在する場合、内在的報酬メカニズムがそれらを補完し、エージェントが異なるゲーム環境で協力したり裏切ったりすることが容易になります。

さまざまなゲーム環境や社会的メカニズムにおける Q 学習と DQN アルゴリズムのパフォーマンスと違いはこの記事の焦点では​​ありませんが、実験結果からいくつかの興味深い現象が観察されます。たとえば、Q 学習アルゴリズムは不確実性がない場合に最適な戦略をより適切に学習できますが、DQN アルゴリズムは不確実性がある場合により複雑で高次元の状態空間に適応できます。さらに、Q 学習アルゴリズムは混合動機ゲームでより高い平均協力率を達成できますが、DQN アルゴリズムは協力ゲームでより高い平均協力率を達成できます。これらの現象は、アルゴリズムの特性やパラメータの選択に関係している可能性があり、あるいは実験の設定やランダム性に関係している可能性があり、さらなる研究と検証が必要です。

要約と展望

この論文の主な貢献は、拡張公共財ゲーム (EPGG) に基づく実験フレームワークを提案し、さまざまな種類のゲーム環境でのマルチエージェントシステムの相互作用と学習をシミュレートし、特にインセンティブメカニズムが不確実な場合に、3 つの社会的メカニズム (評判メカニズム、ガイダンスエージェント、内在的報酬メカニズム) がエージェントの協力行動に与える影響を調査することです。この論文の実験結果は、不確実性がエージェントの協力行動に重大な悪影響を及ぼし、社会的メカニズムはゲーム環境によって異なる効果を生み出し、時には互いに補完し、時には相殺する可能性があることを示しています。著者の研究は、マルチエージェントシステムの協力問題に対する新しい視点と方法を提供し、将来の研究へのインスピレーションと方向性も提供します。

今後の研究は、環境、アルゴリズム、メカニズムなどの面で拡大し、深めることができます。より多くの参加者、より複雑なアクション空間、より多くの情報次元などを考慮した、より多くのゲーム環境で実験を実施し、本論文の実験フレームワークと社会的メカニズムの普遍性と有効性をテストします。より高度なアルゴリズム、より多くのハイパーパラメータ、より多くのネットワーク構造などを考慮した、より多くの強化学習アルゴリズムで実験を実施し、さまざまなゲーム環境や社会的メカニズムにおけるさまざまなアルゴリズムのパフォーマンスと違いを比較します。より多くの評判更新ルール、エージェントを導くためのより多くの比率と戦略、より多くの形式の内在的報酬などを考慮するなど、より多くの社会的メカニズムを試して、さまざまな社会的メカニズムがエージェントの協力的行動に与える影響とメカニズムを調査します。エージェント間の言語通信、信号伝送、協力プロトコルなどのより多くの通信および調整メカニズムを試して、通信および調整メカニズムが社会的メカニズムとどのように相互作用するか、およびエージェント間の協力と信頼をどのように促進するかを研究します。

この論文の研究は、マルチエージェントシステムの協力問題に対する新しい視点と方法を提供し、将来の研究へのインスピレーションと方向性も提供します。この論文が読者の興味と注目を集めることを期待するとともに、より多くの研究者と実務家がこの興味深く有意義な分野に参加し、不確実なインセンティブメカニズムの下でのマルチエージェントシステムにおける新たな協力の謎と可能性を共同で探求することを期待しています。 (終わり)

参照: https://arxiv.org/abs/2401.12646

<<:  OpenAIはひっそりとその約束を放棄し、大量の社内文書を公開しなくなった

>>: 

推薦する

無人公共交通機関が議題に上がっており、自動運転はまだ改善の余地がある

10月21日、蘇州で5G無人バスの定期運行が開始された。蘇州高速鉄道新城でデビューしたこの無人バスは...

...

Google DeepMindは少なくとも21の新しい生成AI機能を開発中

Google は、人生アドバイスや予算作成などのタスクを実行できるさまざまな生成 AI 機能を開発し...

アマゾンは40億ドルを投資し、グーグルや他の企業もさらに20億ドルを投資する予定で、アントロピックの評価額は急上昇中

テクノロジーニュースサイト「The Information」によると、人工知能の新興企業Anthro...

...

ソートアルゴリズムのより詳細な概要

ソートアルゴリズム平均時間計算量バブルソート (n2) 選択ソート (n2) 挿入ソート (n2) ...

Google とスタンフォード大学が共同で記事「なぜ大規模なモデルを使用する必要があるのか​​?」を発表しました。

言語モデルは、自然言語処理の分野における研究と実践に大きな変化をもたらしました。近年、大型モデルは多...

Python の顔認識の優れた教育例、顔認識システムを構築するための 40 行のコード!

[[229034]] Face Id は、高性能な顔認証ソフトウェアです。公式の主張は、「100 ...

機械学習では自然言語理解を解決できない

経験とデータに基づく革命統計革命は 1990 年代初頭に人工知能 (AI) に広がり、2000 年代...

スマートホーム技術における感情AIの役割

スマートホーム テクノロジーの登場により、私たちが生活空間と関わる方法は大きく変わりました。音声制御...

研究AI面接に合格するには? RedditユーザーがGoogleの面接体験を語る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動運転時代のヒューマンマシンインタラクションの発展動向

自動車技術の継続的な向上とインターネット技術の普及に伴い、自動車に付与される機能はますます増えていま...

デフォルトの心配はありません!ファーウェイとSTマイクロエレクトロニクスが共同でチップを設計

ファーウェイにとって、独自のチップを開発することは必ず進むべき道であり、さらなる発展を遂げたいのであ...