東大大学の中国人博士が「心の理論」を使ってテキサスホールデムをプレイすることを GPT-4 に教えました。従来のアルゴリズムを上回り、人間の初心者を圧倒する

東大大学の中国人博士が「心の理論」を使ってテキサスホールデムをプレイすることを GPT-4 に教えました。従来のアルゴリズムを上回り、人間の初心者を圧倒する

完全情報ゲームでは、すべてのプレイヤーがすべての情報要素を知っています。

しかし、不完全情報ゲームは異なります。不確実または不完全な情報の下で現実世界で意思決定を行う複雑さをシミュレートします。

GPT-4 は現在利用可能な最も強力なモデルであり、並外れた知識検索および推論機能を備えています。

しかし、GPT-4 は学習した知識を使って不完全な情報でゲームをプレイできるのでしょうか?

この目的のために、東京大学の研究者は、GPT-4 の機能を活用して不完全情報ゲームを実行する革新的なインテリジェント エージェント Suspicion Agent を導入しました。

論文アドレス: https://arxiv.org/abs/2309.17277

この研究では、GPT-4 ベースの Suspicion Agent は適切なプロンプト エンジニアリングを通じてさまざまな機能を実現し、一連の不完全情報ゲームで優れた適応性を示しました。

最も重要なことは、ゲーム中に GPT-4 が強力な高次心の理論 (ToM) 機能を発揮したことです。

GPT-4 は、人間の認知に関する理解を活用して、敵の思考プロセス、感受性、行動を予測できます。

これは、GPT-4 が人間のような他者の行動を理解し、意図的に影響を与える能力を持っていることを意味します。

同様に、GPT-4 ベースのエージェントは不完全情報ゲームでも従来のアルゴリズムよりも優れたパフォーマンスを発揮し、不完全情報ゲームにおける LLM のさらなる応用につながる可能性があります。

トレーニング方法

LLM が特別な訓練なしにさまざまな不完全情報ゲームをプレイできるようにするために、研究者は、観察解釈、ゲームパターン分析、計画モジュールなど、下の図に示すいくつかのモジュールにタスク全体を分解しました。

そして、不完全情報ゲームで LLM が誤解される可能性があるという問題を軽減するために、研究者はまず、LLM がゲームのルールと現在の状態を理解するのに役立つ構造化されたプロンプトを開発しました。

不完全情報ゲームの各タイプについて、次のような構造化されたルール記述を記述できます。

一般ルール: ゲームの説明、ラウンド数、賭けのルール。

アクションの説明: (アクション 1 の説明)、(アクション 2 の説明)...;

単一ゲームの勝ち負けルール: 単一ゲームの勝ち、負け、または引き分けの条件。

勝敗報酬ルール: 1 回のゲームでの勝利または敗北に対する報酬またはペナルティ。

ゲーム全体の勝敗のルール: ゲーム数と全体的な勝敗条件。

ほとんどの不完全情報ゲーム環境では、機械学習を容易にするために、ゲームの状態は通常、クリック ベクトルなどの低レベルの数値として表されます。

しかし、LLM を使用すると、低レベルのゲーム状態を自然言語テキストに変換して、パターンを理解しやすくなります。

入力の説明: 辞書、リスト、その他の形式などの受信した入力の種類、およびゲーム状態内の要素の数と各要素の名前を説明します。

要素の説明: (要素 11 の説明、(要素 2 の説明)、....

変換のヒント: 低レベルのゲーム状態をテキストに変換する際の詳細なガイダンス。

ゲーム ルールと観測変換ルールを使用すると、低レベルのゲーム状態を と表記される読み取り可能なテキストに効果的に変換できます

この読み取り可能なテキストは、LLM への入力として使用できます。使用

生成されたテキスト内の各要素の条件付き分布は次のようにモデル化できます。

ここで、は言語モデルを表し、パラメータはMは生成されたテキストの長さであり、このモジュールは観測インタープリタと呼ばれます。

情報が不完全なゲームでは、この表現によりモデルとの相互作用を理解しやすくなります。

研究者らは、ゲームの履歴を自動的に調べるように設計された反射モジュールを特徴とするニヒリスト計画アプローチを導入しました。これにより、LLM は過去の経験から計画を学習して改善することができます。また、重要な決定を下すことに特化した別の計画モジュールも導入されました。

しかし、ニヒリスト的な計画アプローチは、不完全な情報に基づくゲームに内在する不確実性に対処するのに苦労することが多く、特に他人の戦略を巧みに利用する対戦相手と対峙した場合にその傾向が顕著です。

この適応性にヒントを得て、研究者たちは、LLM の ToM 機能を活用して対戦相手の行動を理解し、それに応じて戦略を調整する新しい計画方法を設計しました。

実験

定量評価

表 1 に示すように、Suspicion Agent はすべてのベースラインを上回っており、GPT-4 ベースの Suspicion Agent は比較で最も高い平均チップ数を獲得しています。

これらの調査結果は、不完全情報ゲームの分野で大規模言語モデルを使用する利点を強く示しており、提案されたフレームワークの有効性も証明しています。

次の図は、Suspicion Agent とベースライン モデルのアクション パーセンテージを示しています。

次のことがわかります。

Suspicion Agent vs CFR: CFR アルゴリズムは保守的な戦略であり、弱いハンドを持っている場合は保守的になり、フォールドすることがよくあります。

Suspicion Agent はこのパターンをうまく特定し、戦略的にレイズ頻度を上げることを選択し、CFR にフォールド プレッシャーをかけました。

これにより、Suspicion Agent は、手札が CFR と同等または弱い場合でも、より多くのチップを蓄積できるようになります。

Suspicion Agent vs DMC: DMC は検索アルゴリズムに基づいており、ブラフを含むより多様な戦略セットを使用します。手札が最も弱いときだけでなく、最も強いときにもレイズすることがよくあります。

それに応じて、疑惑エージェントは、自身のハンドと DMC の観察された動作に基づいて、レイズする頻度を減らし、コールまたはフォールドする頻度を増やしました。

Suspicion Agent vs DON: DON アルゴリズムはより積極的なスタンスを取り、強いハンドまたは中程度のハンドではほとんど常にレイズし、決してフォールドしません。

Suspicion Agent はこれに気づき、コミュニティ カードと DON のアクションに基づいてコールまたはフォールドを選択して、自身のレイズを最小限に抑えます。

Suspicion Agent 対 NFSP: NFSP はコール戦略を採用し、常にコールし、決してフォールドしないことを選択します。

疑惑エージェントは、コミュニティ カードと NFSP が観察したアクションに基づいて、レイズの頻度を減らし、フォールドを選択することで応答します。

上記の分析結果から、Suspicion Agent は適応性が高く、他のさまざまなアルゴリズムが採用している戦略の弱点を利用できることがわかります。

これは、不完全情報ゲームにおける大規模言語モデルの推論と適応性を完全に実証しています。

定性評価

定性評価では、研究者らは、Coup、Texas Hold'em Limit、Leduc Hold'em という 3 つの不完全情報ゲームで Suspicion Agent を評価しました。

クーデターは中国語で「クーデター」と訳され、プレイヤーが政治家を演じて他のプレイヤーの政権を転覆させようとするカードゲームです。ゲームの目的は生き残り、力を蓄積することです。

テキサス ホールデム リミットは、テキサス ホールデム (リミット) とも呼ばれ、さまざまなバリエーションがある非常に人気のあるポーカー ゲームです。 「制限」とは、各賭けラウンドに固定の上限があり、プレイヤーが賭けることができる金額が固定されていることを意味します。

Leduc Hold'em は、ゲーム理論と人工知能の研究に使用される Texas Hold'em の簡易版です。

いずれの場合も、疑惑エージェントは手札にジャックを持っており、対戦相手はジャックかクイーンのいずれかを持っています。

相手は最初はレイズではなくコールを選択し、自分のハンドが弱いことを示唆しています。通常の計画戦略では、Suspicion Agent はコミュニティ カードを確認するためにコールすることを選択します。

これにより、対戦相手の手札が弱いことが明らかになると、対戦相手はすぐにレイズし、ジャックが最も弱い手札であるため、疑惑エージェントは危険な状況に陥ります。

第一級の理論的メンタル戦略では、疑惑エージェントは損失を最小限に抑えるためにフォールドすることを選択します。この決定は、相手がクイーンまたはジャックを持っているときにコールすることが一般的であるという観察に基づいています。

しかし、これらの戦略では、相手の手札の想定される弱点を十分に利用することはできません。この欠点は、疑惑エージェントの行動が相手の反応にどのような影響を与えるかを考慮していないことに起因します。

対照的に、図 9 に示すように、単純な手がかりによって、疑惑エージェントは相手の行動にどのように影響を与えるかを理解できるようになります。意図的にレイズを選択すると、相手にプレッシャーがかかり、フォールドを促して損失を最小限に抑えることができます。

したがって、ハンドの強さが同じであっても、Suspicion Agent は多くのゲームに勝つことができ、ベースラインよりも多くのチップを獲得できます。

さらに、図 10 に示すように、相手が疑惑エージェントのレイズにコールまたは応答すると (これは相手が強いハンドを持っていることを示します)、疑惑エージェントはすぐに戦略を調整し、さらなる損失を防ぐためにフォールドを選択します。

これは、Suspicion Agent の優れた戦略的柔軟性を示しています。

アブレーション研究と成分分析

異なる順序の ToM を考慮した計画方法が大規模言語モデルの動作にどのように影響するかを調べるために、研究者は Leduc Hold'em と plaagainst CFR で実験と比較を実施しました。

図 5 は、異なる ToM レベルで計画された Suspicion Agent のアクションの割合を示しており、表 3 はチップ ゲインの結果を示しています。

表3: CFRonLeduc Hold'em環境で異なるレベルのToMを使用したSuspicion Agentの比較結果と100ゲーム後の定量的結果

次のことがわかります。

Reflexion モジュールのバニラ プランニングに基づくと、チームはゲーム中にコールとチェックをより頻繁に行う傾向があります (コールとチェックの比率は CFR と DMC に対して最も高くなります)。これにより、相手をフォールドさせるためのプレッシャーをかけることができず、多くの不必要な損失につながります。

ただし、表 3 に示すように、バニラ プランではチップ獲得量が最も低くなります。

一次 ToM を使用すると、Suspicion Agent は自身のカードの強さと対戦相手のカードの強さの推定に基づいて決定を下すことができます。

したがって、通常のプランよりも頻繁にレイズしますが、不必要な損失を最小限に抑えるために、他の戦略よりもフ​​ォールドすることが多くなります。ただし、この慎重なアプローチは、巧妙な敵対者モデルによって悪用される可能性があります。

たとえば、DMC は最も弱いハンドでレイズすることが多いですが、CFR はミッドレベルのハンドでもレイズして Suspicion Agent にプレッシャーをかけることがあります。このような場合、疑惑エージェントの倍増傾向により損失が発生する可能性があります。

対照的に、Suspicion Agent は、対戦相手のモデルの行動パターンを識別して活用することに優れています。

具体的には、CFR がチェックを選択した場合 (通常は弱いハンドを示します)、または DMC がチェックした場合 (ハンドがコミュニティ カードと一致していないことを示します)、Suspicion Agent はブラフ方式でレイズして、相手をフォールドさせます。

したがって、Suspicion Agent は 3 つの計画方法の中で最も高い補充率を示します。

この積極的な戦略により、Suspicion Agent は弱いハンドでもより多くのチップを蓄積できるため、チップの獲得を最大化できます。

後知恵観察の影響を評価するために、研究者らは、現在のゲームに後知恵観察を組み込まないアブレーション研究を実施しました。

表 4 および 5 に示すように、Suspicion Agent は、バックルックアヘッド観測を行わなくても、ベースライン メソッドよりもパフォーマンス上の優位性を維持できます。

表4: Lydecker設定で対戦相手の観察をハンド履歴に組み込むことの影響を示す比較

表 5: Suspicion Agent が Leduc Hold'em 環境で CFR と対戦する場合に、対戦相手の観察結果をゲーム履歴に追加することの影響を示す比較結果。結果は、異なるシードで100ゲームをした後の勝ちチップと負けチップであり、勝ちチップと負けチップは1から14までの範囲である。

結論は

Suspicion Agent は特別なトレーニングを受けておらず、GPT-4 の事前知識と推論機能を活用するだけで、Leduc Hold'em などのさまざまな不完全情報ゲームで、CFR や NFSP などのゲーム用に特別にトレーニングされたアルゴリズムを打ち負かすことができます。

これは、大規模モデルが不完全情報ゲームで優れたパフォーマンスを達成する可能性があることを示唆しています。

一次および二次の理論的メンタルモデルを統合することにより、Suspicion Agent は対戦相手の行動を予測し、それに応じて独自の戦略を調整することができます。これにより、さまざまなタイプの対戦相手に適応できるようになります。

Suspicion Agent は、さまざまな不完全情報ゲームにわたって一般化する能力も実証し、Coup や Texas Hold'em などのゲームで、ゲームのルールと観察のみに基づいて決定を下しました。

しかし、Suspicion Agent にも一定の制限があります。たとえば、計算コストの制約により、さまざまなアルゴリズムを評価するためのサンプル サイズは小さくなります。

さらに、推論のコストが高く、ゲームごとに約 1 ドルのコストがかかり、疑惑エージェントの出力はプロンプトに非常に敏感であるため、幻覚の問題が発生します。

同時に、複雑な推論や計算を実行する場合、Suspicion Agent のパフォーマンスは満足できるものではありませんでした。

今後、Suspicion Agent はコンピューティング効率、推論の堅牢性などの面で改善を図り、マルチモーダルおよびマルチステップの推論をサポートして、複雑なゲーム環境への適応性を高めていきます。

同時に、不完全情報ゲームにおける Suspicion Agent の応用は、将来的にはマルチモーダル情報の統合に移行し、よりリアルなインタラクションをシミュレートし、マルチプレイヤー ゲーム環境に拡張することもできます。

<<: 

>>:  コストを 95% 削減した ChatGPT の代替品を作成しましょう! OpenAIのハードコアアップデートが来月リリースされ、ビジュアルAPIが登場

推薦する

カオスに基づくデジタル画像暗号化アルゴリズム

概要: 現在、カオスシステムと暗号化技術の組み合わせは、最もホットなトピックの 1 つです。多数の暗...

IDC: 企業の AI ソリューションへの支出は 2021 年に 3,420 億ドルに達すると予想

[[417110]] IDCの世界人工知能市場に関する最新の半期追跡レポートによると、世界のAI市場...

GPT時代の学習アルゴリズム、線形モデルを実装するPytorchフレームワーク

今日は線形回帰モデルの実装を続けます。ただし、今回はすべての関数を自分で実装するのではなく、Pyto...

引退した中国人女性のAIによるイラストがWeiboで話題に! 「バカなガチョウの王様」とハッピー・パピーがGPT-4の想像力の限界に挑戦

AIの創造性の限界は何でしょうか?最近、ネットユーザーは、GPT-4 に適切なタイミングで PUA ...

...

キッシンジャー:今やAIは人間が世界を理解するための第3の方法となっている

2023年、ChatGPTは人工知能に対する世界的な注目を集めました。科学界、知識人界、産業界は、A...

デジタルツインブレイン:生物と人工知能の架け橋

人間の脳の構造にヒントを得た神経科学と AI 技術の最近の一連の進歩により、知性の謎を解き明かす新た...

顔認識とは何ですか?あなたは顔認識技術を本当に理解していますか?

近年、人工知能の発展により、膨大なデータに基づく顔認識技術がさまざまな分野で広く利用されるようになり...

スタートアップ企業が大型モデルを商品化することは信頼できるのでしょうか?

昨年末にChatGPTが登場して以来、大規模モデルへの世界的な熱狂が世界を席巻しています。現在、「百...

...

ディープラーニングによる物体検出モデルの包括的なレビュー: 高速 R-CNN、R-FCN、SSD

[[204169]] Faster R-CNN、R-FCN、SSD は、最も人気があり、広く使用さ...

建設現場での死傷者を減らすには? 10のAI手法をご紹介します

この記事の結論から始めましょう。AI と機械学習は、ビデオ信号を 24 時間 365 日リアルタイム...

新しい物理学AIは量子コンピューティング革命の鍵となるかもしれない

海外メディアの報道によると、量子コンピューティングは間違いなく現在最もエキサイティングなテクノロジー...

シンプルな人工ニューラル ネットワークをゼロから構築する: 入力層 1 つと出力層 1 つ

[51CTO.com クイック翻訳] この 2 部構成のシリーズでは、numpy Python ライ...

...