DeepMind、囲碁、チェス、ポーカーをプレイするための汎用学習アルゴリズムSoGを発表

DeepMind、囲碁、チェス、ポーカーをプレイするための汎用学習アルゴリズムSoGを発表

2016年3月、ロボットと世界チャンピオンでプロ棋士のイ・セドル九段による人機囲碁対決が世界中から大きな注目を集めた。最終結果は、DeepMind のロボット AlphaGo が合計スコア 4 対 1 で勝利したことがわかりました。これは人工知能分野における画期的な出来事であり、「ゲーム」を人気の AI 研究方向にもしました。

AlphaGo の後、DeepMind はチェスで勝利した AlphaZero、StarCraft II を破った AlphaStar などを発表しました。 AI は、検索と学習の方法を使用することで、多くの完全情報ゲームで優れたパフォーマンスを示しており、ゲーム理論的推論と学習の方法を使用することで、特定の不完全情報ゲームで優れたパフォーマンスを示しています。

しかし、成功事例のほとんどには、1 つの重要な共通点があります。それは、単一のゲーム プロジェクトに焦点を当てていることです。たとえば、AlphaGo はチェスをプレイできません。また、AlphaZero は 3 つの異なる完全情報ゲームをマスターしていますが、ポーカーをプレイすることはできず、不完全情報ゲームに拡張できるかどうかは不明です。さらに、既存の研究では、AI が強力なパフォーマンスを実現できるようにするために、ドメイン固有の知識と構造が使用されることがよくあります。

現在、Google Deepmind の研究チームは、自己プレイ学習、検索、ゲーム理論的推論を使用して強力なゲームパフォーマンスを実現する汎用学習アルゴリズム、Student of Games (SoG) を提案しています。この研究論文は『サイエンス・アドバンス』誌に掲載された。

論文アドレス: https://www.science.org/doi/full/10.1126/sciadv.adg3256

SoG アルゴリズムは、ガイド付き検索、自己プレイ学習、ゲー​​ム理論的推論を組み合わせたものです。実験結果によると、SoG は大規模な完全情報ゲームおよび不完全情報ゲームで強力なパフォーマンスを発揮できることが示されており、これは任意の環境に対する真に一般的なアルゴリズムに向けた重要なステップです。

方法の紹介

SoG モデルは、さまざまなゲームで自由にプレイでき、別のバージョンの自分自身と対戦する方法を自ら学習し、新しい戦略を学習して徐々に能力を高めることができます。 AlphaZero は完全情報ゲームにも適応できますが、SoG は完全情報ゲームと不完全情報ゲームの両方に適応できるため、より汎用性があります。

SoG は、成長ツリー反事実的後悔最小化 (GT-CFR) アルゴリズムを採用しています。 GT-CFR アルゴリズムは、いつでもローカル検索を実行し、サブゲームを不均一に構築し、ツリーを最も関連性の高い将来の状態に拡張しながら、値と戦略を反復的に改良できる方法です。

さらに、SoG は効率的なセルフプレイを採用しています。価値とポリシーのネットワークは、ゲームの結果と再帰的なサブ検索を使用してトレーニングされ、以前の検索で発生した状況に適用されます。

SoG アルゴリズムは、音響セルフプレイを通じてエージェントをトレーニングします。各プレイヤーが決定に直面すると、反事実的価値およびポリシー ネットワーク (CVPN) を備えた音響 GT-CFR 検索を使用して、現在の状態に対する戦略を生成し、その戦略に基づいてアクションを実行します。

自己再生プロセスでは、値とポリシー ネットワークを更新するための 2 種類のトレーニング データが生成されます。1 つは検索クエリで、もう 1 つは完全なゲーム軌跡です。実際には、自己プレイ データの生成とトレーニングは並行して行われます。参加者は自己プレイ データを生成し (クエリを解決します)、トレーナーは新しいネットワークを学習し、定期的に参加者を更新します。

実験結果

従来の検索は不完全情報ゲームでは不十分であることが知られており、評価は単一のドメイン (ポーカーなど) に焦点が当てられていますが、SoG はこのギャップを埋めます。 SoG は、サブゲームを解決することで、近似ナッシュ均衡が見つかること、および小規模ゲームでの計算可能性が保証されることを保証します。

具体的には、SoG は 2 つの完全情報ゲーム (チェスと囲碁) と 2 つの不完全情報ゲーム (ポーカーとスコットランドヤード) の 4 つの異なるゲームで優れたパフォーマンスを発揮します。スコットランドヤードの捜索範囲とゲームの長さはポーカーよりもはるかに長く、長期的な計画が必要であることに留意してください。

SoG は、AlphaZero と同様に、最小限のドメイン知識を使用して、検索とセルフプレイを組み合わせます。 MCTS とは異なり、SoG の検索アルゴリズムは仮想後悔最小化に基づいており、完全情報ゲームと不完全情報ゲームの両方に効果的です。

下の図は、GT-CFR の異なる数値における SoG の可用性を示しています。

テーブルAはレデュークポーカー、テーブルBはスコットランドヤード

下の図は、ニューラル ネットワーク評価の数が増えたときの、AlphaZero と比較した SoG のスケーラビリティを、相対的な Elo 評価スケールで測定して示しています。

テーブルAはチェス、テーブルBは囲碁


<<:  AI のゴッドファーザーであるヒントンは、なぜ自らが作り出した人工知能を恐れているのでしょうか?

>>: 

ブログ    

推薦する

Protobufを勉強していたら、良いアルゴリズムを見つけました - ZigZag

[[434311]]もともと Protobuf の原理を勉強したかったのですが、研究の過程で Pr...

...

GPU を通じて Pandas のパフォーマンスを高速化するもう 1 つのデータ処理ツールです。

NVIDIA の RAPIDS cuDF は、データの読み込み、結合、集約、フィルタリング、その他...

ChatGPTはどんどん怠惰になり、代わりにPUA人間を学習しました

GPT-4 が最近少し「怠惰」になっていることにお気づきでしょうか。現在、GPT-4 は常に特定のタ...

人工知能は非常に強力だが、人間は必ずしも人工知能に支配されるわけではない。ホーキングは間違っているのだろうか?

有名な物理学者ホーキング博士はかつて、将来人類は人工知能によって滅ぼされるかもしれないので、人工知能...

GPSを使用しない自動運転システムソリューション

自動運転技術の発展に伴い、未知の環境におけるスマートカーの測位技術がこの分野の研究の中核となっていま...

...

自動車の自動運転産業チェーンに関する詳細な調査レポート: 自動運転はどこに向かっているのか?

(レポート制作者/執筆者:国金証券、翟偉)レポートの概要産業チェーンと市場空間:中国の自動運転は現...

...

...

...

プログラマーはAIアルゴリズムを使用して3,000匹の新しいポケモンを生成した

「人間は見たことのないものを想像することはできない」ということわざがあります。したがって、ほとんどの...

...

生体認証市場における 4 つの「ホットアイテム」: 音声認識、顔認識など。

生体認証市場を見ると、顔認証や虹彩認証などの割合が増加しており、一般の人々のこれらの技術に対する理解...