DeepMind、囲碁、チェス、ポーカーをプレイするための汎用学習アルゴリズムSoGを発表

DeepMind、囲碁、チェス、ポーカーをプレイするための汎用学習アルゴリズムSoGを発表

2016年3月、ロボットと世界チャンピオンでプロ棋士のイ・セドル九段による人機囲碁対決が世界中から大きな注目を集めた。最終結果は、DeepMind のロボット AlphaGo が合計スコア 4 対 1 で勝利したことがわかりました。これは人工知能分野における画期的な出来事であり、「ゲーム」を人気の AI 研究方向にもしました。

AlphaGo の後、DeepMind はチェスで勝利した AlphaZero、StarCraft II を破った AlphaStar などを発表しました。 AI は、検索と学習の方法を使用することで、多くの完全情報ゲームで優れたパフォーマンスを示しており、ゲーム理論的推論と学習の方法を使用することで、特定の不完全情報ゲームで優れたパフォーマンスを示しています。

しかし、成功事例のほとんどには、1 つの重要な共通点があります。それは、単一のゲーム プロジェクトに焦点を当てていることです。たとえば、AlphaGo はチェスをプレイできません。また、AlphaZero は 3 つの異なる完全情報ゲームをマスターしていますが、ポーカーをプレイすることはできず、不完全情報ゲームに拡張できるかどうかは不明です。さらに、既存の研究では、AI が強力なパフォーマンスを実現できるようにするために、ドメイン固有の知識と構造が使用されることがよくあります。

現在、Google Deepmind の研究チームは、自己プレイ学習、検索、ゲーム理論的推論を使用して強力なゲームパフォーマンスを実現する汎用学習アルゴリズム、Student of Games (SoG) を提案しています。この研究論文は『サイエンス・アドバンス』誌に掲載された。

論文アドレス: https://www.science.org/doi/full/10.1126/sciadv.adg3256

SoG アルゴリズムは、ガイド付き検索、自己プレイ学習、ゲー​​ム理論的推論を組み合わせたものです。実験結果によると、SoG は大規模な完全情報ゲームおよび不完全情報ゲームで強力なパフォーマンスを発揮できることが示されており、これは任意の環境に対する真に一般的なアルゴリズムに向けた重要なステップです。

方法の紹介

SoG モデルは、さまざまなゲームで自由にプレイでき、別のバージョンの自分自身と対戦する方法を自ら学習し、新しい戦略を学習して徐々に能力を高めることができます。 AlphaZero は完全情報ゲームにも適応できますが、SoG は完全情報ゲームと不完全情報ゲームの両方に適応できるため、より汎用性があります。

SoG は、成長ツリー反事実的後悔最小化 (GT-CFR) アルゴリズムを採用しています。 GT-CFR アルゴリズムは、いつでもローカル検索を実行し、サブゲームを不均一に構築し、ツリーを最も関連性の高い将来の状態に拡張しながら、値と戦略を反復的に改良できる方法です。

さらに、SoG は効率的なセルフプレイを採用しています。価値とポリシーのネットワークは、ゲームの結果と再帰的なサブ検索を使用してトレーニングされ、以前の検索で発生した状況に適用されます。

SoG アルゴリズムは、音響セルフプレイを通じてエージェントをトレーニングします。各プレイヤーが決定に直面すると、反事実的価値およびポリシー ネットワーク (CVPN) を備えた音響 GT-CFR 検索を使用して、現在の状態に対する戦略を生成し、その戦略に基づいてアクションを実行します。

自己再生プロセスでは、値とポリシー ネットワークを更新するための 2 種類のトレーニング データが生成されます。1 つは検索クエリで、もう 1 つは完全なゲーム軌跡です。実際には、自己プレイ データの生成とトレーニングは並行して行われます。参加者は自己プレイ データを生成し (クエリを解決します)、トレーナーは新しいネットワークを学習し、定期的に参加者を更新します。

実験結果

従来の検索は不完全情報ゲームでは不十分であることが知られており、評価は単一のドメイン (ポーカーなど) に焦点が当てられていますが、SoG はこのギャップを埋めます。 SoG は、サブゲームを解決することで、近似ナッシュ均衡が見つかること、および小規模ゲームでの計算可能性が保証されることを保証します。

具体的には、SoG は 2 つの完全情報ゲーム (チェスと囲碁) と 2 つの不完全情報ゲーム (ポーカーとスコットランドヤード) の 4 つの異なるゲームで優れたパフォーマンスを発揮します。スコットランドヤードの捜索範囲とゲームの長さはポーカーよりもはるかに長く、長期的な計画が必要であることに留意してください。

SoG は、AlphaZero と同様に、最小限のドメイン知識を使用して、検索とセルフプレイを組み合わせます。 MCTS とは異なり、SoG の検索アルゴリズムは仮想後悔最小化に基づいており、完全情報ゲームと不完全情報ゲームの両方に効果的です。

下の図は、GT-CFR の異なる数値における SoG の可用性を示しています。

テーブルAはレデュークポーカー、テーブルBはスコットランドヤード

下の図は、ニューラル ネットワーク評価の数が増えたときの、AlphaZero と比較した SoG のスケーラビリティを、相対的な Elo 評価スケールで測定して示しています。

テーブルAはチェス、テーブルBは囲碁


<<:  AI のゴッドファーザーであるヒントンは、なぜ自らが作り出した人工知能を恐れているのでしょうか?

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Google が 7 つの言語で新しいデータセットをリリース: BERT などの多言語モデル タスクの精度が最大 3 倍向上します。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

舌先にAI

世界中の食べ物は、まさに世界の花火のボウルに過ぎません。人工知能は、新しい技術科学として、日常生活に...

AI アルゴリズムがハードウェアを置き換えることは可能でしょうか?

Googleは2021年末にPixel 6シリーズの携帯電話をリリースした際、携帯電話に心拍数モニ...

これは私が今まで読んだ TensorFlow を説明する最も徹底的な記事です。

はじめに: 「私の名前はジェイコブです。Google AI Residency プログラムの奨学生で...

アクセンチュアは、ジェネレーティブAIがビジネスにとって重要な破壊的要因であると強調

アクセンチュアがダボスで開催される世界経済フォーラム年次総会に先立ち発表した「2024 Pulse ...

KPMG: 大企業における AI 活用の 8 つのトレンド

概要: KPMG の新しいレポートでは、大企業がどのように人工知能と機械学習の技術に投資し、導入して...

米陸軍は航空機、戦車、VR訓練にデジタルツインプロジェクトを導入している

将来のサプライチェーンにおける 3D プリント技術の潜在的な役割を判断するために、米国陸軍は UH-...

ボストン・ダイナミクスの二輪ロボット「ハンドル」がデビューします!物流ロボットOTTOと連携して商品を配送

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

企業に適応型 AI を実装するにはどうすればよいでしょうか?

人工知能はもはや企業にとって選択肢ではありません。すぐに、それも差別化要因ではなくなるでしょう。ビジ...

デジタルイノベーション:次の世界的危機に対応するための重要な要素

世界的なCOVID-19危機は依然として猛威を振るっていますが、一部の組織はすでに将来のパンデミック...

医療におけるロボティック プロセス オートメーションのユースケース

[[419917]]多くの大規模医療機関は現在、デジタル化を実現するためにロボティック・プロセス・オ...

AIの大規模導入における大きなギャップを埋めます!アリババ、テンセント、百度などが共同でインターネットサービスAIベンチマークを開始

[[276827]]今日、インターネット サービスは根本的な変化を遂げており、徐々にインテリジェント...

...

...

オブジェクトストレージがAIの最大の課題を克服するのに理想的な理由

2020 年のコロナウイルスのパンデミックは、データの迅速な分析と解釈の重要性、そして情報に基づいた...