AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

[[437808]]

人間とコンピュータのゲームは長い歴史があり、人工知能の主要技術を検証するための主流となっています。チューリングテストは、人間と機械が対決した最初のテストであると言えます。このテストは、研究者がプロの人間プレイヤーに挑戦するさまざまな種類の AI を設計するきっかけとなりました。たとえば、1989 年に研究者たちは世界チャンピオンを倒すことを目標に国際チェッカー プログラム Chinook を開発し、1994 年に Chinook はアメリカのチェッカー チャンピオンである Marion Tinsley を破りました。その後、1997年にIBMのディープ・ブルーがチェスのグランドマスター、ガルリ・カスパロフを破り、チェスの歴史に新たな時代をもたらしました。

近年、Atari、AlphaGo、Libratus、OpenAI Five、AlphaStar など、ゲーム AI の急速な発展を目の当たりにしてきました。これらの AI は、現代のテクノロジーを組み合わせることで、特定のゲームでプロの人間プレイヤーに勝利し、意思決定インテリジェンスの分野で急速な発展を遂げました。

AlphaStar(DeepMindが開発したコンピュータプログラム)とOpenAI Five(OpenAIによるアメリカの人工知能研究開発)は、それぞれStarCraftとDota2でプロ選手レベルに到達しました。現在の技術は、非常に複雑な不完全情報ゲーム、特に最近人気のHonor of Kingsなどのゲームにおけるブレークスルーを処理できるようになり、これらはすべてAlphaStarやOpenAI Fiveに似たフレームワークに従っているようです。次のような疑問を抱かずにはいられません。人間とコンピューターのゲーム AI の将来の傾向や課題は何でしょうか?中国科学院自動化研究所と中国科学院大学の研究者らは、最近の典型的な人間とコンピューターのゲームAIをレビューする記事を執筆し、現在の技術の詳細な分析を通じてこれらの疑問に答えようと試みた。

論文アドレス: https://arxiv.org/pdf/2111.07631.pdf

具体的には、この研究では、囲碁ボードゲーム、カードゲーム(テキサスホールデムHUNL、Landlord、麻雀)、一人称シューティングゲーム(FPS)ゲーム(Quake III Arena)、リアルタイム戦略ゲーム(RTS)(StarCraft、Dota2、Honor of Kings)の合計4つの典型的なゲームタイプを調査しました。上記のゲームに対応する AI には、AlphaGo、AlphaGo Zero、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAI Five、JueWu、Commander などがあります。図 1 に簡単な概要を示します。

この論文で調査したゲームとAI

全般的に、第 2 章では、この論文で取り上げるゲームと使用される AI について説明します。第 3 章から第 6 章では、ボード ゲーム、カード ゲーム、FPS ゲーム、RTS ゲームにそれぞれ対応する AI について説明します。第 7 章では、さまざまな種類のゲームで使用されるさまざまな手法をまとめ、比較します。第 8 章では、ゲーム AI が現在直面している課題を示します。これは、この分野の将来の研究方向となる可能性があります。最後に、第 9 章で本論文を締めくくります。

典型的なゲームとAI

次の表は、表 1 に示すように、さまざまなゲーム課題に対するインテリジェントな意思決定の重要な要素を抽出したものです。

上記の表には、さまざまなゲームの長所と短所がリストされています。ゲームの種類に応じて、異なる AI を割り当てる必要があります。ゲームによって特性が異なり、その解決方法も異なるため、研究者は AI システムを構築するためにさまざまな学習戦略を開発してきました。この記事では、AI の割り当てが異なります。ボードゲームには AlphaGo、AlphaGo Zero、AlphaZero が使用され、カードゲームの HUNL、Doudizhu、Mahjong にはそれぞれ Libratus、DeepStack、DouZero、Suphx が使用され、FPS ゲームの Quake III Arena には FTW が使用され、StarCraft、Dota2、Honor of Kings にはそれぞれ AlphaStar、Commander、OpenAI Five、JueWu が使用されています。

さまざまなゲーム向けのAI

ボードゲームAI

AlphaGo シリーズは、AlphaGo、AlphaGo Zero、AlphaZeo で構成されています。 2015年にリリースされたアルファ碁は、ヨーロッパ囲碁チャンピオンのファン・フイを5対0で破った。これは、ソフトウェアがフルサイズのチェス盤上でプロのプレイヤーに対してこのような結果を達成した初めてのケースである。その後、DeepMind は AlphaGo Zero 用の新しいトレーニング フレームワークを開発し、事前に専門家による人間の敵対データを必要とすることなく、優れたパフォーマンスを達成しました。 AlphaZero は一般的な強化学習アルゴリズムです。 AlphaGo シリーズの概要を図 2 に示します。

AlphaGoシリーズのフレームワーク図

カードゲームAI

典型的な不完全情報ゲームであるカードゲームは、長い間人工知能にとっての課題となってきました。 DeepStack と Libratus は、HUNL でプロのポーカー プレイヤーに勝利した 2 つの典型的な AI システムです。これらは基礎となる技術を共有しており、つまり、両方とも CFR 理論が似ています。その後、研究者たちは麻雀と地主という新たな課題に焦点を当てました。 Microsoft Research Asia が開発した Suphx は、麻雀でトップクラスの人間のプレイヤーのほとんどを上回る成績を収めた初の AI システムです。 DouZero は、Botzone リーダーボードの 344 の AI エージェントの中で 1 位にランクされている効果的な AI システムである Doudizhu 向けに設計されています。カードゲーム AI の簡単なフレームワークを以下に示します。

カードゲームAIの簡単なフレームワーク

一人称視点シューティングゲーム (FPS) AI

Quake III Arena は、屋内または屋外のマップで 2 つの敵対チームが互いに戦う、典型的な 3D マルチプレイヤー 一人称視点ビデオ ゲームです。 CTF の設定は、現在のマルチプレイヤー ビデオ ゲームとは大きく異なります。具体的には、CTF のエージェントは他のプレイヤーの状態にアクセスできません。さらに、チーム内のエージェントは互いに通信できません。このような環境は、エージェントが通信してゼロショット生成に適応することを学習するための最適なテストベッドです。ゼロサンプルとは、エージェントが協力したり競争したりするようにトレーニングされるのではなく、人間のプレイヤーや任意の AI エージェントによってトレーニングされることを意味します。エージェントへの入力としてピクセルや人間などのゲーム ポイントのみに基づいて、学習エージェント FTW フレームワークは人間レベルのパフォーマンスを実現できます。ゲーム CTF の FTW フレームワークを以下に示します。

ゲームCTF用のFTWフレームワーク

RTS ゲーム AI

RTS (リアルタイム ストラテジー) ゲームは、数万人が対戦する典型的なタイプのビデオ ゲームです。RTS は、人間とコンピューターが対戦するゲームのテスト ベッドとしてよく使用されます。さらに、RTS ゲームは、従来のゲームよりも現実世界の本質をよりよく捉えた複雑な環境を特徴とすることが多く、このタイプのゲームをより適用しやすくする特性があります。 DeepMind が開発した AlphaStar は、一般的な学習アルゴリズムを使用して、StarCraft の 3 つのレースすべてでマスター レベルに到達し、人間のプレイヤー (合計約 90,000 人のプレイヤー) の 99.8% を上回ります。軽量コンピューティング バージョンである Commander は、AlphaStar と同じトレーニング アーキテクチャに従い、より少ないコンピューティング パワーを使用し、ライブ イベントで 2 人のスーパー プレイヤーを破りました。 OpenAI FiveはDota 2というゲームを解くために設計され、eスポーツゲームで世界チャンピオンに勝利した最初のAIシステムでした。 Dota2 に似た e スポーツ ゲームとして、Honor of Kings は最も似た課題に直面しており、ヒーロー プールを制限せずに完全な RTS ゲームをプレイできる最初の AI システムとなっています。典型的な RTS ゲームのシンプルな AI フレームワークを以下に示します。

典型的なRTSゲームのためのシンプルなAIフレームワーク

課題と今後の動向

コンピュータ ゲームは大きな進歩を遂げてきましたが、現在のテクノロジはコンピューティング リソースへの依存度が高いなど、依然として多くの課題に直面しており、今後の研究のきっかけとなるでしょう。

大型モデル

今日、大規模モデル、特に事前トレーニング済みの大規模モデルは、自然言語処理からコンピューター画像処理へ、そして単一モダリティからマルチモダリティへと進化しています。これらのモデルは、ゼロショット設定でも下流のタスクで大きな可能性を示しており、これは汎用人工知能の探求に向けた大きな一歩です。

OpenAI は 1750 億を超えるパラメータを持ち、さまざまな言語関連のタスクで優れたパフォーマンスを示した GPT-3 を開発しました。しかし、ゲームには基本的に大規模なモデルは存在せず、現在の複雑なゲームのモデルは、多くのパラメータを持つ大規模なモデルよりもはるかに小さくなっています。表 2 に示すように、AlphaStar と OpenAI Five にはそれぞれ 1 億 3,900 万と 1 億 5,900 万のパラメータしかありません。

大規模モデルは一般的な人工知能の比較的良い探求であることを考慮すると、ゲームにおける人工知能の大規模モデルを設計およびトレーニングする方法は、時系列の意思決定領域に新しいソリューションを提供できる可能性があります。このような試みをするためには、少なくとも 2 つの問題を慎重に検討する必要があると本研究では考えています。

  • まず、ゲームタスクは自然言語処理タスクとは大きく異なるため、トレーニングターゲットを明確に定義する方法が大規模モデルにとって重要なステップとなります。
  • 第二に、ゲームの難易度が異なるため、適切なトレーニング メカニズムを設計することが困難です。トレーニング方法は、さまざまなゲームに対応でき、学習が低下しないようにする必要があります。

低リソースAI

複雑な環境でプロフェッショナルレベルの AI をトレーニングするには、通常、大量のコンピューティング リソースが必要になります。表 3 から、AI をトレーニングするには多くのリソースが必要であることがわかります。

限られたリソースでプロレベルの人工知能を育成できるのか、という疑問を抱かずにはいられません。直感的なアイデアとしては、学習を支援するために、より多くの人間の知識を導入することです。強化学習は、将来の開発方向であると言えます。一方、理論的かつ計算的に扱いやすい進化戦略を開発することは、低リソース AI システムに向けた重要なステップとなるでしょう。

評価する

現在、インテリジェントエージェントの正確な評価は難しい問題となっています。人間対コンピュータのゲームでは通常、表 4 に示すように、勝利の確率 (プロの人間プレイヤーの場合) に基づいた評価基準が使用されます。ただし、この評価は、移行されていないゲームのテストが限られているため、特に大まかなものです。ほとんどのゲームに対して体系的な評価基準をどのように開発するかは、重要かつ未解決の問題です。

研究者たちは、この記事を通じて、初心者がゲーム AI 分野の技術、課題、機会に素早く慣れ、研究者がより深い研究を行うよう刺激を受けることを期待しています。

<<:  MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

>>:  注意を注入すると精度が 30% 向上します。 Google が最新の多目的「ダイナミック カットアウト」モデルをリリース

ブログ    
ブログ    

推薦する

...

...

世界人工知能会議が終了しました。今後、AIは私たちの生活にどのように浸透していくのでしょうか?

過去 2 年間で最もホットな話題は何かと聞かれれば、人工知能は間違いなくそのリストに載るでしょう。金...

DAMOアカデミー物流ロボットQA

1. 物流ロボットとは?物流ロボット「Xiaomanlu」は、ターミナル物流シナリオ向けに設計され...

...

機械学習があなたの好きな音楽を発見する方法: パーソナライズされた音楽推奨の背後にある科学

今週の月曜日も、他の月曜日と同様に、Spotify の 1 億人を超えるユーザー全員に新しいプレイリ...

Alibabaオープンソース!軽量ディープラーニングエッジ推論エンジンMNN

最近、アリババは軽量ディープラーニングエッジ推論エンジン「MNN」を正式にオープンソース化しました。...

複数の機会が生まれており、虹彩認識技術の将来の発展は有望である

[[424491]]近年、人工知能ブームの影響を受けて、生体認証技術は急速に進歩し、市場の発展も好調...

...

AIの最高峰:自然言語処理

近年、世界中でますます多くの政府や企業組織が人工知能の経済的、戦略的重要性を徐々に認識し、国家戦略や...

...

自然の中でショウジョウバエがVRをプレイし、注意メカニズムとワーキングメモリを発見

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能関連のキャリアと給与に関する 7 つの統計

現在、人手不足で高収入の AI 職種は何でしょうか? 需要が高い職種はどれでしょうか? AI はどれ...

AIの開発パターンは「データ」から「知識」へと進化している

半世紀以上前に誕生して以来、人工知能(AI)革命は全世界に大きな影響を与えてきました。特に過去10年...

人間の脳神経の「100万分の1」の3D接続マップを描きます!膨大な量のデータは14億個の1Tハードドライブを埋め尽くす

少し前に、Google とハーバード大学が共同で、人間の脳の神経の 3D 接続マップを公開しました。...