AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

[[437808]]

人間とコンピュータのゲームは長い歴史があり、人工知能の主要技術を検証するための主流となっています。チューリングテストは、人間と機械が対決した最初のテストであると言えます。このテストは、研究者がプロの人間プレイヤーに挑戦するさまざまな種類の AI を設計するきっかけとなりました。たとえば、1989 年に研究者たちは世界チャンピオンを倒すことを目標に国際チェッカー プログラム Chinook を開発し、1994 年に Chinook はアメリカのチェッカー チャンピオンである Marion Tinsley を破りました。その後、1997年にIBMのディープ・ブルーがチェスのグランドマスター、ガルリ・カスパロフを破り、チェスの歴史に新たな時代をもたらしました。

近年、Atari、AlphaGo、Libratus、OpenAI Five、AlphaStar など、ゲーム AI の急速な発展を目の当たりにしてきました。これらの AI は、現代のテクノロジーを組み合わせることで、特定のゲームでプロの人間プレイヤーに勝利し、意思決定インテリジェンスの分野で急速な発展を遂げました。

AlphaStar(DeepMindが開発したコンピュータプログラム)とOpenAI Five(OpenAIによるアメリカの人工知能研究開発)は、それぞれStarCraftとDota2でプロ選手レベルに到達しました。現在の技術は、非常に複雑な不完全情報ゲーム、特に最近人気のHonor of Kingsなどのゲームにおけるブレークスルーを処理できるようになり、これらはすべてAlphaStarやOpenAI Fiveに似たフレームワークに従っているようです。次のような疑問を抱かずにはいられません。人間とコンピューターのゲーム AI の将来の傾向や課題は何でしょうか?中国科学院自動化研究所と中国科学院大学の研究者らは、最近の典型的な人間とコンピューターのゲームAIをレビューする記事を執筆し、現在の技術の詳細な分析を通じてこれらの疑問に答えようと試みた。

論文アドレス: https://arxiv.org/pdf/2111.07631.pdf

具体的には、この研究では、囲碁ボードゲーム、カードゲーム(テキサスホールデムHUNL、Landlord、麻雀)、一人称シューティングゲーム(FPS)ゲーム(Quake III Arena)、リアルタイム戦略ゲーム(RTS)(StarCraft、Dota2、Honor of Kings)の合計4つの典型的なゲームタイプを調査しました。上記のゲームに対応する AI には、AlphaGo、AlphaGo Zero、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAI Five、JueWu、Commander などがあります。図 1 に簡単な概要を示します。

この論文で調査したゲームとAI

全般的に、第 2 章では、この論文で取り上げるゲームと使用される AI について説明します。第 3 章から第 6 章では、ボード ゲーム、カード ゲーム、FPS ゲーム、RTS ゲームにそれぞれ対応する AI について説明します。第 7 章では、さまざまな種類のゲームで使用されるさまざまな手法をまとめ、比較します。第 8 章では、ゲーム AI が現在直面している課題を示します。これは、この分野の将来の研究方向となる可能性があります。最後に、第 9 章で本論文を締めくくります。

典型的なゲームとAI

次の表は、表 1 に示すように、さまざまなゲーム課題に対するインテリジェントな意思決定の重要な要素を抽出したものです。

上記の表には、さまざまなゲームの長所と短所がリストされています。ゲームの種類に応じて、異なる AI を割り当てる必要があります。ゲームによって特性が異なり、その解決方法も異なるため、研究者は AI システムを構築するためにさまざまな学習戦略を開発してきました。この記事では、AI の割り当てが異なります。ボードゲームには AlphaGo、AlphaGo Zero、AlphaZero が使用され、カードゲームの HUNL、Doudizhu、Mahjong にはそれぞれ Libratus、DeepStack、DouZero、Suphx が使用され、FPS ゲームの Quake III Arena には FTW が使用され、StarCraft、Dota2、Honor of Kings にはそれぞれ AlphaStar、Commander、OpenAI Five、JueWu が使用されています。

さまざまなゲーム向けのAI

ボードゲームAI

AlphaGo シリーズは、AlphaGo、AlphaGo Zero、AlphaZeo で構成されています。 2015年にリリースされたアルファ碁は、ヨーロッパ囲碁チャンピオンのファン・フイを5対0で破った。これは、ソフトウェアがフルサイズのチェス盤上でプロのプレイヤーに対してこのような結果を達成した初めてのケースである。その後、DeepMind は AlphaGo Zero 用の新しいトレーニング フレームワークを開発し、事前に専門家による人間の敵対データを必要とすることなく、優れたパフォーマンスを達成しました。 AlphaZero は一般的な強化学習アルゴリズムです。 AlphaGo シリーズの概要を図 2 に示します。

AlphaGoシリーズのフレームワーク図

カードゲームAI

典型的な不完全情報ゲームであるカードゲームは、長い間人工知能にとっての課題となってきました。 DeepStack と Libratus は、HUNL でプロのポーカー プレイヤーに勝利した 2 つの典型的な AI システムです。これらは基礎となる技術を共有しており、つまり、両方とも CFR 理論が似ています。その後、研究者たちは麻雀と地主という新たな課題に焦点を当てました。 Microsoft Research Asia が開発した Suphx は、麻雀でトップクラスの人間のプレイヤーのほとんどを上回る成績を収めた初の AI システムです。 DouZero は、Botzone リーダーボードの 344 の AI エージェントの中で 1 位にランクされている効果的な AI システムである Doudizhu 向けに設計されています。カードゲーム AI の簡単なフレームワークを以下に示します。

カードゲームAIの簡単なフレームワーク

一人称視点シューティングゲーム (FPS) AI

Quake III Arena は、屋内または屋外のマップで 2 つの敵対チームが互いに戦う、典型的な 3D マルチプレイヤー 一人称視点ビデオ ゲームです。 CTF の設定は、現在のマルチプレイヤー ビデオ ゲームとは大きく異なります。具体的には、CTF のエージェントは他のプレイヤーの状態にアクセスできません。さらに、チーム内のエージェントは互いに通信できません。このような環境は、エージェントが通信してゼロショット生成に適応することを学習するための最適なテストベッドです。ゼロサンプルとは、エージェントが協力したり競争したりするようにトレーニングされるのではなく、人間のプレイヤーや任意の AI エージェントによってトレーニングされることを意味します。エージェントへの入力としてピクセルや人間などのゲーム ポイントのみに基づいて、学習エージェント FTW フレームワークは人間レベルのパフォーマンスを実現できます。ゲーム CTF の FTW フレームワークを以下に示します。

ゲームCTF用のFTWフレームワーク

RTS ゲーム AI

RTS (リアルタイム ストラテジー) ゲームは、数万人が対戦する典型的なタイプのビデオ ゲームです。RTS は、人間とコンピューターが対戦するゲームのテスト ベッドとしてよく使用されます。さらに、RTS ゲームは、従来のゲームよりも現実世界の本質をよりよく捉えた複雑な環境を特徴とすることが多く、このタイプのゲームをより適用しやすくする特性があります。 DeepMind が開発した AlphaStar は、一般的な学習アルゴリズムを使用して、StarCraft の 3 つのレースすべてでマスター レベルに到達し、人間のプレイヤー (合計約 90,000 人のプレイヤー) の 99.8% を上回ります。軽量コンピューティング バージョンである Commander は、AlphaStar と同じトレーニング アーキテクチャに従い、より少ないコンピューティング パワーを使用し、ライブ イベントで 2 人のスーパー プレイヤーを破りました。 OpenAI FiveはDota 2というゲームを解くために設計され、eスポーツゲームで世界チャンピオンに勝利した最初のAIシステムでした。 Dota2 に似た e スポーツ ゲームとして、Honor of Kings は最も似た課題に直面しており、ヒーロー プールを制限せずに完全な RTS ゲームをプレイできる最初の AI システムとなっています。典型的な RTS ゲームのシンプルな AI フレームワークを以下に示します。

典型的なRTSゲームのためのシンプルなAIフレームワーク

課題と今後の動向

コンピュータ ゲームは大きな進歩を遂げてきましたが、現在のテクノロジはコンピューティング リソースへの依存度が高いなど、依然として多くの課題に直面しており、今後の研究のきっかけとなるでしょう。

大型モデル

今日、大規模モデル、特に事前トレーニング済みの大規模モデルは、自然言語処理からコンピューター画像処理へ、そして単一モダリティからマルチモダリティへと進化しています。これらのモデルは、ゼロショット設定でも下流のタスクで大きな可能性を示しており、これは汎用人工知能の探求に向けた大きな一歩です。

OpenAI は 1750 億を超えるパラメータを持ち、さまざまな言語関連のタスクで優れたパフォーマンスを示した GPT-3 を開発しました。しかし、ゲームには基本的に大規模なモデルは存在せず、現在の複雑なゲームのモデルは、多くのパラメータを持つ大規模なモデルよりもはるかに小さくなっています。表 2 に示すように、AlphaStar と OpenAI Five にはそれぞれ 1 億 3,900 万と 1 億 5,900 万のパラメータしかありません。

大規模モデルは一般的な人工知能の比較的良い探求であることを考慮すると、ゲームにおける人工知能の大規模モデルを設計およびトレーニングする方法は、時系列の意思決定領域に新しいソリューションを提供できる可能性があります。このような試みをするためには、少なくとも 2 つの問題を慎重に検討する必要があると本研究では考えています。

  • まず、ゲームタスクは自然言語処理タスクとは大きく異なるため、トレーニングターゲットを明確に定義する方法が大規模モデルにとって重要なステップとなります。
  • 第二に、ゲームの難易度が異なるため、適切なトレーニング メカニズムを設計することが困難です。トレーニング方法は、さまざまなゲームに対応でき、学習が低下しないようにする必要があります。

低リソースAI

複雑な環境でプロフェッショナルレベルの AI をトレーニングするには、通常、大量のコンピューティング リソースが必要になります。表 3 から、AI をトレーニングするには多くのリソースが必要であることがわかります。

限られたリソースでプロレベルの人工知能を育成できるのか、という疑問を抱かずにはいられません。直感的なアイデアとしては、学習を支援するために、より多くの人間の知識を導入することです。強化学習は、将来の開発方向であると言えます。一方、理論的かつ計算的に扱いやすい進化戦略を開発することは、低リソース AI システムに向けた重要なステップとなるでしょう。

評価する

現在、インテリジェントエージェントの正確な評価は難しい問題となっています。人間対コンピュータのゲームでは通常、表 4 に示すように、勝利の確率 (プロの人間プレイヤーの場合) に基づいた評価基準が使用されます。ただし、この評価は、移行されていないゲームのテストが限られているため、特に大まかなものです。ほとんどのゲームに対して体系的な評価基準をどのように開発するかは、重要かつ未解決の問題です。

研究者たちは、この記事を通じて、初心者がゲーム AI 分野の技術、課題、機会に素早く慣れ、研究者がより深い研究を行うよう刺激を受けることを期待しています。

<<:  MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

>>:  注意を注入すると精度が 30% 向上します。 Google が最新の多目的「ダイナミック カットアウト」モデルをリリース

ブログ    
ブログ    
ブログ    

推薦する

100 以上の自然言語処理データセットが無料で、データの検索に困ることはありません。

[[228774]]ビッグデータ概要編集者: Wanjun、VVN、Zhang Lijun、Yun...

ディープラーニングの父、ヒントン:次世代ニューラルネットワーク

ディープラーニングの父ヒントン氏:次世代ニューラルネットワーク SIGIRは、情報検索の分野における...

ライブクイズゲーム「Winning with Ease」は止められない、Baidu AIが150万の現金獲得にあなたを招待します!

「2進数では、1+1=?」答えが2の場合、残念ながら150万を逃してしまいます。これは頭​​の体操...

スマートカーのステアバイワイヤ技術の詳細な説明

電動化とインテリジェント化という2つの大きな発展の流れの下、わが国は機能車からスマート車への転換点に...

世界的なAI人材不足により、各国間の協力とトレーニングが増加

文/張燕現在、世界で人工知能教育が発達している国や地域では、人工知能人材の育成を徐々に国のトップレベ...

...

...

...

...

ガートナーの調査によると、ジェネレーティブAIは企業にとって新たな大きなリスクとなっている

この調査は、249人の上級企業リスク管理責任者を対象に実施され、2023年第2四半期の最も深刻な5つ...

分散キャッシュの実装: Java と MongoDB のキャッシュ一貫性戦略

インターネット アプリケーションの急速な発展に伴い、分散システムにおけるキャッシュが重要な役割を果た...

科学者らは初めてAIメタ学習を神経科学に導入し、脳画像精密医療の向上が期待される

最近、シンガポール国立大学、バイトダンス、その他の機関が共同で開発した技術的成果が、トップクラスの神...

生成AI技術の原理を深く理解する: 生成AIの入門

人工知能を単純に目的別に分類すると、意思決定型AIと生成型AIの2つに分けられます。いわゆる意思決定...

マスクのロボットが進化した!新たなスキルが解き放たれ、エンドツーエンドのニューラルネットワークが実現

マスク氏のロボットの大いなる進化。 1年前に初めて舞台に立ったときは動きが少しぎこちなかったが、今で...

現在、CIOは企業におけるGenAIの応用価値を慎重に検討している。

ほとんどの CIO は、自社のビジネスがテクノロジーのトレンドに追いつくために GenAI の検討を...