この論文では、ビデオゲームをプレイするためのディープラーニングアルゴリズムをレビューし、さまざまな種類のビデオゲームに対するディープラーニングシステムの要件を分析し、いくつかの未解決の課題も挙げています。 論文リンク: https://arxiv.org/pdf/1708.07902.pdf 概要: この論文では、一人称シューティング ゲーム (FPS)、アーケード ゲーム、リアルタイム戦略ゲーム (RTS) など、さまざまな種類のビデオ ゲームへのディープラーニング アプリケーションの最近の進歩について説明します。我々は、さまざまなゲームがディープラーニング システムに求める独自の要求と、汎用ゲームにおける大規模な決定空間やスパースな報酬の処理方法など、これらの機械学習手法をビデオ ゲームに適用する際の重要な未解決の課題を分析します。 1. はじめに 本稿では、Atari/ALE、Doom、Minecraft、StarCraft、レーシング ゲームなど、ディープラーニング ベースのゲーム AI の広範な問題と環境に焦点を当てます。さらに、既存の研究をレビューし、対処する必要がある重要な課題を特定します。私たちはビデオゲーム(囲碁などのボードゲーム以外のゲーム)を上手にプレイする方法に興味があります。この記事では、さまざまなゲームを分析し、人間と機械の両方のプレイヤーに課される課題を特定します。この記事はゲームにおける AI のあらゆる応用を網羅しているわけではなく、ビデオ ゲームにおけるディープラーニング手法の応用に焦点を当てていることに注意してください。ディープラーニングはゲームに適用されている唯一のAI手法ではありません。他の効果的な手法としては、モンテカルロ木探索[12]や進化計算[85]、[66]などがあります。 2. ディープラーニングの概要 このセクションでは、ビデオゲームに適用されるディープラーニング手法と、複数の手法を組み合わせたハイブリッドアプローチの概要を説明します。 A. 教師あり学習 人工ニューラルネットワーク(ANN)の教師あり学習では、エージェントは例から学習します[56]、[86]。エージェントは決定を下す必要があり (正しい答えはわかっています)、その後、エラー関数を使用して、エージェントによって提供された答えと実際の答えの差を決定します。これは、モデルを更新するための損失として使用されます。大規模なデータセットでトレーニングした後、エージェントは未知の入力に対して適切に機能する一般的なモデルを学習する必要があります。 これらのニューラル ネットワークのアーキテクチャは、フィードフォワード ネットワークとリカレント ニューラル ネットワーク (RNN) という 2 つの主要なカテゴリに大別できます。 B. 教師なし学習 教師なし学習の目的は、データとラベル間のマッピングを学習することではなく、データ内のパターンを発見することです。これらのアルゴリズムは、データセットの特徴的な分布を学習し、類似したデータを集中させたり、データを必要な特徴に圧縮したり、元のデータの特徴を持つ新しい合成データを作成したりするために使用できます。 ディープラーニングには、教師なし学習を可能にするさまざまな手法があります。これらの中で最も重要なのは、オートエンコーダという技術です。これは、自身の入力の複製を出力しようとするニューラル ネットワークの一種です。 C. 強化学習法 ゲームの強化学習では、エージェントは環境と対話することでゲームのプレイ方法を学習します。その目的は、戦略、つまり目的の状態を達成するために各ステップでどのような操作が必要かを学習することです。この状況は、プレイヤーが各ステップで実行できるアクションの数が限られており、アクションの順序によってプレイヤーのプレイの質が決まるビデオゲームでよく発生します。 D. 進化的アプローチ ニューラル ネットワークをトレーニングする別のアプローチは、進化アルゴリズムに基づいています。この方法はニューロエボリューション (NE) と呼ばれることが多く、ネットワークの重みとトポロジを最適化できます。勾配降下法ベースのトレーニング方法と比較して、NE 法の利点は、ネットワークが微分可能である必要がなく、教師あり学習や強化学習の問題に使用できることです。 E. ハイブリッド方式 最近、研究者たちは、ディープラーニング手法と他の機械学習手法を組み合わせた、ビデオゲームをプレイするためのハイブリッドアプローチの研究を始めています。 これらのハイブリッド手法は、両方のアプローチの利点を組み合わせることを目的としています。ディープラーニング手法は高次元の生のピクセル値から直接学習でき、進化的手法は微分可能なアーキテクチャに依存する必要がなく、スパースな報酬を持つゲームで優れたパフォーマンスを発揮します。 ボードゲームにおいて大きな意義を持つハイブリッドアプローチは、ディープニューラルネットワークとツリー探索法を利用して囲碁の世界チャンピオンを破ったAlphaGo [97]です。 3. ゲームの種類と研究プラットフォーム このセクションでは、人気のゲームジャンルと研究プラットフォーム(ディープラーニング関連)の概要を説明します。これらのゲームの特徴と、ゲームをプレイする際にアルゴリズムが直面する課題について簡単に説明します。 A. アーケードゲーム 1970 年代後半から 1980 年代前半にかけて人気を博したジャンルである古典的なアーケード ゲームは、過去 10 年間にわたって AI のベンチマークとして頻繁に使用されてきました。 アーケード ゲームの代表的なプラットフォームとしては、Atari 2600、Nintendo NES、Commodore 64、ZX Spectrum などがあります。古典的なアーケード ゲームのほとんどは、2 次元空間での動き、グラフィカル ロジックの広範な使用、連続的な時間の進行、連続空間または離散空間での動きを特徴としています。これらのゲームの課題はゲームごとに異なりますが、ほとんどの場合、素早い反射神経とタイミングが求められます。多くのゲームでは、複数の同時イベントに優先順位を付ける必要があり、ゲーム内の他のエンティティの動作や軌道を予測する必要があります。もう 1 つの一般的な要件は、パックマン (1980) やボルダー ダッシュ (1984) のように、迷路やその他の複雑な環境をナビゲートすることです。 ディープラーニング手法の最も有名なゲームプラットフォームは、アーケード学習環境(ALE)[6]です。 ALE は Atari 2600 エミュレータ Stella を使用して構築されており、50 個の Atari 2600 ゲームが含まれています。フレームワークは、ゲーム エージェントの入力として使用できるゲーム スコア、160×210 画面ピクセル、および RAM コンテンツを抽出します。このプラットフォームは、最初の深層強化学習論文(生のピクセルを入力として使用)で調査された主要な環境でした。 もう一つの古典的なアーケードゲームプラットフォームはレトロラーニング環境(RLE)で、現在スーパーファミコン(SNES)向けにリリースされた7つのゲームが含まれています[9]。これらのゲームの多くは 3D グラフィックスを特徴としており、コントローラーでは 720 を超えるコントロールの組み合わせが可能だったため、SNES ゲームは Atari 2600 ゲームよりも複雑で鮮明になりましたが、現時点では環境は ALE ほど人気がありません。 図 1. ディープラーニング研究のプラットフォームとして使用されるいくつかのゲームのスクリーンショット。 B. レースゲーム レーシング ゲームでは、プレイヤーは特定の車またはキャラクターを操作して、最短時間で目的地に到着するか、指定された時間内にトラックに沿って最長距離を移動します。通常、ゲームでは一人称視点、またはプレイヤーが操作する車両からの後方視点が使用されます。 レーシング ゲームにおける一般的な課題は、エージェントが微調整された連続入力を使用して車両の位置を制御し、加速やブレーキを調整して、できるだけ早くトラックを完了する必要があることです。これには少なくとも短期的な計画と 1 ~ 2 回のターンが必要です。ゲーム内でエネルギー、ダメージ、スピードブーストなど、管理する他のリソースがある場合は、長期的な計画も必要です。コース上に他の車両が存在する場合、追い越しを管理または防止するための対策計画を組み込む必要があります。 3D画像を用いた視覚強化学習によく使われる環境は、オープンソースのレーシングシミュレータTORCS [121]である。 C. 一人称視点シューティングゲーム(FPS) 最近、視覚強化学習エージェントに適した高度なゲーム環境として、一人称シューティング ゲーム (FPS) 設定が登場しています。 ALE ベンチマークの従来のアーケード ゲームと比較すると、FPS は 3D グラフィックスと部分的に観察可能な状態を備えているため、より鮮明な研究環境になります。通常のゲーム視点はプレイヤーが操作するキャラクターの視点ですが、FPS カテゴリの多くのゲームでは肩越しの視点が使用されています。この設計によって生じる課題は、特に敵を見つけて素早く狙いを定めるときの素早い認識と素早い反応です。しかし、複雑な 3 次元環境の方向を把握して移動したり、複数の敵の動きや位置を予測したりするなど、認知上の課題は他にもあります。また、特定のゲーム モードではチームワークも必要です。ゲームで視覚的な入力が使用される場合、ピクセルから関連情報を抽出することも課題となります。 ViZDoomは、エージェントがスクリーンバッファを入力として使用して古典的な一人称シューティングゲームDoom [50]をプレイできるようにするFPSプラットフォームです。 DeepMind Labは、Quake III Arenaエンジン[2]をベースにした3Dナビゲーションおよびパズル解決プラットフォームです。 D. オープンワールドゲーム Minecraft や Grand Theft Auto V などのオープン ワールド ゲームは、非線形性が特徴で、プレイヤーが探索するゲーム世界が広く、設定された目標や明確な内部秩序がなく、プレイヤーは与えられた時間内で自由に操作できます。エージェントにとっての主な課題は、ゲームの世界を探索し、現実的で意味のある目標を設定することです。この課題の複雑さを考慮して、ほとんどの研究ではこれらのオープン環境を使用して、学習した知識を再利用して新しいタスクに転送できる強化学習手法を研究しています。 Project Malmoは、オープンワールドゲームMinecraftをベースにしたプラットフォームであり、さまざまな複雑な問題を定義するために使用できます[43]。 E. リアルタイム戦略ゲーム これらのゲームでは、プレイヤーは複数のキャラクターまたはユニットを操作し、競争や戦争に勝つことがゲームの目的となります。リアルタイム戦略ゲームの主な課題は、複数のユニットが関与する複雑な計画を策定し、実行することです。この課題は、複数のユニットが常に移動しており、有効な分岐係数が非常に大きいことが多いため、チェスなどの古典的なボードゲームの計画課題よりも難しいことがよくあります。もう 1 つの課題は、複数のユニットを持つ 1 つ以上の敵の動きを予測することです。リアルタイム戦略 (RTS) ゲームでは、戦略ゲームの多くの課題に加えて、時間の優先順位付けという課題が加わります。 StarCraft ゲーム シリーズは、間違いなくリアルタイム戦略ゲームの中で最も研究されているゲームです。 StarCraft: Brood War API (BWAPI) を使用すると、ゲームの実行中にソフトウェアが StarCraft と通信して、状態機能を抽出したり、操作を実行したりできるようになります。 BWAPI はゲーム AI 研究で広く使用されていますが、ディープラーニングを使用したものはこれまでごくわずかでした。 BWAPI上に構築された最近のライブラリTorchCraftは、科学計算フレームワークTorchとStarCraftを接続し、機械学習手法を使用してゲームを研究します[106]。 DeepMindとBlizzard(StarCraftの開発元)は、StarCraft IIの機械学習研究をサポートするために機械学習APIを開発しました。[114] API は 1 対 1 のゲーム設定をサポートしていますが、いくつかの小さな課題が含まれています。言及する価値のある抽象的なRTSゲームエンジンが2つあります。RTS [77]とELF [109]です。後者はRTSゲームの多くの機能を実装しています。 F. OpenAI ジム & ユニバース OpenAI Gymは、ALE、MuJoCo、Malmo、ViZ-Doomなど、さまざまな環境を含む個別のインターフェースを備えた強化学習アルゴリズムを比較するための大規模なプラットフォームです[11]。 OpenAI Universe は OpenAI Gym の拡張機能であり、現在 1,000 を超える Flash ゲームをサポートしており、さらに最新のビデオ ゲームへの接続も計画しています。 4. ゲームプレイのためのディープラーニング手法 A. アーケードゲーム Arcade Learning Environment (ALE) は、生のピクセルから直接制御ポリシーを学習する深層強化学習アルゴリズムの主要なテストベッドとなっています。このセクションでは、ALE の主な進歩についてまとめます。 ディープQネットワーク(DQN)は、Atariゲームで人間レベルの制御を実証した最初の学習アルゴリズムでした[70]。このアルゴリズムは7つのAtari 2600ゲームでテストされ、特徴構築[3]とニューラル畳み込み[34]を備えたSarsaアルゴリズムなどの従来の方法よりも優れており、3つのゲームでは人間の専門家よりも優れたパフォーマンスを発揮しました。 Deep Recurrent Q-Learning (DRQN) は、出力の前に再帰層を追加して DQN アーキテクチャを拡張したもので、状態が部分的に観測可能なゲームに適しています。 Q 学習アルゴリズムの問題の 1 つは、アクション値を過大評価することが多いことです。二重Q学習に基づく二重DQN[31]は、更新中に互いのターゲットネットワークとして機能する2つの値ネットワークを学習することで、観測される過大評価を減らします[113]。 Dueling DQNで使用されるネットワークは、畳み込み層の後で2つのストリームに分割され、それぞれ状態値Vπ(s)とアクションアドバンテージ(アクションアドバンテージ)Aπ(s, a)を推定し、Qπ(s, a) = Vπ(s) + Aπ(s, a)となる[116]。デュエルDQNはデュアルDQNよりも優れており、優先経験値リプレイに接続できます。 このセクションでは、Advantage Actor-Critic(A3C)アルゴリズム、プログレッシブニューラルネットワークを使用したA3Cアルゴリズム[88]、教師なし強化学習および補助学習(UNREAL)アルゴリズム、および進化戦略(ES)アルゴリズムについても説明します。 B. モンテスマの復讐(省略) C. レースゲーム Chenらは、視覚ベースの自動運転には一般的に2つのパラダイムがあると考えています[15]:(1)画像を行動にマッピングすることを直接学習するエンドツーエンドのシステム(行動反射性);および(2)センサーデータを分析してインテリジェントな決定を下すシステム(仲介された知覚)です。 アクタークリティック[17]や決定論的ポリシー勾配(DPG)[98]などのポリシー勾配法は、高次元の連続行動空間でポリシーを学習することができます。 Deep Deterministic Policy Gradient は、リプレイ メモリと独立したターゲット ネットワークを実装するポリシー勾配法であり、どちらも DQN を大幅に改善します。深層決定論的ポリシー勾配法は、画像を使用してTORCS用のエンドツーエンドCNNネットワークをトレーニングするために使用されました[64]。 前述のA3C法は、ピクセルのみを入力としてレーシングゲームTORCSにも適用されました[69]。 D. 一人称視点シューティングゲーム 同時位置推定とマッピング(SLAM)を使用して画面と深度バッファから位置推定とオブジェクトマッピングを取得すると、ゲームDoomのDQNのパフォーマンスも向上します[8]。 デスマッチチャンピオンは直接未来予測(DFP)法を使用し、DQNやA3Cよりも優れたパフォーマンスを発揮しました[18]。 DFP は、3 つのストリームを持つアーキテクチャを使用します。1 つは画面ピクセル用、1 つはエージェントの現在の状態を記述する低次元評価用、もう 1 つは優先順位付けされた評価の線形結合であるエージェントの目標を記述するためのものです。 3D 環境でのナビゲーションは FPS ゲームに必要な重要なスキルであり、広範囲に研究されてきました。 A3Cで訓練されたCNN + LSTMネットワークに、ピクセル深度とループ閉鎖を予測するための追加出力を拡張したところ、大幅な改善が見られました[68]。 内在的好奇心モジュール (ICM) は、エージェントが自分の行動の結果を予測できないことに基づいて、各タイムステップで内在的報酬を計算する複数のニューラル ネットワークで構成されています。 E. オープンワールドゲーム 階層的深層強化学習ネットワーク(H-DRLN)アーキテクチャは、ナビゲーション、アイテム収集、レイアウトタスクなど、ゲームMinecraft内の単純なタスクで知識を転送できる生涯学習フレームワークを実装しています[108]。 H-DRLNは戦略振動[87]の変形を使用して学習した知識を保持し、それをネットワーク全体にカプセル化します。 F. リアルタイム戦略ゲーム リアルタイム ストラテジー (RTS) ゲームでは、より複雑な環境が採用されており、プレイヤーは部分的に観測可能なマップ上で複数のエージェントをリアルタイムで同期的に制御する必要があります。 リアルタイム戦略にはいくつかの主な方法があります。
G. 物理ゲーム(省略) H. テキストベースのゲーム このタイプのゲームでは、ステータスや操作がテキスト形式で表示される特殊なタイプの電子ゲームです。研究者らは、このタイプのゲームをプレイするために特別にLSTM-DQN [74]と呼ばれるネットワークアーキテクチャを設計しました。 LSTM ネットワークを使用すると、世界状態のテキストをベクトル表現に変換し、すべての可能な状態とアクションのペアの Q 値を評価できます。 5. ゲームにおけるディープラーニングの概要(省略) 6. オープンチャレンジ ディープラーニング、特に深層強化学習法はビデオゲームで目覚ましい成果を上げていますが、重要な未解決の課題が数多く残っています。このセクションでは、その概要を説明します。 A. 一般的なビデオゲーム 図3. この記事で議論したディープラーニング技術の影響 図 3 の各ノードはアルゴリズムを表し、色はゲームのベンチマークを表し、中心からの距離は arXiv での元の論文の公開時間を表し、矢印はテクノロジ間の関係を表します。各ノードは、テクノロジを使用または変更したすべてのノードを指します。この論文で議論されていない影響は図には現れません。 B. 報酬が少ないゲーム C. マルチエージェント学習 D. コンピューティングリソース E. ゲーム業界におけるディープラーニング手法の応用 F. ゲーム開発インタラクティブツール G. 新しいビデオゲームを作成する H. 生涯にわたる適応力 I. 人間と同じようなゲームをする J. パフォーマンスレベルを調整できるエージェント K. ゲーム学習モデル L. 大きな意思決定空間への対処 7. 結論 この論文では、アーケード ゲーム、レーシング ゲーム、一人称シューティング ゲーム、オープン ワールド ゲーム、リアルタイム戦略ゲーム、物理ゲーム、テキストベース ゲームなどのビデオ ゲームに適用されるディープラーニング手法について説明します。作業のほとんどは、エンドツーエンドのモデルフリーの深層強化学習の研究に関係しており、畳み込みニューラル ネットワークがゲームのインタラクションを通じて生のピクセルから直接ゲームをプレイすることを学習できます。いくつかの研究では、教師あり学習を使用してゲームログから学習し、エージェントがゲーム環境で独自に対話できるようにするモデルも実証されています。多くのアーケード ゲームなどの単純なゲームでは、この記事で説明した方法の多くがすでに人間のレベルを超えるパフォーマンスを発揮していますが、より複雑なゲームでは、まだ多くの未解決の課題が残っています。 [この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: テンセントの馬化騰、センスタイムの唐暁ら6人の大物が人工知能の過去、現在、未来を深く解釈する
>>: 畳み込みニューラルネットワークによる画像認識の仕組み
2019年は機械学習と自然言語処理の分野で急速な発展があった年でした。 DeepMind の科学者 ...
5月21日、新人新市は北京で2021年新人新市ブランドアップグレード記者会見を開催した。今回の記者会...
Googleの「反撃」が来た!ジェミニはソラに脚光を奪われましたが、今は再び脚光を浴びているようです...
先月、国際的に有名な学術誌「ネイチャー」が2023年のトップ10を発表しました。世界的な科学イベント...
機械学習は今日ではよく知られた革新的な技術となっています。ある調査によると、現在人々が使用しているデ...
多項式回帰は線形回帰の改良版です。線形回帰を知っていれば、簡単に理解できるでしょう。そうでない場合は...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
近年、科学技術の発展に伴い、顔認識技術は人々の日常生活で頻繁に使用されるようになりました。たとえば、...
[元記事は51CTO.comより]「アリスマートスピーカーTmall Genie原価499元、クーポ...