金融や視覚分野に加えて、AIはゲーム開発においても破壊的な技術となっている。

機械学習は、ゲームプログラミングではなく、ゲーム開発トレーニングへの扉を開きます。

「ゲーム開発」は非常に複雑な作業であり、多くの人的リソースを必要とします。グラフィックアーティスト、ストーリーテラー、ソフトウェアエンジニアが協力して、最高のゲーム環境、ゲームプロット、キャラクターの動作を作成する必要があります。

通常、ゲームは、従来のコードの形式での「ハードワイヤードな動作」と、大規模なルールセットの形式でのより応答性の高い動作の集合の微妙な組み合わせです。

過去数年間、データ駆動型の「機械学習」が、一部の企業（Amazon、Netflix、Uberなど）でルールベースのシステムに徐々に取って代わってきました。 Unity では、テキスト作成のためのディープラーニングやゲーム開発のための深層強化学習など、機械学習技術の使用を検討しました。機械学習と人工知能の波の中に、私たちは大きな希望と発展の余地を見出しています。

[[204461]]

大規模なデータ駆動型企業にとって、機械学習はもはや新興技術ではありません。 2007年、Netflixは「フィルタリングアルゴリズム」の公開コンペティションを開始し、映画に対するユーザー評価を予測できる最も優れたフィルタリングアルゴリズムに「Netflix Prize」を授与しました。これが、現在私たちが経験しているAIメディア報道の波の始まりでした。

しかし、2000年代初頭には、よりよい発展を求めて、すでにいくつかの大企業が「データ駆動型の意思決定」や「機械学習」に取り組んでいました。顧客の好みを完全に理解し、それをより高い売上につなげるために、Amazon は「推奨アルゴリズム」に力を入れてきました。

Amazon の「推奨アルゴリズム」に加えて、広告テクノロジーは、ウェブサイトのクリック率を高めるために以前から「機械学習」を使用してきたもう 1 つの分野です。近年、機械学習はより多くの業界に拡大し、成熟し続けています。

例えば、先ほどお話しした「推薦アルゴリズム」も、もともとは単純な推薦スキームに過ぎませんでしたが、今では「探索」や「開発」によってより多くの情報を求めることができるまでに発展しています。

Amazon と Netflix がデータ収集のために推奨システムを使用する際に直面する課題は、頻繁に推奨される製品のみを顧客に表示し、他の製品を表示しない場合、顧客の好みに関して得られる情報が不完全になるという点です。

この問題の解決策は、純粋な開発行動を、探索要素が追加された開発行動に変換することです。最近では、「コンテキストバンディット」のようなアルゴリズムが、「活用」と「探索」の両方の能力を持ち、顧客に関する未知の情報をよりよく理解できるため、ますます人気が高まっています。

信じてください。Amazon を閲覧しているときに、コンテキストバンディットがいくつかのページを隠していることは間違いありません。

2015年、DeepMindは「コンテキストバンディット」アルゴリズムをさらに開発し、ディープニューラルネットワークと強化学習を大規模に組み合わせたシステムでリリースしました。

このシステムは、生のピクセルとスコアのみを入力として使用し、幅広い Atari 2600 ゲームを超人的なレベルでマスターすることができました。 DeepMind の研究者は、「開発」と「探索」の概念を完全に対比しています。「コンテキストバンディット」アルゴリズムは行動学習にはあまり向いていませんが、「深層強化学習」は「将来の累積配当」を最大化する一連の行動を学習できます。

言い換えれば、深層強化学習は長期的な価値 (LTV) を最適化する動作を学習します。一部の Atari ゲームでは、「長期的な価値」は、通常は人間のプレイヤー向けに用意されている戦略の開発に現れます。

Unity では、次のような疑問を自問しました。ニワトリは、対向車に轢かれずに混雑した道路を渡りながら、道路上のプレゼントを集める方法をどのように学習できるでしょうか。私たちは、DeepMind の実験に非常によく似た一般的な「強化学習」アルゴリズムを使用し、ニワトリがプレゼントの袋を拾うとプラスポイント、車に轢かれるとマイナスポイントになるように規定しました。

さらに、鶏に左に移動する、右に移動する、前進する、後退する、という 4 つのアクションも設定しました。これらの生のピクセルとスコアの入力、そしていくつかの非常に単純な指示に頼って、鶏は 6 時間未満のトレーニングで超人的なパフォーマンスを達成しました。

では、実際の応用の観点から、これを具体的にどのように行うのでしょうか? 実は非常に簡単です。私たちは Python API セットを使用して、Unity ゲームを Amazon Web Services (AWS) 上で実行されている TensorFlow サービスに接続しました。TensorFlow は、2005 年に Google が初めてリリースしたディープラーニングフレームワークです。

よく観察すると、訓練の初期段階では、鶏は主に車にぶつからないようにする方法を模索していることがわかります（探索段階）。訓練が進むにつれて、鶏はギフトパックを集めることを学び始めます（発達段階）。

この学習システムの重要な能力は、これまで遭遇したことのない状況に対処することであることは注目に値します。ゲーム内での車の外観やギフトパックの配置は完全にランダムであり、鶏が数時間訓練されたとしても、以前の訓練では経験したことのない状況に遭遇することになります。当社の Python API を使用すると、ゲームフレームとゲームの内部状態を読み取り、機械学習を使用してゲームをリバースエンジニアリングすることが非常に簡単になります。

この鶏の訓練は、Amazon、Netflix、Uberにインスピレーションを与え、各社が同じ技術を適用して顧客サービスを最適化することができるかもしれない。

ノンプレイヤーキャラクター (NPC) をトレーニングしたいが、その動作をコーディングするのではなく、ゲーム開発者がゲームシナリオを作成する必要があると想像してください。このシナリオでは、Python API に接続されたクラウド強化学習を使用して NPC をトレーニングします。

このゲームシーンは完全に仮想的なものにすることも、人間のプレイヤーを含めることもできます。 NPC が一定のレベルまでトレーニングされ、パフォーマンスがかなり良好になると、ゲーム開発者は別の Unity API セットを使用して TensorFlow モデルをゲームに直接埋め込むことができます。この方法では、ゲームは TensorFlow のクラウドサービスに接続する必要はありません。

ゲーム開発者の中には、「それは 10 年か 15 年前にやった」と言う人もいるかもしれません。

しかし時代は劇的に変化しました。シーケンス学習用の「Long Short-Term Memory」（LSTM）や空間特徴学習用の「畳み込みニューラルネットワーク」（CNN）などの「リカレントニューラルネットワーク」（RNN）が発明されましたが、これらのニューラルネットワークは、計算能力の不足や大規模で洗練されたソフトウェアフレームワークの不足により、ゲーム開発などの実際のアプリケーションでは依然として大きな障害に直面しています。

ゲーム開発における「深層強化学習」の応用はまだ開発の初期段階にありますが、それが破壊的なゲーム技術になる可能性が高いことは明らかです。 TensorFlow のような成熟した機械学習フレームワークは、ゲーム開発者や機械学習研究者の参入障壁を継続的に下げています。機械学習は現在、企業のあらゆる場所に浸透しつつあるため、将来のゲームに機械学習の影が見られる可能性は十分にあります。

<<: JVMシリーズ（3）：GCアルゴリズムガベージコレクター

>>: Facebookの詐欺行為と戦う方法を学び、CopyCatchアルゴリズムがLockstepをどのように解決するかを見てみましょう