強化学習とゲーム理論を活用して、EAのテストAIは賢いものになった

強化学習とゲーム理論を活用して、EAのテストAIは賢いものになった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

小さな男はリアルタイムで生成されるプラットフォームにジャンプし続け、ついにゴールに到達します...

これはWeChatの「Jump Jump」に似た小さなゲームだと思いますか?

しかし、その正体は実はゲーム大手のEA (エレクトロニック・アーツ)が開発した最新のゲームテストAIなのです。

EAが今回提案した新しいモデルでは、ゲームをプレイすることしかできない通常のAIとは異なり、小さな男がゴールラインまでうまくジャンプすることだけでなく、リアルタイムでプラットフォームを生成して自分自身を「困惑させる」ことも求められます。

なぜこのような「愛憎」の関係になるのでしょうか?

これまでのゲームテスト AI の多くは、トレーニングに使用したマップに過剰適合する傾向があり、新しいマップをテストするときにパフォーマンスが低下していました。

そのため、強化学習に基づいて、EA 研究者は GAN に触発され、この新しい方法ARLPCG (手続き型コンテンツ生成のための敵対的強化学習) を提案しました。

現在、この手法の関連論文がIEEE Con​​ference on Games 2021に採択されています。

ゲーム理論を使って過剰適合を解決する

実際、ゲームのテストで AI を使用することは目新しいことではありません。

多くのゲームテスト AI はこれまで強化学習を使用してきました。

その特徴は、環境に基づいて行動し、環境から得られる報酬や罰(ポイントの獲得、失血など)に応じて継続的に学習し、一連の最適な行動戦略を開発することです。

しかし、研究者たちは、強化学習は固定されたシナリオに対する一般化能力が低く、過剰適合に悩まされることが多いことを発見しました。

たとえば、同じシナリオで、強化学習のみをトレーニングに使用すると、キャラクターが見慣れない道に遭遇したときに「集団自殺」イベントが発生します。

これは、ゲーム マップ内でエラーが発生する場所をテストするのに非常に不向きです。

この目的のために、EA の研究者は GAN の原理を参考にして、AI が競争し、自らを最適化できるモデルを設計しました。

具体的には、彼らが提案した手法 ARLPCG は、主に 2 つの強化学習エージェントで構成されています。

最初のエージェントであるジェネレーターは、ゲーム マップの生成を担当します。ジェネレーターは、ゲーム マップやその他の要素を自動的に生成できる手法である、手続き型コンテンツ生成を使用します。

2 番目のエージェントはSolverであり、Generator によって作成されたレベルを完了する役割を担います。

その中で、ソルバーはレベルを完了すると特定の報酬を受け取ります。ジェネレーターも、挑戦的で合格点のマップを生成すると報酬を受け取ります。

トレーニング プロセス中、2 つのエージェントは互いにフィードバックを提供し、両者が報酬を獲得できるようにします。

最終的に、ジェネレーターはさまざまな許容可能なマップを作成する方法を学習し、ソルバーはさまざまなマップをテストする際により汎用的になります。

同時に、レベルの難易度を調整するために、研究者らはモデルに補助的な入力も導入しました。

この値を調整することで、ゲームの合格率を制御できます。

たとえば、ジェネレータの補助入力を 1 に設定すると、生成されるプラットフォームが大きくなり、間隔が狭くなるため、キャラクターがジャンプしやすくなります。

補助入力が -1 の場合、生成されるプラットフォームは小さくなり、間隔は広くなり、レベルを通過できる人の数は減少します。

結果は、ジェネレータの補助入力が 1 から -1 に低下すると、成功率が 97% から 69% に低下することを示しています。

さらに、ソルバーの補助入力値を調整することで合格率をコントロールできます。

固定パス、ルール生成パス、敵対的生成パスの場合、補助入力が減少するにつれて合格率が低下します。

その中で、敵対的強化生成パスの合格率は他の 2つよりも大幅に高くなっています

さらに、未知の環境にも一般化できるため、この AI はトレーニング後にリアルタイムのテストにも使用できます。

道路の未知の部分を通る合理的なルートを構築し、経路上の障害物やその他の問題の位置に関するフィードバックを提供することができます。

さらに、この AI はさまざまなゲーム環境でも使用できます。この論文では、EA はレーシング ゲーム環境でのパフォーマンスも実証しました。

このシナリオでは、ジェネレーターはさまざまな長さ、傾斜、曲がり角の道路セクションを作成でき、ソルバーはそれらの道路を走行する車になります。

ジェネレーターにレイキャスティングを追加すると、既存の環境内を移動することもできます。

この場合、ジェネレーターがさまざまな障害物の間に運転しやすいトラックを作成し、車が終点 (図の紫色のボール) に到達できるようにしていることがわかります。

大規模なオープンゲームのテスト用

論文の筆頭著者であるリヌス・ギスレン氏は、オープンワールドゲームとリアルタイムサービスゲームは現在開発の一般的な傾向であり、ゲームに多くの可変要素が導入されると、バグの数もそれに応じて増加すると述べた。

したがって、ゲームのテストが非常に重要になります。

現在、一般的に使用されている主なテスト方法は 2 つあります。1 つはスクリプトを使用した自動テスト、もう 1 つは手動テストです。

スクリプト テストは高速ですが、複雑な問題を処理するのにはあまり効果的ではありません。一方、手動テストはその逆です。多くの複雑な問題を発見できますが、非常に非効率的です。

AI はこれら 2 つの方法の利点を組み合わせることができます。

実は、EAが今回提案した新しい手法は非常に軽量です。ジェネレーターとソルバーは、512ユニットのニューラルネットワークの2層のみを使用します。

Linus Gisslén 氏は、複数のスキルがあるとモデルのトレーニングに非常にコストがかかるため、トレーニングされたエージェントごとに 1 つのスキルのみを持つようにしていると説明しました。

彼らは、この AI が新しいスキルを継続的に学習し、人間のテスターを退屈で面倒な通常のテストから解放してくれることを期待しています。

さらにEAは、AIと機械学習が徐々にゲーム業界全体で使用される主流の技術になったとき、EAは十分な準備ができていると述べました。

論文リンク:
https://arxiv.org/abs/2103.04847

参考リンク:
[1] https://venturebeat.com/2021/10/07/reinforcement-learning-improves-game-testing-ai-team-finds/
[2] https://www.youtube.com/watch?v=z7q2PtVsT0I

<<:  旅行業界における機械学習と AI: 5 つの重要な業界ユースケース

>>:  ドローンは「緊急産業」がインテリジェンスの時代に移行するのに大いに役立つ

ブログ    
ブログ    
ブログ    

推薦する

...

オープンソースの機械学習プロジェクトのトップ 5。TensorFlow だけを考えるのはやめましょう。

人類社会はこれまで、大小さまざまな技術的変化や革命を経験してきましたが、機械学習が現在の技術分野で最...

...

テンセントが論文を提出しました!とても誇りに思う

執筆者 | Mo Yan & Yun Zhao 「国家チーム」テンセント渾源モデルがついに本...

ソフトウェアと自動化機器が持続可能性と回復力を向上させる方法

近年、需要の増加、エネルギーコストの高騰、持続可能性の問題が続く中、データセンターが注目を集めていま...

アナリスト:Appleは早ければ来年末にも生成AIをiPhoneとiPadに統合する予定

10月22日、海通国際証券のアナリストであるPu Deyu氏が最近、Appleが早ければ2024年末...

ロボットの設計は「赤ちゃん」から始めるべきでしょうか?

人工知能は大きな進歩を遂げているようだ。自動運転車、自動翻訳システム、音声・テキスト分析、画像処理、...

人工知能:この冷たい水はちょうどいいタイミングで注がれます!

最近、AI(人工知能)同時通訳詐欺事件をめぐる議論がテクノロジーや翻訳界で話題となり、「AIは人間を...

人工知能が世界をより安全な場所にする4つの方法

わずか数週間で、COVID-19パンデミックは私たちの日常生活を完全に変えてしまいました。多くの企業...

AIの実践、Pythonを使って自動運転を体験しよう!

設置環境Gym は、強化学習アルゴリズムの開発と比較のためのツールキットです。gym ライブラリとそ...

Byteチームは、認知生成リストSoTAを理解するためのマルチモーダルLLMであるLynxモデルを提案しました。

GPT4 などの現在の大規模言語モデル (LLM) は、画像が与えられた場合にオープンエンドの指示...

IEEE コンピュータ協会が 2023 年の技術トレンド予測評価を発表

コンピューターサイエンスとエンジニアリングの主要会員コミュニティである IEEE コンピューターソサ...

...

ICLRスポットライト!清華大学は時系列異常検出アルゴリズムを提案し、5つのSOTA結果を達成した。

現実世界のシステムは、動作中に大量の時系列データを生成します。これらの時系列データを通じてシステム内...

早く見て! 2022年の建設業界の7つの大きな発展トレンド!

建設業界の市場競争はますます激しくなっています。建設会社は生き残りと発展のために大きなプレッシャーに...