NetEase Fuxi Game AI Botの擬人化と様式化：AIGAはゲーム探索を強化

1. AIGCからAIGAへ

AIGC は AI によって生成されたコンテンツを指し、すでに広く理解されています。

AIGC には、画像生成や会話など、幅広い用途があります。 Microsoft は、OpenAI の GPT テクノロジーに基づいた一連の素晴らしいツールを開発しました。

モデルベースやディープラーニングベースの AIGC など、AIGC テクノロジーは急速に発展しています。しかし、ゲームの分野では、GC（生成コンテンツ）は長い間研究されてきました。これらの研究は、理論的な方法ではなく、主に応用に焦点を当てています。初期のアプリケーション研究の多くは、レベル生成、武器と装備の生成、シーン構築の生成など、PCG (手続き型生成) と呼ばれていました。技術的な手段では、主にヒューリスティック手法や遺伝的アルゴリズムが使用されますが、その効果は現在の AIGC ほど驚くべきものではありません。この観点から見ると、AIGC はゲームと深いつながりを持っています。

AIGA は、AIGC の C を、AI Generated Action (AI 生成アクション) を表す A に置き換えます。より正確に言えば、AI 生成エージェントと呼ぶべきでしょう。 AIGA は新しい概念ではありません。これは実際にはゲーム内の AI ボットであり、特定のアクションを自動的に実行できるプログラム制御のキャラクターとしてよく知られています。

ゲームにおけるゲーム AI ボットの用途は何ですか?最初の例を見てみましょう。サッカーゲーム FIFA では、複数のチームメイトとオンラインでプレイできます。しかし、チームでプレイするには合計 11 人が必要なので、チーム内には操作するキャラクターと協力する AI ボットがいくつか存在することがよくあります。ここでプログラム自動化制御が使用されます。

2 番目の例を見てみましょう。古典的なゲーム「ディアブロ」では、傭兵がプレイヤーを追いかけます。これらの傭兵を制御するために、オートマトンや動作ツリーなどのいくつかの単純なルールベースの方法が使用される場合があります。しかし、これはまだ AI ボットの範囲内であり、プレイヤーにゲームパートナーを提供できます。

3 番目の例を見てみましょう。Ring of Legends や God of War などの多くのスタンドアロンゲームには、プログラム制御され、AI ボットでもあるボスや兵士が多数存在します。ここでは、強化学習は必ずしも必要ではありません。その主な目的は、複雑な操作を必要とせずに、プレイヤーにいくつかの課題を提供することです。

しかし、Against the Water、Naraka: Bladepoint、近々リリース予定のバスケットボールゲームなど、NetEase の一部のゲームなどのオンラインゲームには、AI ボットも多数存在します。これらの AI ボットは強化学習手法を使用してトレーニングされます。このゲームでは、初心者プレイヤー向けに福祉局を提供するなど、AI ボットに基づいたゲームプレイを特別に設計します。

そのため、ゲームにとってゲーム AI ボットは非常に重要かつ不可欠です。

NetEase のゲームの多くには、AIGA とも呼ばれる AI ボットが搭載されています。

2. ゲームAIボットの擬人化と様式化に関する研究の進展

この記事では、ゲームのニーズにおける AIGA のコアアプリケーションに焦点を当てます。多くのプロジェクトで、ゲーム AI ボットには擬人化と様式化という 2 つの非常に重要な要件があることが分かりました。 AI ボットの動作には明らかなスタイル特性があり、これらのスタイル特性は多様です。

このセクションでは、これら 2 つのニーズに関する関連研究を全体的に紹介します。

擬人化と様式化の目的は異なりますが、それを実現する方法は基本的に同じです。

ゲームAIボットの擬人化と様式化の機能は何ですか?プレイヤーの観点から見ると、優れた AI ボットはプレイヤーに優れたフロー体験を提供できます。フローとは、ゲーム進行中のプレイヤーの心理的な浮き沈みを指します。

ゲームをプレイしながら、プレイヤーのフロー曲線が上昇していくことを期待しています。強化学習により、人間のレベルをはるかに超える非常に強力なロボットを訓練することができます。しかし、プレイヤーが対戦相手として行動する場合、ロボットは強すぎると感じ、ゲーム体験はあまり良くありません。最終的に、プレイヤーは不安を感じ、その流れはこの不安ゾーンに到達します。これは擬人化が十分に行われていないことを示しています。

一方、ロボットの行動が十分に豊富でなかったり、行動特性が明確でなかったり、行動特性が非常に単純だったりすると、プレイヤーの流れはこの退屈な範囲に陥ってしまいます。このような選手の流出は我々が望んでいることではありません。

擬人化と様式化はプレイヤーの流れと体験に影響を与えます。。この分野ではこれまでにもいくつかの研究が行われており、多くの調査が行われてきましたが、まだ統一された方法論が形成されておらず、十分に普遍的ではありません。

たとえば、『Naraka: Bladepoint』のゲームロボットを開発していたとき、ゲームキャラクターの経路探索タスクを自動的に完了できるパトロール機能を備えたロボットを実装しました。このボットを設計する際、私たちはその動作を実際のプレイヤーの動作に近づけるために報酬の重みを微調整するのに多くの時間を費やしました。最終的に、複雑な操作を自動的に実行できるロボットを実現し、左の写真に示すような効果を達成しました。このロボットは、単に道を見つけて移動するだけでなく、ゲーム内で人間のプレイヤーにしかできない複雑な動作を実行できます。

これはオリジナルの Naraka: Bladepoint の巡回ロボットです。ルールに従って書かれており、常に飛び回っています。目的地には到着できるものの、プレイヤーは一目でそれがロボットだとわかり、それ以上プレイしたくなくなり、結果として悪い体験になってしまいます。私たちが使用する強化学習法で訓練されたロボットは、より自然に見え、より良いプレイヤー体験を提供できる可能性があります。しかし問題は、強化学習のトレーニングプロセス中に、現在の結果を達成するために、アルゴリズム関連の報酬の重みとパラメータを調整するために多くの人的資源と時間を費やしたことです。同時に、このようなアプローチは再現可能ではありません。タスクを変更すると、調整したパラメータと重みは適用されなくなります。

私たちは多様化、つまりマルチスタイルの行動について多くの研究を行い、マルチ連合トレーニング、報酬形成、進化アルゴリズム、多目的最適化などのいくつかの方法を提案しました。これらの方法についてはいくつかの論文が発表されていますが、計算の複雑さ、コスト、実装サイクルの長期化、オンラインコストが高く、これは望ましいことではありません。

私たちのゲーム AI ロボットは擬人化されており、多様なスタイルになっています。その後、ゲーム AI ロボットが他の AI テクノロジーと同様の技術経路をたどっていることがわかりました。これらの AI を評価する際には客観的で統一された基準がないため、最終的には人間の主観的な判断が必要になります。また、技術的な観点からは、パラメータや報酬の調整などの課題があり、より一般的な自動化された技術的ソリューションを実現したいと考えています。もう一つの目標は、ビジネス成果を向上させることです。

1. 擬人化

擬人化は主観的なものですが、アルゴリズムの研究を導き、AI が擬人化されているかどうかを評価するための一般的な解決策を提案するには、客観的な定量的な指標が必要です。私たちは、ゲームをプレイする AI ボットの研究を導くことができる客観性と信頼性を中心としたフレームワークを提案します。人間のプレイヤーの行動特性をカウントし、AI ロボットによってトレーニングされた行動特性と比較して統計的なマッチングを行うことができます。一致する動作の数を数えることで、AI ボットがどれだけ擬人化されているかを評価できます。

2番目の側面は多様性指標です。人間の行動は多様であり、ゲーム内の行動も多様であるべきで、そうでなければ十分に人間的ではないでしょう。戦略分布と行動分布で測定できます。

3番目の側面は競争指標です。 AIの強さにより、ゲームの競争パフォーマンスが向上します。しかし、AIロボットの場合、過度に高い競争力を求めるのではなく、一定レベルの要件を満たすことが求められます。カジュアルにプレイする場合でも、特定の目標と閾値が必要です。

4番目の側面は、フィールド関連の指標です。ゲームによって擬人化評価基準が異なるため、ゲームの特性に応じて特別な指標を設定する必要があります。

これらの指標は、ゲーム内のいくつかの行動分布を通じて反映されることもあります。ただし、統計的手法のみを使用するのではなく、ゲーム自体に基づいてこれらの指標をカウントする必要があります。たとえば、多くのアクションゲームでは、プレイヤーのコンボリリース率をカウントすることで、ゲームの難易度とプレイヤーのスキルレベルを測定できます。これは人間の行動に似ています。たとえば、バスケットボールやフットボールの試合では、選手の走る位置が非常に重要です。ゲーム内のさまざまなポジションのヒートマップを分析することで、ゲームの合理性を判断できます。これは、ゲームの難易度やプレイヤーのスキルレベルを測定するためにも使用できます。

結局のところ、これら 4 つの指標は単なる定量的な指標であり、ゲームが人間の行動に本当に一致しているかどうかを判断するには、主観的な判断が必要です。最終的なチューリングテストは重要な基準です。

このフレームワークは、アルゴリズムの反復プロセス中に定量的な指標を通じてアルゴリズムの進行状況を評価するのに役立ちます。たとえば、反復の前後の結果を比較することで、アルゴリズムが実際に改善されたかどうかを判断できます。

これらの指標を視覚的なレーダーチャートとして表示すると、領域の大きさによってさまざまなアルゴリズムソリューションの擬人化を判断できます。

視覚化されたレーダーチャートから、緑色の部分で示されているように、強化学習によってトレーニングされたボットは競争力が強くなるかもしれませんが、多様性と客観性の点で十分ではない可能性があることがわかります。

視覚化されたレーダーチャートから、赤い部分で示されるように、模倣学習方式でトレーニングされたボットは、強化学習方式でトレーニングされたボットよりも擬人化の度合いが高いことがわかります。

視覚的なレーダーチャートを通じて、これらの指標がボットの擬人化の度合いをどのように反映しているかを直感的に確認できます。レーダーチャートの面積が大きいほど擬人化されやすくなります。

具体的な実践としては、人間のデータを基に擬人化を行う必要があります。模倣学習は人間のデータの分布を模倣するのに役立ちますが、この方法で得られる強みは限られている可能性があります。純粋な模倣学習では、合理的な行動を得られない場合があり、その主な欠点は、その強度が比較的低いことです。

そのため、修正を加えて模倣学習と強化学習を組み合わせ、強化学習と模倣学習の統合による擬人化を実現する必要があります。これにより、ゲームアルゴリズムの強度と多様性が向上し、人間の行動をより適切にシミュレートできるようになります。

最適化スキーム全体は非常に簡潔であり、自動化を通じて最適化プロセスを実現することを期待しています。

この方式では、ターゲットパラメータは 2 つの部分で構成されます。1 つは強化学習、もう 1 つは模倣学習であり、これらは重みを通じて関連付けられます。ここでは、重みを自動的に調整するためにいくつかの正規化手法を使用します。具体的には、まず強化学習を使用して AI Bot の強度レベルを調整し、次に模倣学習を使用して AI Bot の擬人化指標をさまざまな次元で改善します。

この目標を達成するために、何らかの正規化を使用します。トレーニングの過程で、AI ボットの勝率または強さが設定したしきい値よりも低いことが判明した場合、模倣学習の重みを減らすことで AI ボットの強さを最適化します。 AI ボットの強度が増すと、模倣学習の重みを増やして AI ボットの擬人化を最適化します。

このように、トレーニングプロセス中に、AI ボットはまず勝率を最適化します。 AIボットの強さが一定レベルに達すると、模倣学習の重みが増加し、模倣学習の効果が向上します。最終的には、AIボットの強さはゆっくりと自動的に増加します。これはハイパーパラメータ設定の自動化アプローチです。これを自動化する洗練された方法は他にもあるかもしれませんが、ゲームアプリケーションの場合、このアプローチで十分です。

近日発売予定のバスケットボールゲーム「オールスターストリートボールパーティー」では、擬人化手法を使用して AI ボットの強度を向上させました。模倣学習と強化学習の効果を比較したところ、強化学習は AI ボットの強さを向上させることができますが、他の指標は模倣学習法ほど良くないことがわかりました。また、模倣学習を使用すると AI ボットの他の指標が向上しますが、強さは強化学習法ほど良くありません。

バスケットボールの試合では、AIボットのシュート数、パス数、移動頻度などのフィールド関連の指標に関しては、強化学習よりも模倣学習の方が優れています。

パス数やシュート数などのドメイン指標については、ゲームデータ内の人間プレイヤーの値を模倣学習の最適化対象として使用し、重みを自動調整することができます。このように、擬人化最適化だけでなく、パス数を減らしたり、パス数を増やしたりするなど、あらゆる様式化された最適化にも使用できます。私たちはその後の様式化されたテクノロジーの調査でも同様のアプローチを使用しました。

バスケットボールの試合における擬人化の最終的な効果を見てみましょう。

しかし、新たな問題に遭遇しました。客観的な指標からは、強化学習と比較して改善が大きいことがわかります。しかし主観的には、ほとんどの人は改善を感じません。経験豊富なゲームプレイヤーでなければ、ゲームロボットの擬人化効果を主観的に区別することはできません。私たちの究極の目標は主観的な擬人化を高めることだからです。客観的な改善は重要ですが、それが私たちの最終目標ではありません。この質問には後でお答えします。

2. マルチスタイル

様式化についても同様です。ゲーム AI ボットのどの動作がそのスタイルを反映できますか?フレームワークを提案します。まず、プレイヤーの移動軌跡分布や位置ヒートマップ分布など、ゲーム AI ボットの状態を定義します。これらの状態の変化は対応するアクションを反映し、異なるスタイルを表します。

バスケットボールの試合を例にとると、ピックアンドロールの数、シュートの数、ブロックの数などのアクションは、タイトディフェンススタイルなどのさまざまなディフェンススタイルを表します。

この結果は、強化学習の報酬効果とも一致しています。たとえば、2 ポイント獲得率、3 ポイント獲得率、トップ成功率などの結果は、異なる報酬効果に対応する可能性があります。

状態、アクション、結果の次元は、多くの場合、相互に絡み合っています。さまざまなゲーム AI ボットのスタイルを表すために分割しました。

私たちはこの試みをゲーム「Ni Shui Han」で行いました。

まずはマルチスタイル化を試してみましょう。当初は、1 つのモデルを使用してすべてのスタイルをトレーニングしたいと考えていました。これは理論的には可能ですが、スタイルの次元が多数ある場合は、モグラ叩き現象が発生します。 1 つのモデルでアグレッシブなスタイルと保守的なスタイルの両方を実現します。これら 2 つの側面は本質的に矛盾しており、同時に達成することはほぼ不可能です。。ゲームの AI ボットは多様な様式化が施されているため、その数ではなく様式化に重点が置かれています。したがって、より多くのことを実現するために、私たちは他の手段を通じてそれを達成します。

どうすればスタイルを最もよく反映できるでしょうか?プレイヤーにとって、ゲームをプレイ中に遭遇するスタイルは比較的少ないです。数個または 12 個のスタイルがあれば十分です。重要な点は、ゲームのスタイル特性をより明確にする必要があることです。そこで私たちは考え方を変え、ゲームの AI ボットスタイルの開発から始めました。

簡単な実験をしました。強化学習の典型的なゲームである Breakout では、さまざまなスタイルの分布を観察するように AI モデルをトレーニングしました。

まず、手数によるスタイルを調べます。一般的に、各ゲームの移動回数は似ており、平均 15 ～ 16 回の正規分布に従います。ただし、移動回数が非常に少ないエピソードもあれば、移動回数が非常に多いエピソードもあります。

そこで、このモデルに基づいて、より頻繁に移動する AI ボットを取得したいと考えています。移動回数に基づいてサンプルを分割し、元のモデルを微調整します。多数の動きを持つ AI ボットをトレーニングする場合は、線を引いて 25 を超える動きを持つサンプルのみを保持し、他のサンプルを破棄します。このサンプルの一部を使用して元のモデルを微調整すると、より頻繁に移動する AI ボット (アクティブボット) を取得できます。同様に、動きの少ない AI ボットも入手できます。真ん中のサンプルを捨て、非常に少ない動きでサンプルを取り出して、最終的に Lazy Bot を取得します。このようにして、2 つの様式化された AI ボットが作成されます。

一般的に言えば、まず動作が正規分布に従う基本モデルを事前トレーニングします。次に、必要に応じてサンプルの一部を抽出し、ベースモデルに基づいて様式化された微調整を行う、自己模倣学習法です。

SIL（自己模倣学習）方式を使用して独自のサンプルを模倣し、必要なスタイルと指標に基づいてサンプルを抽出し、RL（強化学習）方式を使用して強度を確保します。

マルチスタイル化のプロセスは、擬人化と基本的に同じです。主な違いは、マルチスタイル化のサンプルは AI Bot 自身のサンプルから取得されるのに対し、擬人化のサンプルは人間のサンプルから取得されることです。

このアイデアをもとに、バスケットボールの試合で実験を行い、スリーポイントシュートに特化したAIボットを開発しました。この AIBot はスリーポイントシュートの打ち方しか知りません。より正確に言うと、ゲーム中にできるだけスリーポイントシュートを打とうとします。

ゲーム画面では、この AI のキャラクターが Curry であることがわかります。バスケットボールに詳しい人なら、カリーのスリーポイントシュートの能力が優れていることを知っているはずだ。そのため、この AI ボットの特徴は、スリーポイントシュートをできるだけ多く打てるという点です。

さらに、2ポイントシュートに特化したAIボットもいて、非常に興味深いです。カリー選手を例に挙げてみましょう。彼は優れたスリーポイントシューターですが、私たちが使用している自己模倣学習、強化学習、その他のトレーニング方法により、この AI ボットは 2 ポイントシュートを選択します。 2 ポイントショットの後にショットがブロックされたとしても、バスケットに向かって進み続けます。これは非常に興味深い現象であり、スタイルが必ずしも強度や直感的な感覚に対応するわけではないことを示しています。ただし、この AI ボットは、私たちが設定した目標を達成することができます。

先ほどシュートスタイルを紹介しましたが、ここではピックアンドロールスタイルを例に挙げて説明します。バスケットボールの試合では、強化学習のトレーニングを通じて、ピックアンドロールは最初は簡単に達成できないことがわかりました。これはゲーム自体の仕組みといくつかの設定によるものです。ディフェンスがうまくプレーしている場合、またはオフェンスがうまくプレーしている場合、ピックアンドロールは必要ないかもしれません。強化学習では、これは必要なことではないと判断され、すぐに他のアクションに進む可能性があります。

ピックアンドロールのサンプルを抽出して、センタープレイヤーがゲームでより多くのピックアンドロールスタイルを使用できるようにします。自己模倣をモデル化することで、この行動をピックアンドロールに向けることができます。こうすることで、センタープレーヤーはより多くのピックアンドロールを行うことができます。これらの技術と方法は実現可能かつ効果的です。

3. RLHF ゲーム AI ボットモデルの微調整

先ほど述べた問題は、主観的な感情と客観的な指標のギャップに関するものです。客観的な指標は大きく改善されているかもしれませんが、主観的には明らかに改善を感じられず、まったく改善されていないと感じることもあります。したがって、主観と客観の間のギャップをよりうまく埋めるためには、このギャップがどこにあるかを見つける必要があります。

モデルがトレーニングされた後、客観的な指標を使用して評価します。ただし、この客観的な指標はモデルのトレーニングに直接フィードバックされるのではなく、参照のみを提供します。最終的には、人間が判断を下し、その判断に基づいてモデルを調整する必要があります。たとえば、特定のメトリックのパフォーマンスが十分でないと思われる場合は、モデルを微調整してそのメトリックを改善できます。

私たちの最終的な目標は、客観的な指標をモデルのトレーニングに直接フィードバックできるようにすることです。モデルの客観的な指標のパフォーマンスが低い場合は、直接フィードバックを提供してモデルを最適化することができます。ただし、ほとんどの客観的な指標はモデルの最適化に直接使用することはできません。

もう一つの問題は、客観的な指標がモデルの擬人化や様式化の程度を完全に反映できないことです。

既存のソリューションの考え方は、マクロデータレベルで最適化し、模倣学習または自己模倣学習を通じて、AI の動作を望ましいデータ統計分布の方向に導き、より適合するようにすることです。

しかし、主観的な目標については、人間はデータの分布の観点から判断しません。統計がどれだけ得意でも、一度でも正しく理解できなければ、人間はあなたと自分の意見が一致していないと考え、あなたのモデルが間違っていて、ロボットを使っていると結論づけてしまいます。たとえモデルが客観的な指標で 10,000 回の成功率を持っていたとしても、たった 1 回の失敗がモデルの擬人化や様式化に関する人間の判断に影響を与えます。

そこで、人間からの主観的なフィードバックから学習できるかどうかを検討します。これが実現可能であることが証明されました。動作が理想的でない場合は、ラベルやその他のフィードバックを提供します。これらのフィードバックは、人間のフィードバックと主観的な評価を反映した新しいデータを形成します。このデータは、RHLF（人間のフィードバックに基づく強化学習）を実行してモデルをさらに最適化するために使用されます。

私たちはいくつかの予備実験を実施し、現在は全体的な最適化に取り組んでいます。主観的に見ると、モデルの追従防御はあまり良くなく、防御時に追従距離が遠すぎて、十分にタイトではないことがわかりました。

したがって、ペアワイズラベルを使用して、左側が防御で良い仕事をしているか、右側が防御で良い仕事をしているかを判断し、このようにラベル付けしてデータを作成することを検討します。

データは報酬関数に変換され、強化学習を微調整するために使用されます。トレーニングの過程で、RLHF プロセスのトレーニングによってボットの防御距離が短縮され、最終的に良好なレベルに達することがわかりました。

左右の比較を見てみましょう。左側はRLHFトレーニング後の成果です。例えばカリー選手のような選手が守備に回るときにも間に合います。右側をよく見ると、しばらくの間内側に流れていたことがわかります。なぜなら、対戦相手は実際にこちらへ走ってきており、カリーは防御するために直接あちらへ走るべきだからです。したがって、これはディフェンスの右側のパフォーマンスよりもわずかに悪いです。したがって、この RLHF アプローチを使用すると、いくつかの調整を行うことができます。

そのため、右側のヒールディフェンスは若干悪くなりますが、RLHF メソッドを使用すると、この状況を改善するための調整を行うことができます。

これが当社のソリューションパイプライン全体です。まず、データ収集が行われますが、データ収集の前に、強化学習を使用してモデルを事前トレーニングすることができます。そして、設定した目標に基づいて、自己模倣学習に取り組むことができます。強度を確保するために、強化学習の安全策を追加します。

次に、モデルをトレーニングした後、RLHF を使用して主観的な判断で微調整します。 ChatGPT と同様に、モデルのパフォーマンスを継続的に調整および改善する必要がある場合があるため、このプロセスは継続的に繰り返すことができます。

このクローズドループが構築できれば、AIエンジニアは報酬やパラメータの調整といった問題に介入する必要が減り、複雑な操作を必要とせずにある程度の普遍的な生産を実現できるようになります。

ご参加いただき誠にありがとうございました。この技術は非常に興味深いものであり、ゲーム制作パイプラインで役割を果たすことができます。その中には、既存のテクノロジーが役に立つものもあります。

4. 質疑応答

質問 1: 音声アシスタントの応答の様式化も同様のアプローチに従っていますか?

音声アシスタント風に、こんなこともできると思います。音声アシスタントは、甘いものや鋭いものなど、さまざまなスタイルを採用できます。これらのスタイルデータを分離するには、いくつかのデータ指標を設定し、模倣学習または教師あり学習を使用して、より様式化されたデータをモデルのトレーニングに使用する必要があります。ベースモデルは、Lora またはその他の方法を通じて必要な様式化されたデータを抽出し、スタイルの変更をすばやく実行できます。ゲーム開発でも同様のアプローチを採用し、良い結果を達成しました。ベースモデルが確立された後、様式化されたデータが抽出され、トレーニング目標の完了には数時間しかかかりません。

質問 2: 多目的学習はどのように実現されるのでしょうか?

多目的学習は、1 つのモデルで複数のスタイルを実現することを目的としています。 1 つのスタイルを実装するモデルから始めて、さまざまなスタイルを区別し、目標間の競合を回避するために様式化された変数を追加しながら、徐々にモデルを拡張することができます。モデルには、スタイルターゲットを反映する埋め込み変数が必要です。さらに、Lora は比較的軽量なネットワークであり、継続的に追加できるため、既存のモデルに異なる Lora モデルを重ね合わせることで、複数の目的を達成できます。