導入ゲーム業界は近年急速に発展しており、2020年第1四半期だけでも中国のゲーム市場の売上高は700億元を超えています。インターネット企業がトラフィックを獲得し、商業化を実現するための最も効果的なチャネルの1つとして、大手インターネット企業も積極的にゲームを展開しています。多くの業界で生産性を向上させることが実証されている技術として、AI はゲーム分野でも大きな応用の可能性を秘めています。 AIとゲームの組み合わせは、実はずっと以前から登場しています。Deep BlueからAlphaGoまで、AIはさまざまなゲームで急速に人間を追い抜いてきました。
AIとゲームの関係についての一般的な認識はまだ「プレイヤーと競争する」というレベルですが、AIは実際にはゲームの開発、プロモーション、運営のさまざまな側面を強化できることに私たちはすでに気づいています。この記事では、主にKuaishouがゲームビジネスのさまざまな側面にAI技術を適用することの探求と実装を紹介します。これらのタスクは、Kuaishou の AI プラットフォーム部門、ゲーム技術センター、Kuaiyou Studio によって完了されました。 AI支援による研究開発レベルアップ型のゲームでは、ゲームが長くなるにつれてレベルの数が増えます。Candy Crush Saga などの成熟したレベルアップ型のゲームには、何万ものレベルがあります。レベルの難易度を適切に設定することが、ユーザーフローのエクスペリエンスを向上させる重要な要素です。優れたレベルデザインは、ユーザーの現在のレベルに基づいてゲームへの興味を効果的に刺激できますが、難易度が不安定なレベルデザインは、ユーザーのゲーム体験を大きく妨げます。 上記の状況では、ビジネスやシナリオの要求に基づいて適切な難易度のレベルを作成することが非常に重要になります。従来のレベルアップ型ゲームの開発では、テスターが多数の反復テストを実行してレベルの難易度をテストすることがよくあります。この従来の方法には 2 つの大きな欠点があります。1 つ目は、多くの人材と労働時間を消費することです。2 つ目は、このタイプのテストではテスターの個人的なエラーが発生することが多く、レベルの難易度の推定に体系的な偏差が生じることです。 これら 2 つの問題を体系的に解決するために、ゲーム レベルで AI 機能を使用する試みをいくつか行いました。ゲームの仕組み上の問題により、ここでは 2 つのビジネス上の要求があります。1 つは、特定のレベルの難易度を AI で評価すること、もう 1 つは、指定された難易度のレベルを自動的に生成することです。 Kuaishou は両方のシナリオに対応するソリューションを用意しており、Point Elimination や Landlords などのゲームに実装することに成功しています。 スマートレベル難易度テスト ポイントアンドクリックゲームの特徴は、アクションが比較的シンプルであることです。ゲームレベルボードは最大9×9のグリッドで構成されており、アクションはクリックのみです。ただし、その状態空間は非常に大きく、各グリッドには、要素タイプ (ブロック、ブロッキング要素、小道具、一時スペース、永続スペース、ポータルの有無) や要素属性 (色、レイヤー数、ステータス、方向など) など、多数の属性があります。 この問題を解決するために、強化学習 (CNN + A2C を使用) とモンテカルロ木探索 (MCTS) に基づくアルゴリズムを設計しました。難しさの 1 つは、並列 MCTS アルゴリズムです。複数のワーカーが同時に選択→拡張→シミュレーション→バックプロパゲーションのプロセスを実行しているため、ワーカーが選択を行っている間は、他のワーカーの未完了のシミュレーション結果を取得できません。これにより、多数のワーカーが古くて類似した情報しか見ることができず、検索ツリーのノード選択の品質に重大な影響を与え、シリアル状態での探索と活用のバランスが崩れます。 この問題を解決するために、WU-UCT アルゴリズム (Watch the Unobserved in UCT) を提案します。このアルゴリズムは、非同期並列アルゴリズムの考え方を借用しています。その中核は、各ノードをシミュレートしているワーカーの数を記録するための追加の統計を維持し、それを使用して選択アルゴリズムを調整することです。さらに、マスタースレーブ作業モードシステムを使用しました。マスター プロセスは完全な検索ツリーを維持し、選択およびバックプロパゲーション操作を実行します。同時に、メインプロセスは、拡張およびシミュレーションタスクを対応するサブプロセスに割り当てる責任があり、サブプロセスは完了後に結果をメインプロセスに返します。これを行う利点は、共有メモリやプロセス間のアクセス競合などの問題を回避しながら、各選択に対する統計情報が完全であることを保証できることです。 最後に、上記の方法でトレーニングした AI を使用して、1,000 以上のレベルの難易度を自動検証しました。ユーザーが測定した実際の合格率に基づくと、当社の AI 難易度評価システムの誤差は 8.6% 以内でした。 WU-UCT の助けにより、当社のシステムは、レベルがリリースされた後のプレイヤーの予想完了率を正確に予測し、レベル デザイナーに適切なガイダンスを提供できます。手動テストなしでフィードバックを取得できるため、開発コストが大幅に削減され、ゲームの作成方法が変わります。さらに、この研究成果を論文としてまとめ、ICLR2020[1]で発表し、同会議の口頭報告論文として採択されました。 自動レベル生成 AI によって特定のレベルの難易度を自動的に評価するという問題を解決した後、当然ながら、レベルの生成も自動化できるかどうかという要求が生まれました。そこで、Kuaishou が開発した「Love Game Landlord」のエンドゲームプレイで新たな試みを始めました。 チェスやカードゲームの終盤レベルの設計は非常に難しく、デザイナーには非常に高い基準が求められます。このゲームの専門家であっても、価値のある終盤を設計するのは難しいと感じることがよくあります。まず、強化学習とミニマックス探索を使用して、Landlords のエンドゲームを解読できる AI を設計しました。次に、この AI をベンチマークとして使用して、ランダムに生成されたハンド ゲームをスクリーニングし、実際のテストからのユーザー エクスペリエンス データを使用してスクリーニング ルールを学習しました。すでに開始されている 2 人用エンドゲーム レベルに加えて、3 人用エンドゲームも生成できます (難易度が高いため、現在ゲームでは利用できません)。さらに、類似した終盤が生成されないように、カード情報を標準化し、類似したカード情報が標準化された空間内で同じカードになるようにしました。最終的に自動生成されたエンドゲームは、30~40% の合格率 (開発者テスト) を達成し、開発効率が大幅に向上しました。現在、このソリューションは「愛玉豆豆珠」のエンドゲームモードでリリースされています。 AI支援プロモーションゲームの開発とテストが完了した後の次の重要なタスクはプロモーションです。ここでは、ゲーム広告ビジネスにおける AI の実践と探求について紹介します。 スマートな配達 ゲームスタジオはトラフィックプラットフォーム(Kuaishouなど)でトラフィック、つまりユーザーを購入します。広告主として、ゲームスタジオは広告を実施するためにサードパーティの配信チームを設立または雇用します。配信チームは、素材(短いビデオ、写真カバー、広告スローガン)を使用して広告のアイデアを構築し、対応する配信パラメータをパッケージ化して設定し、最後に広告プラットフォームが提供するインターフェイスを通じて配信される広告プランを作成します。広告プラットフォームは、広告のアイデアを公開し、広告主に料金を請求する役割を担います。ユーザーは、広告を見て、広告内のリンクをクリックし、ゲームをダウンロードしてアクティブ化することで、ゲームユーザーになります。ユーザーはゲーム内で直接的または間接的に購入を行い、ゲームスタジオは売上収入を受け取ります。 従来の広告は、主に手動で広告のアイデアを作成し、広告プランを作成することに依存しています。しかし、手動配送には明らかな欠点があります。まず、手動配送では、いくつかの反復的な操作を実行するために多くの人手が必要になります。第二に、手動配送の有効性は、最適化者(配送担当者)の直感と経験に大きく依存しており、一般化できる一般的な方法は存在しません。 上記の問題を解決し、最適化担当者の手と脳の一部を解放するために、私たちはインテリジェントな配信システムを構築しました。このシステムの目標は、人間の介入を必要とせずに、配信のフルリンククローズドループを形成することです。このシステムは、リコールと組み合わせたランキング配信戦略フレームワークに基づいています。 リコールとは、素材(短いビデオ、カバー、広告スローガン)を思い出すことを指し、基本的には素材ライブラリからいくつかの素材を選択することと理解できます。リコール方法には、ルールベースとモデルベースの 2 種類があります。私たちのリコール モデルは主に、線形モデル、ツリー モデル、ニューラル ネットワークなどの回帰モデルと分類モデルです。最適化目標(ROI、活性化数、活性化価格など)を指標として、教師あり学習モデルを構築し、単一材料の性能を予測して、潜在力のある材料を選択します。素材の特性には、ビデオを例にとると、ビデオの重要なフレームの埋め込みベクトル、ビデオの長さ、ビデオのスタイル、ビデオのカテゴリなどが含まれます。コンテンツ自体の特性に加え、過去 24 時間のクリック率、3 秒以内の完了率など、過去の期間のパフォーマンス特性も含まれます。 組み合わせソートとは、想起された原資料を組み合わせ(直積)て広告クリエイティブを構築し、ソートすることです。並べ替え結果に基づいて、上位のクリエイティブアイデアを広告プランに組み込みます。いくつかのランキングモデルを開発しました。テンソル分解モデル、ニューラルネットワークに基づくツインタワーモデルなど。テンソル分解法では、アイデアを(短いビデオ、画像カバー、広告スローガン)などの複数のタイプのタプルと見なすことができ、これを 3 次テンソルと見なすことができます。 ROI など、以前にリリースされた広告クリエイティブのパフォーマンスは、テンソルの特定の要素の値と見なすことができます。テンソル分解では、創造性スコアリングをテンソル完成問題と見なすことができ、低ランク仮定と従来のテンソル分解アルゴリズムを使用して創造性スコアを完成できるためです。 デュアルタワーモデル、より正確にはマルチタワーモデルは、各次元の物質的特徴をニューラルネットワークに渡して、それぞれの抽象的な特徴表現を取得し、それらを融合してスコアにマッピングします。たとえば、最も基本的なデュアルタワー モデルは、短いビデオや画像カバーのシナリオで使用され、ビデオ素材に適したカバーを見つけることとして理解できます。 リコールと組み合わせソートのフレームワークに基づいて、新素材のコールドスタート、クリエイティブな空間探索、インテリジェントなクリエイティブ制作など、さまざまな具体的な配信戦略を設計できます。上記の配送戦略に加えて、材料のブラックリストとホワイトリスト戦略、古い材料のリサイクル戦略、シャットダウン戦略など、さまざまな補助戦略も開発しました。これらすべての戦略を組み合わせることで、基本的に現在のシナリオをすべて満たすことができます。私たちはすでに 10 以上のゲームに関わっており、そのうち 2 つは完全に自動でホストされています。現在、AI 生成の広告プログラムのコストは総コストの約 40% を占めています。 AI支援による運用ゲームのプロモーション後の次のステップは運用です。運営プロセスでは、ゲーム内戦略に関する多くの問題があり、ゲーム内運営戦略はユーザー体験とリテンションに大きく影響し、収益にも影響します。適切な戦略を立てることは、通常、ゲーム プランナーにとって非常に重要な仕事であり、優れた戦略は通常、ゲーム プランナーの豊富な経験と直感に依存します。ただし、シナリオによっては、データによって、ユーザーに適した運用戦略を生成する方法をより適切に導くことができます。一方、操作をサポートする過程では、ゲーム AI の支援が必要になることも多々あります。たとえば、ゲーム AI は、ゲームのコールドスタートや切断後のプレイ継続などのシナリオで重要な役割を果たします。ここでは、Kuaishou のゲーム事業において、データ駆動型戦略とゲーム AI を使用してユーザー エクスペリエンスを向上させる方法を紹介します。 データ駆動型ゲーム内戦略 マッチング戦略 マルチプレイヤーの競争的または対決的なゲーム シナリオでは、マッチングは優れたプレイヤー エクスペリエンスの重要な部分であり、ユーザー維持率を向上させるために不可欠です。ユーザーマッチングアルゴリズムは、一般的に、一定の戦略に従って、まず同等の強さを持つ、または分割の特定のルールを満たすユーザーグループを大まかに分類し、次にローカルな微調整と分割を行ってゲームバランスを確保します。ただし、異なる分野やチームのプレーヤーをマッチングさせるためにグローバルなユーザーエクスペリエンスを最適化する方法は、依然として NP 困難な問題です。 ゲーム「LoveYou DouDiZhu」のオリジナルルールベースのマッチング戦略を例にとると、マッチングするユーザーはマッチングプールを形成し、ユーザーのステータス(残りのゴールドコイン、勝率、ランクなど)を主な基準として使用します。ルール式に従って戦闘力係数を計算し、同様の係数を持つユーザー同士をマッチングします。しかし、この情報はプレイヤーの実際のレベルを正確に反映することができず、ゲーム内でのプレイヤーステータスのバランスを確保することが難しく、実際のユーザーエクスペリエンスに一貫性がなくなります。したがって、ユーザーのゲーム時間と維持率を向上させるには、プレイヤーの実際のレベルをより包括的に評価し、グローバルな経験からマッチング戦略を最適化する必要があります。 私たちは、プレイヤーの過去のゲーム行動シーケンスとポートレートデータを活用し、多次元機能を統合するディープニューラルネットワークに基づくユーザーマッチング戦略を実装します。プレイヤーの過去のゲーム行動とユーザー ポートレートの統計的特徴をモデル入力として取り、プレイヤーの過去のゲームにおける連続するテーブルの数の区間分類をラベルとして取り込むことで、マルチ分類モデルをトレーニングできます。オンライン予測を行う際、まず、設計されたクラスタリング モデルを使用してユーザーを大まかにクラスタリングします。これは、大まかなソート プロセスです。次に、各クラスターの下にあるユーザーを 3 つのグループにグループ化し (Landlord ルール)、すべてのグループの組み合わせを予測モデルに入力して、異なる組み合わせの下での一致確率値を出力します。最初に、確率値が大きい組み合わせ同士が一致します。これが精製プロセスです。 特徴抽出に関しては、ユーザーの過去のゲームデータから基本的なユーザー特性と行動特性を抽出します。さらに、確率的グラフィカルモデルを通じて、各プレイヤーのゲーム力を時間の経過とともに動的に変化するガウス分布とみなし、ゲーム結果[2]からプレイヤーの能力値を学習して、プレイヤーの実際のゲームレベルを反映します。上記の基本的なユーザー特性、行動特性、プレイヤー能力値は、マッチングモデルの入力特徴として表現するために共同で接合され埋め込まれます。連続したゲームの数(連続テーブル数)を、良好なマッチング結果に対する肯定的なフィードバックとして使用します。私たちは、3 人のプレーヤーの特徴をモデル入力として取り入れ、ディープ ニューラル ネットワークをモデルとして構築します。 私たちが重視する主な運用指標は、ユーザー維持率です。このモデルが導入された後、従来のルールベースのマッチング戦略と比較して、7 日間のユーザー維持率が約 2.4% 増加しました。 取引戦略 マッチングに加えて、カードを配ることも重要です。 Landlord ゲームでは、配られたデッキがそのラウンドのプレイヤーのパフォーマンスとゲーム体験に直接影響します。カードが配られた後は、システムはゲームに干渉しなくなり、3 人のプレイヤーが自力でゲームを完了します。したがって、カードを配る戦略は、Landlord ゲームにおける意思決定の重要な部分です。従来の配布戦略では、通常、カードをランダムに配ったり、ルールに従ってデッキを生成したりします。カードがランダムに配られると、手札が非常に散らばったり、カードのバランスが非常に悪くなる可能性があります。これにより不公平が生じ、プレイヤーの体験に重大な影響が生じます。しかし、ルールに基づいたカード配布戦略は厳格であることが多く、カードの強さを効果的に調整することができません。さらに、上記のソリューションのいずれも、カードを配るためにプレーヤーのステータス情報を利用していません。そこで、データに基づいた取引戦略を開発しました。 私たちは、多数のデッキを含むデッキの作成から始めました。デッキを選択する基準はプレイヤーのフィードバックに基づいています。プレイヤーからのフィードバックはたくさんあります。たとえば、ゲーム終了後に複数のプレイヤーが「別のゲームをプレイ」をクリックした場合、それは肯定的なフィードバックとみなすことができます。誰も「もう一度再生」をクリックしない場合は、否定的なフィードバックとみなされます。デッキの「良さ」をラベル付けするためにさまざまなフィードバックを収集し、これらのサンプル データを使用してバイナリ分類モデルをトレーニングします。その後、ランダムまたはルールに従ってデッキを生成し、上記のモデルを使用して比較的良いデッキをフィルタリングしてデッキライブラリに入れます。もちろん、異なるセッションのプレイヤーは好みも異なるため、フィードバックも一貫性がありません。したがって、私たちはさまざまなゲームに応じてデッキを構築します。さらに、同じデッキ内でデッキを特性に応じてクラスタリングしており、これらのクラスタラベルはその後のデッキ選択にも使用できます。デッキモデルとデッキ自体も、データの蓄積に基づいて定期的に更新されます。 次に、強化学習に基づいたデッキ選択とカード位置の割り当ての方法を提案します。過去のゲーム情報や最近の勝敗情報から、プレイヤーの基本特性、行動特性、ステータス特性などを抽出します。同時に、ゲームから対応するカードグループの機能を抽出します。プレイヤーの特徴を状態、デッキの特徴をアクションと見なし、ゲームの報酬をプレイヤーがプレイを続けるかどうかとして定義することで、RL 学習フレームワークを確立します。最適なカード配布戦略を学習するために、Q 学習アルゴリズムを使用します。 オンラインカード配布段階では、3 人のプレーヤーの情報が抽出され、ユーザーの特徴が取得されます。さらに、異なるサブデータベースによって達成できる収益値を計算し、収益を最大化できるサブデータベースを選択します。次に、モデルに基づいて、サブライブラリから最適なデッキが選択されます。 戦略開始後、アクティビティ レベルが大幅に向上し、全体的な 7 日間の保持率は 3.6% 増加し、1 日あたりの平均ゲーム数は 11.7% 増加しました。さらに、さまざまなゲーム向けにカスタマイズされたモデルとカードライブラリも提供しており、現在、この戦略は「Love You Dou Dizhu」のすべてのゲームに拡張されています。トーナメントやライブ ストリーム専用のデッキも提供しています。 ゲームAIゲームの操作プロセス中には、カードプレイのプロンプトやオフラインでの代替など、ゲーム AI のサポートを必要とするシナリオが複数あります。ゲーム向けゲームAI技術のサポートは、主に「斗来湾麻雀」事業への実装と地主事業への推進に反映されています。 「闘来闘地珠」には、四川麻雀 - 血の川、四川麻雀 - 血みどろの決戦、大勢麻雀、二人麻雀など、6種類の麻雀遊び方が含まれています。ゲームのコールド スタート フェーズでは、プレーヤーの数が少ないため、エクスペリエンスを向上させるためにゲーム AI をマッチング プールに配置する必要があります。そのため、6種類以上の麻雀の打ち方に対応し、採点もできるAIが必要になります。しかし、一般的な麻雀AI研究は、学界ではまだ解決されていない非対称ゲームの問題です。 MSRAは、日本の麻雀において人間を超えるAIを開発しました[3]。しかし、そのアルゴリズムフレームワークは熟練ユーザーのトレーニングデータに大きく依存しており、日本の麻雀のルールに合わせてカスタマイズされています。これは、複数のゲームプレイや大規模な拡張をサポートするという当社のビジネスニーズには適していません。 当社は、深層強化学習に基づく革新的な研究を実施し、専門家レベルのデータ不足などの技術的困難を解決し、拡張性の高いアルゴリズムフレームワークを開発しました。複数のルールを持つ麻雀でAIを人間のトップレベルにまで到達させることに成功し、ビジネスニーズを満たすだけでなく、業界をリードする成果を達成しました。このフレームワークは、「Fight the Landlord」などの他のゲームにも拡張されます。 まず、高品質なデータの不足という問題に取り組みました。この方法は、まず単純なルールベースの AI を互いに対戦させてトレーニング データを生成し、このデータを教師あり学習に使用して初期化モデルを取得し、次にその初期化モデルを使用してゲームから強化学習を実行します。このメソッドを RuleBase Initialization (RBI) と呼びます。 RBI方式で得られるAIレベルは、ゼロからトレーニングされたAIよりもはるかに高く、このプロセスはさまざまな麻雀ルールに適用でき、強力なスケーラビリティを備え、AIグレーディングの要件を満たすことができます。 次に、初期のトレーニングの難しさや報酬の大きなばらつきといった問題に対処するために、滑らかな報酬を設計しました。トレーニングの初期段階では、AI レベルが比較的低く、ゲームの実際の報酬を直接使用するとランダム性が高すぎるため、勾配の方向が正しい方向から外れやすくなります。初心者を指導するのに適した報酬にするために、待機ハンドと勝利ハンドに対して人工的に設計された報酬をいくつか追加しました。トレーニング中は、人工的に設計された報酬の重みを徐々に減らし、報酬がゲームの実際の報酬にスムーズに戻るようにします。同時に、勾配が大きくなりすぎないように報酬クリッピング方式を採用します。 麻雀のルールは非常に多様であり、麻雀のルールが異なれば、プロセス、使用可能なアクションの範囲、得点方法などが異なります。さまざまなルールを持つ多数の麻雀 AI を効率的にサポートするには、アルゴリズム フレームワークが比較的汎用性が高く、スケーラブルである必要があります。スケーラビリティを向上させるために、従来の意思決定フローとはまったく異なる、まったく新しい構造を試しました。つまり、すべての可能なアクション (トランプを含む) がモデル出力の確率分布としてベクトルに配置され、1 つのモデルでトランプのすべての段階におけるすべての意思決定を処理できるようになります。この単一モデル AI に対して RBI 方式を使用して強化学習トレーニングを実行し、非常に良好な結果を達成しました。さらに、このアルゴリズムは非常にスケーラブルです。ゲームプレイごとに 1 つのモデルのみを再トレーニングする必要があり、コードの変更も非常に少なくなります。このフレームワークを使用して急速に拡張し、現在は血流、血戦、公開、二人、北押し、全国標準麻雀などのルールをサポートしています。 私たちは、Kuaishou の「Play Mahjong with Your Love」で複数のゲームプレイ モードを備えた AI を導入しており、最も高度な AI レベルは、高レベルのプレイヤーよりもはるかに強力です。その中で、弊社の国家標準麻雀AIは2020年のIJCAI国家標準麻雀大会に参加し、次の決勝戦で優勝しました。麻雀 AI の探求において、私たちは麻雀 AI の能力を蓄積しただけでなく、ゲーム AI トレーニング プラットフォームと方法論の完全なセットを磨き上げ、関連する経験を Landlord などのゲームに移植しました。 計画と展望AI 機能が拡大し続けるにつれて、ゲームのエンパワーメントは深まり、拡大し続けるでしょう。近い将来、AI 機能はゲーム業界のあらゆる側面にさらに深く関わり、ユーザー エクスペリエンスを最適化し、ゲームにおける AI 機能のより完璧なクローズド ループを形成できるようになると信じています。 |
<<: 人工知能技術はどのようにビジネスに統合されるのでしょうか?
>>: 人気は高まり続け、医療AIは業界の爆発的な成長の重要なポイントに達している
米国政府は最近、新たな AI 規制を発表し、AI のセキュリティ上の懸念に再び世界の注目が集まってい...
かつて、農業と言えば、人々はいつも「真昼に畑を耕し、汗を地面に垂らす」という苦労を思い浮かべていまし...
近年、3D自然シーンの生成に関する研究は盛んに行われていますが、3D都市の生成に関する研究はまだほと...
今朝早く、Cerebras Systems は世界初となる人間の脳規模の AI ソリューションのリリ...
CPU 開発における大きな問題は、ChatGPT とのチャットで解決できるでしょうか?ニューヨーク州...
家が施錠されていなければ、誰でも勝手に入ることができ、暗号化なしでデータを勝手に変更できてしまうと、...
編集者として、執筆という主な仕事に加えて、イラストレーションという非常に重要な問題を考慮する必要があ...
[[433430]] Facebook が名前を Meta に変更し、Metaverse への本格的...
[[347792]]今日のセキュリティとテクノロジーの分野における大きなトレンドの 1 つは、世界中...
人間のようになることが AI 開発の究極の目標のようです。しかし、周知のとおり、人間には知恵と愚かさ...
[[395149]]人工知能を学ぶことで何ができるのでしょうか?詳しくご紹介します。 1. 製造業ス...
MIT の研究者は、ディープ ニューラル ネットワーク アクセラレータの最適な設計を効率的に特定し、...
写真は思い出を保存するための最も便利なツールの一つです。テクノロジーのおかげで、ある意味カメラとも言...