キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

テンセントは12月30日、同社の人工知能チームが第1回Google Football Kaggleコンペティションで優勝したと発表した。優勝チームは、テンセントAIラボが開発したWeKickバージョンのJuewuから出場し、合計スコア1785.8で優勝し、世界トップクラスの技術チームとの競争で大差をつけて勝利した。

今年11月末、テンセントAIラボとHonor of Kingsが共同開発した戦略的コラボレーションAI「Juewu」が完成形にアップグレードされ、AIが初めてすべてのヒーローのすべてのスキルを習得できるようになりました。このバージョンの Juewu WeKick の全体的な設計は、Juewu の全身の移行に基づいており、サッカーのタスクにいくつかのターゲットを絞った調整が行われ、Juewu AI の背後にある深層強化学習法の一般的な機能を実証しています。

Kaggleコンペティション Google Footballトップ10ランキング、

https://www.kaggle.com/c/google-football/leaderboard より

2010 年に設立された Kaggle は、世界最大のデータサイエンスコミュニティおよびデータサイエンスコンペティションプラットフォームです。このサッカー AI コンテストは、Google Research とプレミアリーグのマンチェスターシティクラブが Kaggle プラットフォーム上で共同で開催しました。

サッカーチームの戦略は、その複雑さ、多様性、難易度の高さから、長い間世界トップクラスの AI 研究チームを悩ませてきた問題です。また、ゲームのインセンティブが希薄なため、MOBA ゲームよりも攻略が難しいターゲットとなっています。今年、Kaggleは初めてサッカーAI分野のコンペティションを発表し、深層強化学習マルチエージェント技術のコンペティションとベンチマーク評価の新たな舞台を提供しました。

このコンテストでは、オープンソースのサッカーゲーム「Gameplay Football」をベースに開発されたGoogle Research Football強化学習環境が使用され、11対11の競技システムを採用しています。参加チームはエージェントの1つを制御して、10の組み込みエージェントでチームを形成する必要があり、これは挑戦的で興味深いものです。このチャレンジが開始されると、世界トップクラスの大学や研究機関から 1,100 を超える科学研究チームが参加しました。

「11 個の強化学習エージェント間の協力と競争」

Google Football（Kaggle 上）は、AI 操作の FIFA ゲームのような人気のサッカーゲームをモデルにしており、エージェントがチームのサッカー選手の 1 人または全員を操作し、選手間でボールをパスする方法を学習し、相手のディフェンスを突破してゴールを決めようとします。ゲームのルールは、ボールを相手のゴールに蹴り込むという目標や、オフサイド、イエローカード、レッドカードのルールなど、通常のサッカーの試合と似ています。

一般的なサッカービデオゲームで均一に制御される NPC チームとは異なり、この Kaggle コンペティションでは、各プレーヤーは個別のエージェントによって制御され、参加 AI モデルはゲームの状況に応じてエージェントの 1 つを制御し、他の 10 個の組み込みエージェントと連携します。これには、各プレイヤーが対戦相手の行動を観察するだけでなく、自分のチームメイトの状況にも注意を払う必要があります。それをサポートするには、非常に複雑なチームワークと競争戦略が必要です。

[[361155]]

WeKick（イエロージャージ）vs SaltyFish（今大会2位）の最近の試合記録（シューティング）

たとえば、相手プレイヤーがボールをコントロールしている場合、こちら側のエージェントは、フィールド上の両サイドのプレイヤーの分布位置に基づいて、ボールをコントロールしているプレイヤーの次の動きを予測する必要があるだけでなく、こちら側の他のプレイヤーと連携して、合法的にボールをコントロールする方法を検討する必要があります。また、裁判所の動向は急速に変化するため、高速でリアルタイムの意思決定能力も必要です。

さらに、強化学習法を使用して完全なサッカー AI をゼロからトレーニングするのは、実際にはかなり困難です。経済、健康、経験などのリアルタイムの学習シグナルが常に存在する MOBA ゲームとは異なり、サッカーのゲームインセンティブは非常にまばらで、基本的にゴールにのみ依存します。まばらなインセンティブは、強化学習において常に大きな問題となってきました。

Juewu AIがチャンピオンになった経緯

ゲーム分野における深層強化学習の急速な発展のおかげで、Atari ゲームから囲碁、さまざまなビデオゲームに至るまで、AI エージェントは継続的な反復進化でますます強力になり、サッカーにおけるチーム戦略の難しさも克服されました。

WeKick バージョンの JueWu では、まず強化学習とセルフプレイを使用してモデルをゼロからトレーニングし、非同期分散強化学習フレームワークを導入しました。この非同期アーキテクチャでは、トレーニングフェーズ中のリアルタイムパフォーマンスが多少犠牲になりますが、柔軟性が大幅に向上し、トレーニング中のコンピューティングリソースのオンデマンド調整もサポートされるため、11 エージェントのフットボールゲームトレーニング環境に適応できます。

MOBA ゲームとフットボールゲームのタスク目標の違いにより、Juewu の WeKick バージョンでは、生成的敵対的シミュレーション学習 (GAIL) と手動で設計された報酬を組み合わせ、機能と報酬の設計を拡張および革新します。このスキームは、生成的敵対的トレーニングメカニズムを使用して、専門家の行動の状態とアクションの分布を適合させ、Juewu WeKick バージョンが他のチームから学習できるようにします。次に、GAIL によってトレーニングされたモデルは、戦略の堅牢性をさらに向上させるためのさらなる自己ゲームトレーニングの固定された対戦相手として使用されます。

GAIL の利点 (WeKick の報酬設計は、報酬シェーピングと GAIL の両方を組み合わせたものです)

しかし、自己ゲーム強化学習によって得られたこのモデルには、単一のスタイルに収束しやすいという自然な欠点があります。実際の競技では、単一スタイルのモデルは、特定のプレースタイルを見たことがないために異常なパフォーマンスを発揮しやすく、最終的には悪い結果につながります。そのため、戦略の多様性と堅牢性を向上させるために、JueWu はマルチエージェント学習タスクにリーグ (複数の戦略プール) マルチスタイル強化学習トレーニングスキームも採用しました。

このリーグのマルチスタイル強化学習トレーニングプログラムの主なプロセスは、まず専門化、次に統合と簡単に要約できます。

まず、ドリブル、パス、シュートなど、ある程度の競技能力を持つ基本モデルをトレーニングします。次に、基本モデルに基づいて複数の様式化モデルをトレーニングします。各モデルは、プレースタイルに焦点を当てています。様式化モデルのトレーニングプロセスでは、スタイルへの過度の固執と基本能力の喪失を避けるために、メインモデルが定期的に対戦相手として追加されます。最後に、複数の基本モデルに基づいてメインモデルをトレーニングします。メインモデルは、独自の過去のモデルに加えて、すべての様式化された対戦相手の最新モデルも対戦相手として定期的に追加し、メインモデルがまったく異なるスタイルの対戦相手に適応できるようにします。

内部能力スコアリングシステムによると、対戦相手のプールでトレーニングした後のメインモデルは、基本モデルに基づいて 200 ポイント向上でき、これは最強の様式化されたプレイよりも 80 ポイント高くなります。

最終的に、JueWu の完全な形式に基づくアーキテクチャの移行、カスタマイズされたフレームワークの改善、主要な生成的敵対的模倣学習 (GAIL) ソリューションと League (複数の戦略プール) マルチスタイル強化学習トレーニングソリューションを組み合わせることで、JueWu は他の競合 AI チームに対して優位に立つことができ、最終的にチャンピオンシップへの道を切り開きました。

WeKick (イエロージャージ) vs SaltyFish (この大会2位) 最近の試合記録 (パス)

Juewu WeKickバージョンの勝利は、Juewuが完全にアップグレードされた後、その背後にある深層強化学習ソリューションが複雑なサッカー競技シナリオに適応できるAIモデルをトレーニングしたことを意味し、Tencent AI Labの最先端AI技術の研究開発能力を実証し、Tencent Juewu AIの基礎となるアーキテクチャと方法の汎用性を検証しました。

Juewuチームの研究方向は、サッカーの試合における単一のインテリジェントエージェントの制御から、11のインテリジェントエージェントの同時制御と協調動作へと深化していることがわかっています。完全に独立したサッカーエージェントの数が11に達すると、強化学習の難しさはエージェント数の増加とともに指数関数的に爆発します。同時に、サッカーエージェント間のギャップは大きくありません。どのように自動的に役割分担を形成し、異なる役割間でインセンティブを分配するかは、マルチエージェント強化にとって常に難しい問題でした。前回の5v5（マルチエージェント）Google Research Football Leagueでも、Tencent Juewuチームが優勝し、Juewu AIの大きな可能性を示しました。

囲碁AI JueyiからMOBAゲームのAI Juewu、そして現在のAIサッカーチームWeKickまで、Tencent AI Labの深層強化学習エージェントは一歩一歩進化し、徐々により複雑で多様な問題に移行しています。Tencentも汎用人工知能の最終目標に向かって着実に前進しています。長期的には、Juewu の背後にある研究開発の経験とアルゴリズムの蓄積は、将来、農業、医療、スマートシティなどの幅広い分野と AI を組み合わせることで大きな可能性を示し、より大きな実用的価値を生み出すでしょう。

<<: 年末レビュー | 霧の中で花を見ることから実現することまで、人工知能は3つの主要な分野を「本当に香り高い」ものにしました

>>: AIユニコーンがIPOに群がり、資本市場を刺激。シナリオアプリケーションは複数の場所で爆発的に増加する可能性がある