この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 キングス峡谷では、状況が突然変化します。 激しい戦いが繰り広げられています。左サイドは人間のプロeスポーツマスター5名で構成された地域チーム、そして反対側には…あれ?対戦相手は現れなかったのですか?空席が5つ? いいえ。彼らの対戦相手は全員そこにいます。 これは昨夜のクアラルンプールでの出来事だ。Honor of Kingsの最高レベルのeスポーツイベントであるワールドチャンピオンシップカップの準決勝が進行中だった。イベント中に、5人のプロのeスポーツ選手で構成された地域チームが、テンセントのHonor of Kings AI Juewuと対戦する特別試合が行われた。 最終の5対5のバトルでは、人間とは大きく異なる思考を持つAIチームが、16分15秒かけてプロのeスポーツチームを全滅させ、9つのタワーとハイランドクリスタルをすべて破壊した。 これは、テンセントのAI Juewuの能力がHonor of Kings eスポーツのプロレベルにまで向上したことを意味します。 もちろん、プロではないプレイヤーにとってはさらに簡単です。 同日、上海のChinaJoyで、Juewuはトップアマチュアプレイヤーを対象に4日間の1対1の体験テストを開始しました。初日の504回のテストで、Juewuのテスト勝率は99.8%で、負けは1回のみでした(対戦相手はHonor of Kingsの全国サーバーで1位のプレイヤーであるHou Yiでした)。 初めてプロのeスポーツチームに勝利この大会では、5人のプロのeスポーツ選手が地域チームを結成しました。彼らが選んだラインナップは、曹操(ESTARPRO.XIXI)、ナコルル(EMC.SUN)、武則天(NOVA.SEEK)、狄仁傑(KZ.NIGHT)、張飛(M8HEXA.MIKE)です。 テンセントAI悟空が選んだラインナップは、達磨(AI_001)、アテナ(AI_011)、王昭君(AI_100)、于忌(AI_000)、牛墨(AI_010)です。 ゲームが始まり、人間チームのクリスタルは左下隅にあります。 ゲーム開始時、Jue Wuは伝統的なヒューマンレーン戦略を選択せず、まずトップレーンを解放し、2人のCヒーロー、Yu JiとWang Zhaojunが協力してミドルレーンの第一波の兵士を排除し、敵のミッドとサポートを抑制しました。その後、曹操の血統を抑えるためにトップレーンに移動しました。 この配布には経済的な偏りはありません。 2人で乗ることで経済的利益が最大化され、1人あたり80%の利益を得ることができます。現場の解説者は、AIは中央レーンを奪取する権利をしっかりと理解していたと語っていた。 試合開始から2分後、Juewuがリードしてディビジョンチームのトップレーンタワーを押し倒し、経済的優位性を5.1k:4.3kに拡大しました。試合開始から2分半後、地域チームの曹操が喬宇愛于記を倒して先制点を獲得し、両者の経済レベルは6.4kで同点となった。 4分24秒に、Juewuのメンバー4人がNakoluを追いかけ、DharmaがNakoluをAI同士の戦いに追い込みました。最終的に、DharmaがAIを最初に倒しました。 この間、Juewu の Athena が単独でチームを率いており、他の 4 つの AI は一緒にいました。 7分20秒、アテナはブルーバフの反撃に成功しました。この時、Juewuは3つのタワーを破壊し、4キル、20.9kの経済を獲得し、ディビジョンチームは2つのタワーを破壊し、3キル、19.7kの経済を獲得しました。 現場の解説者は、Juewu が効率性とチームワークの面で優れたパフォーマンスを発揮したと評価した。 「4-1の逆転という点では、ほぼ完璧だった」 その後、両者は激しい対立の時代に入った。 8分48秒、Jue Wuはチームバトルで0対2を交換し、メンバー全員の体力が低下したとき、部門の同盟で体力が十分だったCao Caoを追跡するために率先しました。しかし、Juewu は 1 対 1 の交換で、最も体力の少ない Dharma も失いました。そして、Jue Wu は状況を利用して優位に立つようになりました。その後、地域チームの復活した選手たちが駆けつけ、Juewuチームを全滅させ、中央レーンの2番目のタワーを倒してブルーバフへの反撃に成功した。 現場の解説者は、AI の戦略は「家に帰らず、弾薬と食料がなくなるまで戦う」ことだと指摘した。この方法により、前線を先導することがより効率的になる。 9分48秒時点で、Juewuは5つのタワーを破壊し、8キル、28.2kの経済を獲得し、ディビジョンチームは4つのタワーを破壊し、8キル、28.9kの経済を獲得しました。 さらに1分後、Jue Wuは4連続キルを達成した。これには、地域チームのCao Caoがトップレーンで体力の低いAI Yu Jiに倒された10分25秒の瞬間も含まれていました。 1対1の状況で優れたリアルタイム戦略能力を発揮しました。 さらに1分後、Jue Wuは分割チームの中路高地タワーを押し倒しました。しかし、地方チームの曹操が回って反撃を開始し、咸武の部下4人を殺害しました。AIチームから逃げることができたのはアテナだけでした。 しかし、地域チームはタワーの攻勢を続けることができず、この時点でオーバーロードを倒すことはできなかった。 14分目に、Jue Wu が Overlord を殺しました。この時点で、Juewu は 7 つのタワーを破壊し、13 キルと 45.1k の経済を獲得し、ディビジョン チームは 6 つのタワーを破壊し、12 キルと 43.3k の経済を獲得しました。それから、傅傅は各方面から軍隊を次々と排除し始めた。 15分20秒、Juewuの4人のプレイヤーがトップレーンに集まり、Overlord Vanguardのサポートを受けて、高地タワーを強行突破した。両者の間で激しいチーム戦が勃発し、AI王昭君と牛墨の究極のスキルのサポートにより、Jue Wuは最終的に1対5の交換を達成し、部門のチームは全滅しました。 しかし、相手が全滅し、オーバーロードヴァンガード2体が高台に上がると、ジュエウーはクリスタルを直接押すことを選ばず、波状作戦を披露しました... 覚武の4人のメンバーは兵士の支援なしで交代で塔を守り、まだ体力が3分の2残っていた最後の高地の塔を倒した。その場にいた解説者は「これはすごい」と叫んだ。 16分15秒、Jue Wuがクリスタルを押し倒し、ディビジョンチームを破りました。 最終的に、Juewu は 9 つのタワー、18 キル、56.2k の経済を獲得し、ゾーン チームは 6 つのタワー、13 キル、48.0k の経済を獲得しました。 双方の装備とデータは以下のとおりです。 Q&Aチームこの歴史的な対決の後、Quantum位とJuewuチームはさらに交流を深めました。 Quantum Bit:今回のJuewuの対戦相手の状況はどうですか? テンセント ジュエウ: 5v5バトルは、最高レベルのeスポーツイベントであるワールドチャンピオンシップカップの準決勝の特別セグメントです。中国本土、香港、中国、韓国、マレーシアのプレイヤーで構成された地域チームです。ワールドカップの特別セッションでのレベルテストは、5v5バージョンがプロレベルに到達した初めての機会でした。 1v1バージョンの開発難易度は5v5バージョンよりも大幅に低くなります。 ChinaJoyでテストされたバージョンは1対1バージョンでした。これはトップアマチュアプレイヤーを対象とした初の公開テストであり、全体的なAIの強さは非常に強力でした。 Quantum Bit: Juewu は現在何人のヒーローをマスターしていますか? BPは自分で完了しましたか? Tencent Juewu: 5v5 バージョンには 10 人の固定ヒーローがいて、プロのプレイヤーは自由に装備できます。今後もヒーロープールの規模を拡大し続けたいと考えています。 Quantum Bit: Juewu の操作ハンドの速度はどの程度に制限されていますか? Tencent Juewu:ゲーム自体に通常攻撃とスキルの両方の攻撃速度制限があるため、人間の最大手速度に近い値に設定されており、全体的に比較的公平なテストとなっています。 Quantum Bit: 今回、Juewu はどれくらいトレーニングしましたか?どのようなコンピューティングリソースが投資されましたか? Tencent Juewu:トレーニングには 384 個の GPU と 85,000 コアの CPU が使用されています。1 日あたりの平均セルフプレイゲーム数は、人間のトレーニング 440 年に相当します。トレーニング サイクルは半月以上続きます。 Quantum Bit: 競技中に Juewu はどのようなネットワークとコンピューティング リソースのサポートを必要としますか? Tencent Juewu:ネットワークデコードにはそれほど多くのリソースは必要なく、通常のサーバーで十分です。 1対1バージョンはすでに携帯電話で利用可能で、現在ChinaJoyのトッププレイヤーによってテストされています。 Quantum Bit: Juewu の弱点は何ですか?プレイヤーによってまだ解決されていない問題はありますか? Tencent Juewu:弱点とは呼べないけれども、非常に興味深い動作がいくつかあります。 たとえば、このテストでは、報酬を最大化するために最後にクリスタルを押さないのですか?競技の終わりに、人間チームが全滅した後、Jue Wuは直接クリスタルを押さず、全体的な利益を計算した後、最初に最後の高地タワーを押し、その後勝利するまでクリスタルを押すことを選択しました。これは人間が一般的に行わないことですが、経済的利益を最大化するという AI の価値観と一致しています。 Quantum Bit: 人間の対戦相手、特にプロのプレイヤーは、Juewu をどのように評価しますか? 騰訊捷宇:初期の戦略では、複数のAIが非常に早い段階でグループを形成し、体力の優位性と引き換えに部隊の戦列を犠牲にすることさえいとわなかった。中期的には、超強力な部隊戦列作戦戦略を採用し、長期戦略では、常にゲーム内で主導権を維持することだった。チーム戦でのターゲット選択と制御接続も完璧で、強力なチーム協力能力を反映していた。 QuantumBit: チームを紹介してください。 Tencent Juewu:長年にわたりゲーム AI とマルチエージェントの研究に取り組んできたチームです。メンバーの一部は Go AI Jueyi チーム出身です。 Juewu の研究開発は、アルゴリズムとコンピューティング パワーの高度に統合された組み合わせであり、高度に最適化されたコンピューティング パワー プラットフォームと継続的に改善される最適化アルゴリズムが必要です。チームは、AI ラボの科学研究とエンジニアリングの人材リソースを組み合わせるだけでなく、当社が拠点を置く Tencent Technology and Engineering Group (TEG) のインフラストラクチャ プラットフォーム部門の人材も組み合わせています。主な作業には、モデル、機能、計算能力、データ、マシン仮想化の最適化、データ処理、並列コンピューティング、機械学習トレーニング用のプラットフォームの構築と最適化が含まれます。 Tencent AI Lab は、常にこの種のインテリジェントエージェント研究の先駆者です。 2016年からは囲碁AI Fine Artの開発が進められ、現在は中国国家囲碁チームのトレーニング専用AIとして活用されています。2017年にはJueWuの開発が開始され、2018年にはアマチュアトップレベルに到達しました。テンセントはAIシューティングのトップ大会VizDoomでも優勝し、「StarCraft 2」の内蔵AIに勝利したインテリジェントエージェントを初めて開発しました。 Quantum Bit: 普通の人はどうやってJue Wuと戦うことができるのでしょうか? Tencent Juewu:現在、Juewu は実験段階にあり、ゲームでは利用できません。 1v1バージョンは、特定の機会に非常に短期間テストされます。たとえば、8月2日から上海で開催されるChinaJoy International Digital Interactive Entertainment Expoでは、1v1バージョンがトップアマチュアプレイヤーに公開され、4日間の体験テストが行われます。 悟りへの道 Juewu は、Tencent AI Lab と Honor of Kings: 戦略的コラボレーション AI が共同で取り組んでいる最先端の研究プロジェクトです。 Juewu という名前は「優れた理解力」を意味します。このAIの開発は2017年12月に始まりました。 2018年12月、Juewuは「Honor of Kings」のキングランクで人間のプレイヤーと5対5で対戦し、250試合を戦い、勝率48%を達成しました。現在、Jue Wu は王位を超え、プロの e スポーツ選手のレベルに達しています。 今回クアラルンプールと上海で実演されたJuewuバージョンは、「観察-行動-報酬」に基づく深層強化学習モデルを確立。人間のデータを必要とせず、白紙の学習(タブラ・ラサ)から開始し、AIが自分自身と対戦できるようにした。 AIの1日のトレーニング強度は、人間の440年分のトレーニング強度と同等です。 テンセントによれば、AIは0から1までの成功体験を学習し、熱心に勉強し、熱心に練習し、位置取り、野外での戦い方、支援と防御、ダメージの回避方法などの一般的なゲーム知識を学習したという。さらに、AI は従来の人間の慣行とは異なる新しい戦略を模索してきました。上記のライブバトルでは、すでにJuewuの違いを感じることができます。 また、Juewu の研究開発チームは、トレーニングの効率を向上させるための One Model を作成し、コミュニケーションの効率を最適化して AI のチームコラボレーション機能を強化し、ゼロサムの報酬と罰のメカニズムを使用して AI がチームの利益を最大化できるようにし、AI が果断にプレーして見返りを得られるようしました。 ゲームでのテストの難しさは、不完全な情報と非常に複雑な状況下で、AI が複雑かつ迅速な意思決定を行う必要があることです。 不完全な情報しかない巨大なマップ上で、10人の参加者は戦略立案、ヒーローの選択、スキルの適用、経路探索、チームコラボレーションなど、途切れることなくリアルタイムに大量の選択に直面し、極めて複雑な状況に陥ります。宇宙全体の原子の総数はわずか1080個であるのに対し、可能な操作は最大102万通りあると推定されています。 AI がこのような複雑な環境において、人間のようにリアルタイムで認識、分析、理解、推論、意思決定、行動を学習できれば、変化しやすく複雑な現実の環境においてより大きな役割を果たすことができるかもしれません。 テンセント副社長の姚星氏は、短期的には「eスポーツ」が戦略的協働AI「覚悟」の主な応用シーンになるだろうと語った。長期的な応用という点では、Juewu は Tencent が汎用人工知能 (AGI) を征服するための重要なステップとなるでしょう。 以前、テンセントの別の AI である Jueyi は、囲碁の分野では破壊的な力を持っていました。もちろん、人工知能にとって、Honor of Kingsは囲碁よりもはるかに複雑な問題です。 Juewuの背後にあるテクノロジーこの究極の洞察に関して、テンセントAIラボは論文やその他の形式を通じて技術的な詳細をさらに共有し、オープンな研究を通じてより多くの研究者を支援し、刺激を与えていくと述べた。 ここでは、Tencent が以前に発表した Honor of Kings に関する論文をレビューします。この論文の中で、テンセントは、Juewu は学習ベースの階層型マクロ戦略モデルであると述べています。このモデルの影響を受けて、各ヒーローを制御するインテリジェントエージェントは、チームメイトとのコミュニケーションを忘れずに独立した決定を下すことができ、トッププレイヤーになります。 名前の「レイヤー」は、このモデルがアテンション レイヤーとフェーズ レイヤーに分かれていることを表しています。前者はヒーローがどこに行くべきかを予測するために使用され、後者はゲームが初期段階、レーン段階、後期段階のどの段階にあるかを識別する役割を果たします。 まず、AI がヒーローがどこに行くべきかを決定する注意層を見てみましょう。 この能力を開発するには、まず適切なトレーニングデータが必要です。Honor of Kingsでは、英雄が「ここまで到達した」かどうかを判断する場合、「ここで戦う」ことが最も適切な基準となります。 そのため、テンセントはトレーニングデータを注釈付けする際に、次の攻撃が発生する場所を、ヒーローが今向かうべき場所として決定しました。 たとえば、上の図は韓信を例にとり、ゲーム開始時に主人公がどこへ行くべきかを示しています。左側は、ゲームの初期段階 s-1 の状態を示しています。中央と右側の赤いボックスでマークされた y sと y s+1 は、韓信が最初と 2 番目の攻撃を行う位置、つまり s-1 と s ステージで韓信が行くべき位置を示しています。 AIの目標は、s-1ステージで位置yに移動する準備と、sステージで位置y s+1に移動する準備を学習することです。 このようなデータを使用して注意層をトレーニングすることで、AI はヒーローの動きの秘密を習得できます。 どこへ行くべきかを知るだけでは十分ではありません。王になりたいなら、状況を判断し、戦略を調整できなければなりません。これは期間レイヤーの仕事です。 もちろん、ゲームが初期段階、レーン段階、または後期段階に達しているかどうかを知るには時間だけでは十分ではありません。幸いなことに、ゲーム内の主なリソースのステータスはステージと切り離せません。例えば、主人公がまだ外側の塔を押して暴君(小さなドラゴン)を攻撃することを目指している場合、ゲームはまだ始まったばかりであり、敵の本拠地に到達している場合は、もちろん後期段階にあります。 したがって、AI に状況を判断するように教えることは、タワー、暴君、オーバーロード (ドラゴン)、クリスタル (基地) などの敵の主なリソースへの攻撃に基づいて行われます。 上の図は、期間レイヤーが注目する敵の主なリソースを示しています。モデルがそこから学習する必要があるのは、リソースの状態に基づいて、どの主なリソースを現在攻撃すべきかを判断し、さらにどの小さな目標を達成すべきかを判断することです。 たとえば、青いバフ(野生のモンスター)を盗んだり、下の図に示すようにボトムレーンの兵士を一掃したりすることは、すべて最初のタワーを押し進めるこの期間中の小さな目標です。 状況を分析し、目標を決定し、どこへ行くべきかを知ることができれば、残りはチームメイト間のコミュニケーションと協力の問題です。 しかし、コミュニケーションの方法を学びたい場合、トレーニングに使用できる人間の戦闘データは実際には存在しません。結局のところ、人間のチームメイト間のコミュニケーションは恨みに満ちています。 そのため、テンセントは、チームメイトの注意タグを使用して AI をトレーニングし、チームメイトがどこに行くかを予測し、それに応じて決定を下すことを学習できる、新しいエージェント間通信メカニズムを設計しました。 このようにして、チーム内の 5 つのインテリジェント エージェントが連携することができ、これは一種の「コミュニケーション」メカニズムと見なすことができます。テンセントはこれを「模倣されたクロスエージェント通信」と呼んでいます。 |
<<: AI が「想像」による入力を支援: 携帯電話やコンピューターのソフトキーボードもブラインド入力が可能で、精度は 95% です。
iPhone Xのレビュー解禁に伴い、海外の主要主流メディアやテクノロジーブログが関連するテストや体...
現在、メタバースの分野は、誇大宣伝と新規プロジェクトの立ち上げ数の点で急速に成長しており、業界の市場...
マーケティング担当者は、ブランド認知度を高め、顧客にとって適切なターゲット ユーザーを見つけるために...
[[411034]] AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に...
[[320404]]デジタル化は金融サービスからヘルスケアまでほぼすべての業界に混乱をもたらしてお...
ロボットは私たちの都市生活を変えています。この記事では、交通、物流、検知、食品、安全の 5 つの側面...
[[237676]]画像ソース @Visual China以前、「AI従業員の最初の一団が解雇された...
機械学習と人工知能は、データセンターの問題に対する万能薬として宣伝されてきました。その多くは誇大宣伝...