StarCraft 2 のプレイヤーのうち、AI にまだ負けていないのはわずか 0.2% です。 これは、匿名でラダーに潜入した AlphaStar が提出した最新の成績表です。 同時に、DeepMind は、Nature で AlphaStar の現在の戦闘能力と技術の全容も公開しました。 AlphaStar は人間のプレイヤーの 99.8% を超え、プロトス、テラン、ザーグの 3 つの種族でグランドマスター レベルに到達しました。 論文では、特別なトレーニング姿勢も発見しました。 すべてのエージェントが勝利を目指しているわけではないDeepMind はブログ投稿で、Nature に掲載された AlphaStar には 4 つの主要なアップデートがあると述べました。 1つ目は制約です。AIの視点が人間と同じになり、移動頻度の制限も厳しくなりました。 第二に、テラン、プロトス、ザーグはすべて 1 対 1 の戦闘に参加でき、それぞれの種族には独自のニューラル ネットワークがあります。 3 番目に、リーグのトレーニングは完全に自動化されており、強化学習をすでに受けたエージェントではなく、教師あり学習エージェントから開始されます。 4 番目に、Battle.net の結果では、AlphaStar は人間のプレイヤーと同じマップを使用して 3 つのレースすべてでグランドマスター レベルに到達し、すべての試合を再プレイできます。 AIの学習プロセスに関しては、DeepMindは特別なトレーニング目標設定を重視しています。 すべてのインテリジェントエージェントが勝利の可能性を最大化しようとしているわけではありません。 なぜなら、自己プレイのプロセスにおいて、インテリジェントエージェントは特定の状況でのみ有効な特定の戦略に陥りやすく、複雑なゲーム環境に直面するとパフォーマンスが不安定になるからです。 そのため、チームは人間のプレイヤーのトレーニング方法を参考にしました。それは、他のプレイヤーとターゲットを絞ったトレーニングを行うことです。つまり、1 つのインテリジェント エージェントが独自の操作を通じて別のインテリジェント エージェントの欠陥を明らかにし、他のエージェントが特定の望ましいスキルを練習できるように支援します。 この結果、異なる目標を持つエージェントが生まれます。1 つ目は、勝つことを目標とするメイン エージェントです。2 つ目は、自分の勝率を向上させることに焦点を当てるのではなく、メイン エージェントの欠点を探り、エージェントが強くなるように支援する役割を担います。 DeepMind では 2 番目のタイプを「Exploiter」と呼んでいますが、私たちは単に「sparring partners」と呼んでいます。 AlphaStar が学習したさまざまな複雑な戦略はすべて、このプロセスを通じて獲得されました。 たとえば、青は勝利に責任を持つ主役であり、赤は主役の成長を助けるスパーリング パートナーです。小紅は大砲突撃スキルを発見し、小蘭はそれに抵抗できなかった。
その後、新しいメインプレイヤー (グリーン) は、レッドの大砲ラッシュをうまく防御する方法を学びました。
同時に、リトルグリーンは、経済的な優位性、ユニットの組み合わせと制御を通じて、以前のメインプレイヤーであるリトルブルーを倒すこともできます。
その後、別の新しいスパーリングパートナー(リトルブラウン)がやって来て、メインプレイヤーのリトルグリーンの新たな弱点を見つけ、隠しナイフでそれを打ち負かしました。
繰り返し繰り返し、AlphaStar はますます強力になります。 アルゴリズムの詳細についても、今回たっぷりとご紹介させていただきます。 AlphaStarテクノロジー、最も完全な開示現実の AI アプリケーションの多くは、複雑な環境における複数のインテリジェント エージェント間の競争と協調的な協力を伴います。 StarCraft などのリアルタイム戦略 (RTS) ゲームの研究は、この大きな問題を解決する過程における小さな目標です。 言い換えれば、StarCraft の課題は、実際にはマルチエージェント強化学習アルゴリズムの課題なのです。 AlphaStar は、元のゲーム インターフェイスからデータ (入力) を受け取り、ゲーム内のアクションを構成する一連の命令を出力するディープ ニューラル ネットワークを利用して、StarCraft のプレイ方法を学習しました。 AlphaStar は、概要マップとユニット リストを見てゲームを観察します。 アクションを実行する前に、エージェントは発行するアクションのタイプ (ビルドなど)、アクションの適用先、目標、次のアクションを発行するタイミングを出力します。 アクションは、アクション レートを制限する監視レイヤーを介してゲームに送信されます。 トレーニングは教師あり学習と強化学習を通じて行われます。 当初、トレーニングには教師あり学習が使用され、その素材はブリザードが公開した匿名の人間プレイヤーのライブゲームパフォーマンスから取得されました。 このデータにより、AlphaStar は StarCraft ラダー プレイヤーの操作を模倣して、ゲームのマクロ戦略とミクロ戦略を学習できます。 初期の知的存在は、ゲームに組み込まれたエリート AI によって倒すことができます。これは、人間のゴールド ランク (95%) に相当します。 そして、この初期のインテリジェントエージェントは強化学習の種となります。 その上に、連続リーグが作成されました。これは、人間がはしごの上で互いに競争するのと同じように、インテリジェント エージェントが互いに競争する、インテリジェント エージェント用のアリーナを準備することと同じです。 既存のエージェントから新しいブランチを作成することで、より多くのプレイヤーが競争に参加し続けることになります。新しいエージェントは、対戦相手との競争から学習します。 この新しい形式のトレーニングは、以前の集団ベースの強化学習のアイデアをさらに深め、巨大な戦略空間を継続的に探索できるプロセスを作成します。 この方法により、エージェントは戦略的に強力な相手に対して優れたパフォーマンスを発揮すると同時に、それほど強力ではない初期の相手に対処する方法も忘れずに実行できるようになります。 インテリジェント エージェント リーグが継続し、新しいインテリジェント エージェントが誕生するにつれて、初期のゲーム戦略に対処するための新しいカウンター戦略が登場します。 新しいエージェントによって実行される戦略の中には、以前の戦略をわずかに改良しただけのものもありますが、他のエージェントは、まったく新しい戦略、まったく異なる構築順序、まったく異なるユニットの組み合わせ、まったく異なるマイクロ管理方法を模索することができます。 さらに、リーグ内のエージェントの多様性を促進する必要があります。これにより、各エージェントは異なる学習目標を持つことになります。たとえば、エージェントがどの対戦相手を攻撃することを目標とすべきか、エージェントの好みに影響を与えるためにどの内部動機を使用すべきかなどです。 △連合訓練の堅牢性 さらに、インテリジェント エージェントの学習目標は変化する環境に適応します。 ニューラル ネットワークが各エージェントに与える重みも、強化学習プロセスとともに継続的に変化します。常に変化する重みは、学習目標の進化の基礎となります。 重み更新ルールは、Experience Replay、Self-Imitation Learning、Policy Distillation などのメカニズムを含む、新しいオフポリシー強化学習アルゴリズムです。 AIが星間を支配するまで15年かかった最も挑戦的なリアルタイム戦略 (RTS) ゲームの 1 つである StarCraft では、短期目標と長期目標を調整するだけでなく、予期しない状況に対処することも求められます。長い間、AI 研究の「試金石」となってきました。 不完全情報ゲームの状況に直面しているため、課題は非常に大きく、研究者は問題を克服するために多くの時間を費やす必要があります。 DeepMindはTwitterで、研究者らが15年間にわたって「スタークラフト」シリーズのゲームに取り組んできたおかげで、AlphaStarは現在の結果を達成できたと述べた。 しかし、DeepMind の研究が本当によく知られるようになったのは、ここ 2 年ほどのことである。 AlphaGoがイ・セドルを破ってから2年後の2017年、DeepMindはBlizzardと協力してPySC2と呼ばれるオープンソースツールセットをリリースし、それに基づいてエンジニアリングとアルゴリズムのブレークスルーを組み合わせて、StarCraftゲームの研究をさらに加速しました。 その後、多くの学者がスタークラフトについて多くの研究を行いました。たとえば、南京大学の Yu Yang のチーム、Tencent AI Lab、カリフォルニア大学バークレー校など。 今年 1 月までに、AlphaStar は AlphaGo の瞬間を迎えました。 プロの StarCraft 2 プレイヤーとの試合では、AlphaStar が合計スコア 10-1 でゲームを圧倒しました。人間のプロ プレイヤー LiquidMaNa は、わずか 5 分 36 秒で敗北しました。 オールラウンドプロプレイヤーのTLOは敗北後、「AlphaStarと対戦するのは難しい。人間と対戦するのとは違う。無力感を覚えた」と嘆いた。 半年後、AlphaStarは再び進化しました。 DeepMind は、APM (ハンドスピード) と視野を人間のプレイヤーと一致させながら、プロトス、テラン、ザーグを完全に制御し、多くのマップのロックを解除しました。 同時に、最新の開発が発表されました。AlphaStar はゲーム プラットフォーム Battle.net にログインし、匿名のラダー マッチングを実施します。 現在、最新の論文の発表により、AlphaStar の最新の戦闘能力も発表されました。AlphaStar はプレイヤーの 99.8% を破り、マスターの称号を獲得しました。 ディープマインドはブログ投稿で、この結果は、一般的な学習技術によってAIシステムを拡張し、複数の主体が関与する複雑で動的な環境で機能させることができるという強力な証拠を提供していると述べた。 StarCraft 2 がこのような素晴らしい結果を達成したことで、DeepMind はより複雑なタスクに注目し始めました。 CEOハサビス氏は次のように述べた。 StarCraft は 15 年間 AI 研究者にとって大きな挑戦でしたので、この研究が Nature に認められたことは非常に喜ばしいことです。 これらの素晴らしい結果は、科学的発見を加速できるインテリジェントなシステムを構築するという私たちの目標に向けた重要な一歩となります。 それで、DeepMind の次は何でしょうか? ハサビス氏はまた、StarCraft は「単に」非常に複雑なゲームだと何度も述べているが、同氏は AlphaStar の背後にある技術にもっと興味を持っている。 しかし、この技術は軍事利用に非常に適していると考える人もいます。 しかし、Google と DeepMind の姿勢から判断すると、この技術は科学的研究に重点を置くものとなるでしょう。 天気予報や気候モデリングなど、非常に長いシーケンスの予測が含まれます。 おそらく、最近この方向性に馴染みがあるでしょう。 Google は量子超越性を達成したばかりなので、最も有望な応用分野は気候変動などの大きな問題です。 量子コンピューティングにおける大きな進歩により、DeepMind AI はさらに一歩前進しました。 未来はもっと楽しみに待つ価値がある。どう思いますか? もう一つAlphaStar は素晴らしい記録を持っていますが、勝てない人もいます。 アルファスターが初めて梯子に入ったとき、人間の悪魔セラルは、それはただ人々を笑わせるためだけにあると言って、公然とそれを嘲笑しました。 しかし、彼らには強さがあり、AIに正面から立ち向かうことができる。 しかし、あえてこのように語る達人は世界に一人しかいません。 |
<<: ArmとHuaweiが参入し、自動運転チップの戦いでどちらが勝つかは分からない
最近、ガートナーはデータ サイエンスおよび機械学習 (DSML) プラットフォームに関するマジック ...
[[405121]] 【51CTO.com クイック翻訳】企業の AI プロジェクトの失敗率が 85...
導入人々は長い間、人工的に生成されたコンテンツを理解するためにアルゴリズムを手動でコーディングしよう...
天才は左にいて、狂人は右にいます。天才と狂気の間にはわずかな境界線しかありません。 AIに関しては、...
ニンジン畑問題を解決するための C# アルゴリズムは何ですか?まずトピックを見てみましょう:仕事へ向...
[51CTO.com より引用] 運用保守というと、多くの人が無意識のうちに運用保守担当者を「スケー...
人工知能は組織内で大きな変化をもたらしますが、変化とともに、AI が仕事を奪ってしまうのではないかと...
5月26日、チューリング賞受賞者で米国工学アカデミー会員のジョン・ヘネシー氏が、2021年中国国際ビ...
人工知能(AI)はあらゆる業界に浸透しています。構想から改修まで、AI は建築環境に影響を与えること...