人間の敵の99.8%を圧倒する星間AIがネイチャー誌に登場、その技術が初めて完全公開された

StarCraft 2 のプレイヤーのうち、AI にまだ負けていないのはわずか 0.2% です。

これは、匿名でラダーに潜入した AlphaStar が提出した最新の成績表です。

同時に、DeepMind は、Nature で AlphaStar の現在の戦闘能力と技術の全容も公開しました。

AlphaStar は人間のプレイヤーの 99.8% を超え、プロトス、テラン、ザーグの 3 つの種族でグランドマスターレベルに到達しました。

論文では、特別なトレーニング姿勢も発見しました。

すべてのエージェントが勝利を目指しているわけではない

DeepMind はブログ投稿で、Nature に掲載された AlphaStar には 4 つの主要なアップデートがあると述べました。

1つ目は制約です。AIの視点が人間と同じになり、移動頻度の制限も厳しくなりました。

第二に、テラン、プロトス、ザーグはすべて 1 対 1 の戦闘に参加でき、それぞれの種族には独自のニューラルネットワークがあります。

3 番目に、リーグのトレーニングは完全に自動化されており、強化学習をすでに受けたエージェントではなく、教師あり学習エージェントから開始されます。

4 番目に、Battle.net の結果では、AlphaStar は人間のプレイヤーと同じマップを使用して 3 つのレースすべてでグランドマスターレベルに到達し、すべての試合を再プレイできます。

AIの学習プロセスに関しては、DeepMindは特別なトレーニング目標設定を重視しています。

すべてのインテリジェントエージェントが勝利の可能性を最大化しようとしているわけではありません。

なぜなら、自己プレイのプロセスにおいて、インテリジェントエージェントは特定の状況でのみ有効な特定の戦略に陥りやすく、複雑なゲーム環境に直面するとパフォーマンスが不安定になるからです。

そのため、チームは人間のプレイヤーのトレーニング方法を参考にしました。それは、他のプレイヤーとターゲットを絞ったトレーニングを行うことです。つまり、1 つのインテリジェントエージェントが独自の操作を通じて別のインテリジェントエージェントの欠陥を明らかにし、他のエージェントが特定の望ましいスキルを練習できるように支援します。

この結果、異なる目標を持つエージェントが生まれます。1 つ目は、勝つことを目標とするメインエージェントです。2 つ目は、自分の勝率を向上させることに焦点を当てるのではなく、メインエージェントの欠点を探り、エージェントが強くなるように支援する役割を担います。 DeepMind では 2 番目のタイプを「Exploiter」と呼んでいますが、私たちは単に「sparring partners」と呼んでいます。

AlphaStar が学習したさまざまな複雑な戦略はすべて、このプロセスを通じて獲得されました。

たとえば、青は勝利に責任を持つ主役であり、赤は主役の成長を助けるスパーリングパートナーです。小紅は大砲突撃スキルを発見し、小蘭はそれに抵抗できなかった。

[[280921]]

その後、新しいメインプレイヤー (グリーン) は、レッドの大砲ラッシュをうまく防御する方法を学びました。

[[280922]]

同時に、リトルグリーンは、経済的な優位性、ユニットの組み合わせと制御を通じて、以前のメインプレイヤーであるリトルブルーを倒すこともできます。

[[280923]]

その後、別の新しいスパーリングパートナー（リトルブラウン）がやって来て、メインプレイヤーのリトルグリーンの新たな弱点を見つけ、隠しナイフでそれを打ち負かしました。

[[280924]]

繰り返し繰り返し、AlphaStar はますます強力になります。

アルゴリズムの詳細についても、今回たっぷりとご紹介させていただきます。

AlphaStarテクノロジー、最も完全な開示

現実の AI アプリケーションの多くは、複雑な環境における複数のインテリジェントエージェント間の競争と協調的な協力を伴います。

StarCraft などのリアルタイム戦略 (RTS) ゲームの研究は、この大きな問題を解決する過程における小さな目標です。

言い換えれば、StarCraft の課題は、実際にはマルチエージェント強化学習アルゴリズムの課題なのです。

AlphaStar は、元のゲームインターフェイスからデータ (入力) を受け取り、ゲーム内のアクションを構成する一連の命令を出力するディープニューラルネットワークを利用して、StarCraft のプレイ方法を学習しました。

AlphaStar は、概要マップとユニットリストを見てゲームを観察します。

アクションを実行する前に、エージェントは発行するアクションのタイプ (ビルドなど)、アクションの適用先、目標、次のアクションを発行するタイミングを出力します。

アクションは、アクションレートを制限する監視レイヤーを介してゲームに送信されます。

トレーニングは教師あり学習と強化学習を通じて行われます。

当初、トレーニングには教師あり学習が使用され、その素材はブリザードが公開した匿名の人間プレイヤーのライブゲームパフォーマンスから取得されました。

このデータにより、AlphaStar は StarCraft ラダープレイヤーの操作を模倣して、ゲームのマクロ戦略とミクロ戦略を学習できます。

初期の知的存在は、ゲームに組み込まれたエリート AI によって倒すことができます。これは、人間のゴールドランク (95%) に相当します。

そして、この初期のインテリジェントエージェントは強化学習の種となります。

その上に、連続リーグが作成されました。これは、人間がはしごの上で互いに競争するのと同じように、インテリジェントエージェントが互いに競争する、インテリジェントエージェント用のアリーナを準備することと同じです。

既存のエージェントから新しいブランチを作成することで、より多くのプレイヤーが競争に参加し続けることになります。新しいエージェントは、対戦相手との競争から学習します。

この新しい形式のトレーニングは、以前の集団ベースの強化学習のアイデアをさらに深め、巨大な戦略空間を継続的に探索できるプロセスを作成します。

この方法により、エージェントは戦略的に強力な相手に対して優れたパフォーマンスを発揮すると同時に、それほど強力ではない初期の相手に対処する方法も忘れずに実行できるようになります。

インテリジェントエージェントリーグが継続し、新しいインテリジェントエージェントが誕生するにつれて、初期のゲーム戦略に対処するための新しいカウンター戦略が登場します。

新しいエージェントによって実行される戦略の中には、以前の戦略をわずかに改良しただけのものもありますが、他のエージェントは、まったく新しい戦略、まったく異なる構築順序、まったく異なるユニットの組み合わせ、まったく異なるマイクロ管理方法を模索することができます。

さらに、リーグ内のエージェントの多様性を促進する必要があります。これにより、各エージェントは異なる学習目標を持つことになります。たとえば、エージェントがどの対戦相手を攻撃することを目標とすべきか、エージェントの好みに影響を与えるためにどの内部動機を使用すべきかなどです。

△連合訓練の堅牢性

さらに、インテリジェントエージェントの学習目標は変化する環境に適応します。

ニューラルネットワークが各エージェントに与える重みも、強化学習プロセスとともに継続的に変化します。常に変化する重みは、学習目標の進化の基礎となります。

重み更新ルールは、Experience Replay、Self-Imitation Learning、Policy Distillation などのメカニズムを含む、新しいオフポリシー強化学習アルゴリズムです。

AIが星間を支配するまで15年かかった

最も挑戦的なリアルタイム戦略 (RTS) ゲームの 1 つである StarCraft では、短期目標と長期目標を調整するだけでなく、予期しない状況に対処することも求められます。長い間、AI 研究の「試金石」となってきました。

不完全情報ゲームの状況に直面しているため、課題は非常に大きく、研究者は問題を克服するために多くの時間を費やす必要があります。

DeepMindはTwitterで、研究者らが15年間にわたって「スタークラフト」シリーズのゲームに取り組んできたおかげで、AlphaStarは現在の結果を達成できたと述べた。

しかし、DeepMind の研究が本当によく知られるようになったのは、ここ 2 年ほどのことである。

AlphaGoがイ・セドルを破ってから2年後の2017年、DeepMindはBlizzardと協力してPySC2と呼ばれるオープンソースツールセットをリリースし、それに基づいてエンジニアリングとアルゴリズムのブレークスルーを組み合わせて、StarCraftゲームの研究をさらに加速しました。

その後、多くの学者がスタークラフトについて多くの研究を行いました。たとえば、南京大学の Yu Yang のチーム、Tencent AI Lab、カリフォルニア大学バークレー校など。

今年 1 月までに、AlphaStar は AlphaGo の瞬間を迎えました。

プロの StarCraft 2 プレイヤーとの試合では、AlphaStar が合計スコア 10-1 でゲームを圧倒しました。人間のプロプレイヤー LiquidMaNa は、わずか 5 分 36 秒で敗北しました。

オールラウンドプロプレイヤーのTLOは敗北後、「AlphaStarと対戦するのは難しい。人間と対戦するのとは違う。無力感を覚えた」と嘆いた。

半年後、AlphaStarは再び進化しました。

DeepMind は、APM (ハンドスピード) と視野を人間のプレイヤーと一致させながら、プロトス、テラン、ザーグを完全に制御し、多くのマップのロックを解除しました。

同時に、最新の開発が発表されました。AlphaStar はゲームプラットフォーム Battle.net にログインし、匿名のラダーマッチングを実施します。

現在、最新の論文の発表により、AlphaStar の最新の戦闘能力も発表されました。AlphaStar はプレイヤーの 99.8% を破り、マスターの称号を獲得しました。

ディープマインドはブログ投稿で、この結果は、一般的な学習技術によってAIシステムを拡張し、複数の主体が関与する複雑で動的な環境で機能させることができるという強力な証拠を提供していると述べた。

StarCraft 2 がこのような素晴らしい結果を達成したことで、DeepMind はより複雑なタスクに注目し始めました。

CEOハサビス氏は次のように述べた。

StarCraft は 15 年間 AI 研究者にとって大きな挑戦でしたので、この研究が Nature に認められたことは非常に喜ばしいことです。

これらの素晴らしい結果は、科学的発見を加速できるインテリジェントなシステムを構築するという私たちの目標に向けた重要な一歩となります。

それで、DeepMind の次は何でしょうか?

ハサビス氏はまた、StarCraft は「単に」非常に複雑なゲームだと何度も述べているが、同氏は AlphaStar の背後にある技術にもっと興味を持っている。

しかし、この技術は軍事利用に非常に適していると考える人もいます。

しかし、Google と DeepMind の姿勢から判断すると、この技術は科学的研究に重点を置くものとなるでしょう。

天気予報や気候モデリングなど、非常に長いシーケンスの予測が含まれます。

おそらく、最近この方向性に馴染みがあるでしょう。

Google は量子超越性を達成したばかりなので、最も有望な応用分野は気候変動などの大きな問題です。

量子コンピューティングにおける大きな進歩により、DeepMind AI はさらに一歩前進しました。

未来はもっと楽しみに待つ価値がある。どう思いますか？

もう一つ

AlphaStar は素晴らしい記録を持っていますが、勝てない人もいます。

アルファスターが初めて梯子に入ったとき、人間の悪魔セラルは、それはただ人々を笑わせるためだけにあると言って、公然とそれを嘲笑しました。

しかし、彼らには強さがあり、AIに正面から立ち向かうことができる。

しかし、あえてこのように語る達人は世界に一人しかいません。

<<: ArmとHuaweiが参入し、自動運転チップの戦いでどちらが勝つかは分からない

>>: 人工知能が自動車業界に与える影響

人間の敵の99.8%を圧倒する星間AIがネイチャー誌に登場、その技術が初めて完全公開された

すべてのエージェントが勝利を目指しているわけではない

AlphaStarテクノロジー、最も完全な開示

AIが星間を支配するまで15年かかった

もう一つ

責任あるAIの未来を探る

Boyaのディープラーニング製品がHuman Horizonsの自動運転実現に貢献

3D モデルの「スキンを変更する」のはどれくらい簡単ですか?一言だけ

ソゴウ・チャン・ボー：インテリジェントな運用とメンテナンスは代替ではなくアップグレードです

マスク氏：ニューラリンクが初めて人体にチップを埋め込み、製品化へ

マイクロソフトは、劣化が著しい古い写真を復元できる新しいアルゴリズムを開発した。

機械学習クラウドプラットフォームにはどのような機能が必要ですか?

エンタープライズナレッジグラフが直面している機会、課題、解決策

推薦する

AI、自動化、仕事の未来、そして注目と解決が必要な問題

2020年の人工知能開発動向予測

女の子にとって恥ずかしいこと：将来、人間とロボットが赤ちゃんを産むようになる

ビジネスインテリジェンスを変革するAIの優れたユースケース

天才か愚か者か: 史上最も物議を醸したニューラルネットワーク

AIが悪になる危険性を排除する方法

GPT-LLMトレーナー: タスク固有のLLMトレーニングを1文で実装

モデルが大きくなればなるほど、パフォーマンスは向上しますか? Appleの自己回帰視覚モデルAIM: そうです

GoogleはAIチップに出産を学習させ、次世代のTPUはAI自身によって設計される

もう一つの（深層）学習：自己教師あり学習は次の大きなものになるでしょうか？

マイクロソフトの社内文書が公開：パノス・パナイ氏が退社後、WindowsとSurfaceの将来について説明

DeepMind が新世代 AlphaFold を発表、予測精度が 10% 近く向上しました。 DNAとRNAのAlphaFoldの瞬間が到来

製造業における人工知能: 産業用 AI のユースケース

TSN タイムセンシティブネットワークテクノロジーの簡単な分析