人間の敵の99.8%を圧倒する星間AIがネイチャー誌に登場、その技術が初めて完全公開された

人間の敵の99.8%を圧倒する星間AIがネイチャー誌に登場、その技術が初めて完全公開された

StarCraft 2 のプレイヤーのうち、AI にまだ負けていないのはわずか 0.2% です。

これは、匿名でラダーに潜入した AlphaStar が提出した最新の成績表です。

同時に、DeepMind は、Nature で AlphaStar の現在の戦闘能力と技術の全容も公開しました。

AlphaStar は人間のプレイヤーの 99.8% を超え、プロトス、テラン、ザーグの 3 つの種族でグランドマスター レベルに到達しました。

論文では、特別なトレーニング姿勢も発見しました。

すべてのエージェントが勝利を目指しているわけではない

DeepMind はブログ投稿で、Nature に掲載された AlphaStar には 4 つの主要なアップデートがあると述べました。

1つ目は制約です。AIの視点が人間と同じになり、移動頻度の制限も厳しくなりました。

第二に、テラン、プロトス、ザーグはすべて 1 対 1 の戦闘に参加でき、それぞれの種族には独自のニューラル ネットワークがあります。

3 番目に、リーグのトレーニングは完全に自動化されており、強化学習をすでに受けたエージェントではなく、教師あり学習エージェントから開始されます。

4 番目に、Battle.net の結果では、AlphaStar は人間のプレイヤーと同じマップを使用して 3 つのレースすべてでグランドマスター レベルに到達し、すべての試合を再プレイできます。

AIの学習プロセスに関しては、DeepMindは特別なトレーニング目標設定を重視しています。

すべてのインテリジェントエージェントが勝利の可能性を最大化しようとしているわけではありません。

なぜなら、自己プレイのプロセスにおいて、インテリジェントエージェントは特定の状況でのみ有効な特定の戦略に陥りやすく、複雑なゲーム環境に直面するとパフォーマンスが不安定になるからです。

そのため、チームは人間のプレイヤーのトレーニング方法を参考にしました。それは、他のプレイヤーとターゲットを絞ったトレーニングを行うことです。つまり、1 つのインテリジェント エージェントが独自の操作を通じて別のインテリジェント エージェントの欠陥を明らかにし、他のエージェントが特定の望ましいスキルを練習できるように支援します。

この結果、異なる目標を持つエージェントが生まれます。1 つ目は、勝つことを目標とするメイン エージェントです。2 つ目は、自分の勝率を向上させることに焦点を当てるのではなく、メイン エージェントの欠点を探り、エージェントが強くなるように支援する役割を担います。 DeepMind では 2 番目のタイプを「Exploiter」と呼んでいますが、私たちは単に「sparring partners」と呼んでいます。

AlphaStar が学習したさまざまな複雑な戦略はすべて、このプロセスを通じて獲得されました。

たとえば、青は勝利に責任を持つ主役であり、赤は主役の成長を助けるスパーリング パートナーです。小紅は大砲突撃スキルを発見し、小蘭はそれに抵抗できなかった。

[[280921]]

その後、新しいメインプレイヤー (グリーン) は、レッドの大砲ラッシュをうまく防御する方法を学びました。

[[280922]]

同時に、リトルグリーンは、経済的な優位性、ユニットの組み合わせと制御を通じて、以前のメインプレイヤーであるリトルブルーを倒すこともできます。

[[280923]]

その後、別の新しいスパーリングパートナー(リトルブラウン)がやって来て、メインプレイヤーのリトルグリーンの新たな弱点を見つけ、隠しナイフでそれを打ち負かしました。

[[280924]]

繰り返し繰り返し、AlphaStar はますます強力になります。

アルゴリズムの詳細についても、今回たっぷりとご紹介させていただきます。

AlphaStarテクノロジー、最も完全な開示

現実の AI アプリケーションの多くは、複雑な環境における複数のインテリジェント エージェント間の競争と協調的な協力を伴います。

StarCraft などのリアルタイム戦略 (RTS) ゲームの研究は、この大きな問題を解決する過程における小さな目標です。

言い換えれば、StarCraft の課題は、実際にはマルチエージェント強化学習アルゴリズムの課題なのです。

AlphaStar は、元のゲーム インターフェイスからデータ (入力) を受け取り、ゲーム内のアクションを構成する一連の命令を出力するディープ ニューラル ネットワークを利用して、StarCraft のプレイ方法を学習しました。

AlphaStar は、概要マップとユニット リストを見てゲームを観察します。

アクションを実行する前に、エージェントは発行するアクションのタイプ (ビルドなど)、アクションの適用先、目標、次のアクションを発行するタイミングを出力します。

アクションは、アクション レートを制限する監視レイヤーを介してゲームに送信されます。

トレーニングは教師あり学習と強化学習を通じて行われます。

当初、トレーニングには教師あり学習が使用され、その素材はブリザードが公開した匿名の人間プレイヤーのライブゲームパフォーマンスから取得されました。

このデータにより、AlphaStar は StarCraft ラダー プレイヤーの操作を模倣して、ゲームのマクロ戦略とミクロ戦略を学習できます。

初期の知的存在は、ゲームに組み込まれたエリート AI によって倒すことができます。これは、人間のゴールド ランク (95%) に相当します。

そして、この初期のインテリジェントエージェントは強化学習の種となります。

その上に、連続リーグが作成されました。これは、人間がはしごの上で互いに競争するのと同じように、インテリジェント エージェントが互いに競争する、インテリジェント エージェント用のアリーナを準備することと同じです。

既存のエージェントから新しいブランチを作成することで、より多くのプレイヤーが競争に参加し続けることになります。新しいエージェントは、対戦相手との競争から学習します。

この新しい形式のトレーニングは、以前の集団ベースの強化学習のアイデアをさらに深め、巨大な戦略空間を継続的に探索できるプロセスを作成します。

この方法により、エージェントは戦略的に強力な相手に対して優れたパフォーマンスを発揮すると同時に、それほど強力ではない初期の相手に対処する方法も忘れずに実行できるようになります。

インテリジェント エージェント リーグが継続し、新しいインテリジェント エージェントが誕生するにつれて、初期のゲーム戦略に対処するための新しいカウンター戦略が登場します。

新しいエージェントによって実行される戦略の中には、以前の戦略をわずかに改良しただけのものもありますが、他のエージェントは、まったく新しい戦略、まったく異なる構築順序、まったく異なるユニットの組み合わせ、まったく異なるマイクロ管理方法を模索することができます。

さらに、リーグ内のエージェントの多様性を促進する必要があります。これにより、各エージェントは異なる学習目標を持つことになります。たとえば、エージェントがどの対戦相手を攻撃することを目標とすべきか、エージェントの好みに影響を与えるためにどの内部動機を使用すべきかなどです。

△連合訓練の堅牢性

さらに、インテリジェント エージェントの学習目標は変化する環境に適応します。

ニューラル ネットワークが各エージェントに与える重みも、強化学習プロセスとともに継続的に変化します。常に変化する重みは、学習目標の進化の基礎となります。

重み更新ルールは、Experience Replay、Self-Imitation Learning、Policy Distillation などのメカニズムを含む、新しいオフポリシー強化学習アルゴリズムです。

AIが星間を支配するまで15年かかった

最も挑戦的なリアルタイム戦略 (RTS) ゲームの 1 つである StarCraft では、短期目標と長期目標を調整するだけでなく、予期しない状況に対処することも求められます。長い間、AI 研究の「試金石」となってきました。

不完全情報ゲームの状況に直面しているため、課題は非常に大きく、研究者は問題を克服するために多くの時間を費やす必要があります。

DeepMindはTwitterで、研究者らが15年間にわたって「スタークラフト」シリーズのゲームに取り組んできたおかげで、AlphaStarは現在の結果を達成できたと述べた。

しかし、DeepMind の研究が本当によく知られるようになったのは、ここ 2 年ほどのことである。

AlphaGoがイ・セドルを破ってから2年後の2017年、DeepMindはBlizzardと協力してPySC2と呼ばれるオープンソースツールセットをリリースし、それに基づいてエンジニアリングとアルゴリズムのブレークスルーを組み合わせて、StarCraftゲームの研究をさらに加速しました。

その後、多くの学者がスタークラフトについて多くの研究を行いました。たとえば、南京大学の Yu Yang のチーム、Tencent AI Lab、カリフォルニア大学バークレー校など。

今年 1 月までに、AlphaStar は AlphaGo の瞬間を迎えました。

プロの StarCraft 2 プレイヤーとの試合では、AlphaStar が合計スコア 10-1 でゲームを圧倒しました。人間のプロ プレイヤー LiquidMaNa は、わずか 5 分 36 秒で敗北しました。

オールラウンドプロプレイヤーのTLOは敗北後、「AlphaStarと対戦するのは難しい。人間と対戦するのとは違う。無力感を覚えた」と嘆いた。

半年後、AlphaStarは再び進化しました。

DeepMind は、APM (ハンドスピード) と視野を人間のプレイヤーと一致させながら、プロトス、テラン、ザーグを完全に制御し、多くのマップのロックを解除しました。

同時に、最新の開発が発表されました。AlphaStar はゲーム プラットフォーム Battle.net にログインし、匿名のラダー マッチングを実施します。

現在、最新の論文の発表により、AlphaStar の最新の戦闘能力も発表されました。AlphaStar はプレイヤーの 99.8% を破り、マスターの称号を獲得しました。

ディープマインドはブログ投稿で、この結果は、一般的な学習技術によってAIシステムを拡張し、複数の主体が関与する複雑で動的な環境で機能させることができるという強力な証拠を提供していると述べた。

StarCraft 2 がこのような素晴らしい結果を達成したことで、DeepMind はより複雑なタスクに注目し始めました。

CEOハサビス氏は次のように述べた。

StarCraft は 15 年間 AI 研究者にとって大きな挑戦でしたので、この研究が Nature に認められたことは非常に喜ばしいことです。

これらの素晴らしい結果は、科学的発見を加速できるインテリジェントなシステムを構築するという私たちの目標に向けた重要な一歩となります。

それで、DeepMind の次は何でしょうか?

ハサビス氏はまた、StarCraft は「単に」非常に複雑なゲームだと何度も述べているが、同氏は AlphaStar の背後にある技術にもっと興味を持っている。

しかし、この技術は軍事利用に非常に適していると考える人もいます。

しかし、Google と DeepMind の姿勢から判断すると、この技術は科学的研究に重点を置くものとなるでしょう。

天気予報や気候モデリングなど、非常に長いシーケンスの予測が含まれます。

おそらく、最近この方向性に馴染みがあるでしょう。

Google は量子超越性を達成したばかりなので、最も有望な応用分野は気候変動などの大きな問題です。

量子コンピューティングにおける大きな進歩により、DeepMind AI はさらに一歩前進しました。

未来はもっと楽しみに待つ価値がある。どう思いますか?

もう一つ

AlphaStar は素晴らしい記録を持っていますが、勝てない人もいます。

アルファスターが初めて梯子に入ったとき、人間の悪魔セラルは、それはただ人々を笑わせるためだけにあると言って、公然とそれを嘲笑しました。

しかし、彼らには強さがあり、AIに正面から立ち向かうことができる。

しかし、あえてこのように語る達人は世界に一人しかいません。

<<:  ArmとHuaweiが参入し、自動運転チップの戦いでどちらが勝つかは分からない

>>:  人工知能が自動車業界に与える影響

ブログ    
ブログ    
ブログ    

推薦する

Googleが新しい検索方法を正式に発表:円を描く

ChatGPTが登場して以来、長い間息をひそめていたGoogleも、モバイル検索に力を入れ始めていま...

2021 年の年収 100 万ドルの AI 職種のトレンド: データ サイエンス、Python、自動運転、AIOps に注目していますか?

今年も終わりですね! 2021年が近づいてきました。今年は流行が落ち着いてきましたが、AIの発展は止...

オンラインゲームの依存症対策システムは「破られた」のか?記者調査:ネット上で「顔認証」サービスを提供、実名なしでゲームにログインできると主張

現代速報(記者:季宇江南)未成年者がオンラインゲームに依存しないようにするため、依存防止制度が生まれ...

AIアラインメントを説明する4万語:北京大学と複数の大学チームがアラインメントの包括的なレビューを発表

論文(継続的に更新):arxiv.org/abs/2310.19852 AI アライメント概要ウェブ...

シェア | Meituanのディープラーニングシステムのエンジニアリング実践

背景ディープラーニングは、AI時代の中核技術として、さまざまなシナリオに適用されてきました。システム...

医療AIの今後の展開:注目すべき3つのトレンド

COVID-19パンデミックが猛威を振るい、人々のメンタルヘルスが危機に瀕し、医療費が上昇し、人口...

...

経済学における機械学習:この2つの組み合わせは明るい未来をもたらすだろう

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

IntelがBigDLディープラーニングフレームワークをリリース、CPUを使ってGPUを攻撃する予定

[51CTO.com クイック翻訳] 先週、Intel は分散型ディープラーニング用のオープンソース...

古代東洋の究極の秘密 - 知的な美しさ

[51CTO.com からのオリジナル記事] 伝説によると、古代の神秘的な東洋の世界には、秘密で偉大...

...

「人工知能」の発展を合理的に扱う

現在の人工知能の発展は、主にディープラーニングに代表される機械学習技術の恩恵を受けています。ディープ...

マシンビジョン: 2D ビジョンと 3D ビジョンのどちらを選択するか?

マシンビジョンは、人工知能の重要な分野として、今日最も注目されているテクノロジーの 1 つとなってい...

...

李開復:今後数年間、中国で最も収益性の高い仕事は何でしょうか?

1物語はAI熱狂の3つの波から始まる2017年、誰もが人工知能について語っていました。しかし、2度...