この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 チームOG、Dota2世界チャンピオンチーム。 OGは人工知能OpenAI Fiveの前では脆弱です。 5 人の人間チームは、ゲーム全体を通して何の緊張もなく 0 対 2 で敗北しました。2 つのゲームを合わせても、OG は外側のタワーを 2 つだけ倒しました。 しかし、これは AI の頂点ではありません。 現在、OpenAI は Rerun と呼ばれる新しい AI をトレーニングしました。 OG を圧倒した OpenAI Five と対戦した Rerun の勝率は... ええと... 98% に達しました。 このニュースを聞いて、あるツイッターユーザーが自分の意見を述べるために写真を投稿した。 人工知能は、主に自習に頼りながら、Dota 2 のような複雑なゲームでどうやって最強になれるのでしょうか?今日、この質問に対する答えが明らかになりました。 そうです、OpenAIはRerunをリリースしただけでなく、過去3年間のDota2プロジェクトに関する研究を論文を通じて正式に発表しました。 この論文では、OpenAI がシステム全体の原理、アーキテクチャ、計算の複雑さ、パラメータなど、さまざまな側面について説明しています。 OpenAIは、バッチサイズと総トレーニング時間を増やすことでコンピューティング規模を拡大し、今日の強化学習技術が複雑なeスポーツゲームにおいて人間を超えるレベルに到達できることを実証したと指摘した。 これらの研究は、2 人の対戦者間で進行中のさまざまなゼロサム ゲームにさらに適用できます。 (おそらく読んだ後)OG はツイートしました。「すごい!この論文は素晴らしい!」 この状況に、一部のネットユーザーは「すごい!」と感嘆のため息をついた。 OG チームが論文の素晴らしさを称賛しましたか?こんなの今まで見たことないよ… この論文には実際何が書いてあるのでしょうか? いくつかの重要なポイントをまとめます。 ポイント1: Dota2は囲碁よりも複雑チェスゲームと比較すると、eスポーツゲームはより複雑です。 この課題を克服するための鍵は、既存の強化学習システムを前例のないレベルに拡張することであり、そのためには数千の GPU と数か月の時間が必要です。 OpenAI はこの目的のために分散トレーニング システムを構築しました。 トレーニングにおける課題の 1 つは、環境とコードが絶えず変化することです。変更のたびに最初からやり直さなくて済むように、OpenAI はパフォーマンスを損なうことなくトレーニングを再開できる一連のツールを開発しました。これを「手術」と呼んでいます。 Dota2 の各ゲームは約 45 分間続き、1 秒あたり 30 フレームのゲーム画面が生成されます。 OpenAI Five は 4 フレームごとにアクションを実行します。チェスのゲームは約 80 手で構成され、囲碁のゲームは約 150 手で構成されます。比較すると、Dota2 のゲームをプレイするには、AI は約 20,000 手を「プレイ」する必要があります。 そして、戦場の霧の存在により、Dota2 の両陣営はゲーム全体の状況の一部しか見ることができず、残りの情報は隠されています。 囲碁をプレイするAlphaGoと比較すると、Dota 2をプレイするAIシステムは、バッチサイズが50~150倍、モデルが20倍大きく、トレーニング時間が25倍長くなっています。 ポイント2: AIがDota2のプレイ方法を学ぶ方法人間はキーボードやマウスなどを使って Dota 2 をプレイし、リアルタイムで意思決定を行います。前述したように、OpenAI Five は 4 フレームごとにアクションを実行します。これをタイムステップと呼びます。各タイムステップで、OpenAI は健康状態や位置などのデータを受信します。 同じ情報が人間と OpenAI Five では全く異なる形で受け取られます。 これは、AI システムがアクション コマンドを発行するときに、大まかに考えられる方法です。 AIの背後にはニューラルネットワークのセットがあります。ポリシー(π)は、観測からアクション確率への関数として定義され、1億5900万のパラメータを持つRNNです。このネットワークは、主に単層の 4096 ユニット LSTM で構成されています。 構造は以下の図のようになります。 LSTM はこのモデルのパラメータの 84% を占めています。 プレイヤーは、現在 OpenAI のデフォルトの強化学習トレーニング方法となっている Proximal Policy Optimization (PPO) 方式の拡張バージョンを使用してトレーニングされました。これらのエージェントの目標は、指数関数的に減少する将来の報酬の合計を最大化することです。 OpenAI Five は戦略を訓練する過程で、人間のゲームデータを使用せず、自分自身と対戦しました。同様のトレーニング方法は、囲碁やチェスなどの問題にも適用されます。 そのうち、80%の戦闘では、相手は最新のパラメータを使用したクローンであり、20%の戦闘では、相手は古いパラメータを使用したクローンでした。 10 回の反復ごとに、新しくトレーニングされたクローンにはシニアとしてマークが付けられます。現在トレーニング中の AI が新人やベテランに勝った場合、システムは学習率に基づいてパラメータを更新します。 OpenAI CTOによると、OpenAI FiveはOGを倒すまでにDotaの45,000年分に相当する練習を積んでいたという。 AIが毎日行うトレーニングの量は、人間が180年間ゲームをプレイするのに相当します。 ポイント3: 計算量とハイパーパラメータこのような複雑な AI システムをトレーニングするには、間違いなく多くのリソースが消費されます。 OpenAI は最適化のための GPU 消費量を推定し、OpenAI Five の GPU コンピューティング使用量は約 770±50 ~ 820±50 PFlops/s·days であると結論付けました。本日言及した新しい、より強力な Rerun は、今後 2 か月間のトレーニングで約 150 ± 5 PFlops/s·days の GPU コンピューティングを消費しました。 繰り返しになりますが、OpenAI が発表したのは最適化に使用される計算量のみであり、これはトレーニングの総コストのほんの一部、約 30% にすぎません。 以前、OpenAIは、OpenAI Fiveの毎日のトレーニングには256個のP100 GPUと128,000個のCPUコアが必要であることも明らかにしました。 ニューラルネットワーク全体のハイパーパラメータについては、OpenAIは論文の中で、Rerunをトレーニングする際に、経験に基づいてハイパーパラメータをさらに簡素化したと述べています。最終的に、次の 4 つの主要なハイパーパラメータのみが変更されました。 • 学習率 もちろん、OpenAI はこれらのハイパーパラメータをさらに最適化する余地がまだあるとも述べています。 ポイント4:独学だけではない最後に、強調する必要がある点がもう 1 つあります。 OpenAIは論文の中で、AIシステムがDota2の学習プロセスにおいて強化学習に完全に依存しているわけではなく、人間の知識もいくらか活用していると明確に指摘した。これは後のAlphaGo Zeroとは異なります。 一部のゲーム メカニクスはスクリプト プログラムです。例えば、ヒーローが装備を購入したりスキルを習得する順序や、クーリエの制御などです。 OpenAIは論文の中で、これらのスクリプトを使用するのは、コストと時間を考慮するだけでなく、歴史的な理由もあると述べている。しかし、この論文では、これらは最終的には独学で達成できるとも指摘している。 論文全文OpenAI は、「Dota 2 と大規模深層強化学習」と題したこの論文で、より詳しい情報を発表しました。ご興味があれば、こちらのポータルをご覧ください。 https://cdn.openai.com/dota-2.pdf バトルレビュー最後に、OpenAI Five が 2 試合連続で OG を破った試合全体を振り返ってみましょう。
ゲーム1AI(ラディアント):ライフル、コーキ、アイスメイデン、デスプロフェット、スヴェン 人間(ナイトダイア):マーベリック、ウィッチドクター、ヴェノムドラゴン、ヒドゥンアサシン、シャドウフィーンド OpenAI Five は、ラインナップを選んだ後、優勝する確率は 67.6% であると考えています。 ゲーム開始直後、OpenAI Fiveが先制点を挙げ、人間軍はあっという間にAIのIce Girlを倒した。その後、序盤のキル数では両チームの得点は互角となった。 AI は常に経済面で総合的なリードを維持してきましたが、最も裕福なヒーローは常に人間の兄貴分である Shadow Fiend でした。 これは、両者の戦略の明らかな違いも示しています。OG は 3 つのコア + 2 つのサポートという従来の人間スタイルを使用していますが、AI の 5 人のヒーローの経済的配分は比較的均等で、より「大きな鍋料理」のようになっています。 激しい攻防とチーム戦が数回続き、試合開始から19分ほど経つと、AIの勝率予測は90%を超えた。自信に満ちたAIは、一気に人間の優位性を奪取した。 その後、OGは異なるレーンで前進することを選択しました。何人かの解説者は、これはAIが集団で前進するのを防ぐためにできるだけ分散させるためだと推測しましたが、それは長くは続きませんでした。 しかし、人間側のマーベリックがライフを取り戻した38分まで持ちこたえたが、AIの最後の攻撃波はすでに人間の基地を押し倒していた。 OpenAI Fiveが第1ゲームに勝利しました。現場では拍手も起こった。
このゲームでは、AI はユニークなアイデアを示しました。AI は初期装備として 2 つの大きなポーションを選択し、その後の装備については、自身の属性を向上させるよりも物資を購入する傾向がありました。 さらに、先ほど述べた「ビッグポット」ポリシーや、ゲームの初期段階でのライフの頻繁な購入は、人間のプロプレイヤーの習慣とは大きく異なります。 ゲーム2AI (ラディアント): アイスメイデン、コーキ、スヴェン、ウィッチドクター、ヴェノマンサー 人間(ナイトダイア):ライフル、マーベリック、デスプロフェット、マーロック、ライオン ヒーローを選択した後、AIは自身の勝率が60.8%になると予測しましたが、これは前回のゲームのラインナップよりもわずかに低いものでした。 試合開始から2分間は両チームとも平和的にレーンを攻めていたが、予想外にミッドレーナーのTopsonがすぐに先制点をあげてしまった。 その後、人間の代表者たちは驚くべき速さで敗北した。 5分後、AIの自信は大幅に高まり、勝率は80%と予測しました。7分後、AIはトップレーンのタワーを倒しました。10分後、AIはすでに人間より4,000ゴールドコイン先取し、さらに2つのタワーを倒し、勝率は95%と推定しました。 11分時点で、AIはすでにOGの優位な立場を奪取していた。 わずか21分でOGの基地は陥落し、OpenAI Fiveは2試合目を楽々と勝利した。試合終了まで、OG のキル数は 1 桁のままで、AI に 46:6 で敗れました。 このゲームは非常に簡単に勝利しましたが、ゲーム中、AI の細部に欠陥があることは明らかでした。たとえば、複雑な森の中をさまよう人間を前にすると、AI は無力になります。今日の試合では、セブは森を迂回して命を救いました。 |
<<: 30年の沈黙と60年の経験を経て、「人工知能」の過去と現在とは?
>>: ジェフ・ディーンが2020年の機械学習のトレンドについて語る:マルチタスクとマルチモダリティが大きく進歩する
人間の直感は AI 研究者によって見落とされがちな能力ですが、非常に微妙なため、私たち自身でさえ完全...
アルファ囲碁が中国の囲碁の天才柯潔に3連勝した後、ロボット脅威論がますます広まりました。電話接客、デ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
AIチップをめぐる争いはインテルやエヌビディアなどの半導体大手の間で激化しているが、多くの中小企業も...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[51CTO記者の李玲玲が北京からレポート] 真夏が到来し、人工知能も北京の天気のように、より暑い...
マイクロソフトは9月12日、Microsoft Designerの適用プラットフォームを拡大し、We...
[[279958]] 2014年、機械学習の背後に隠れた高い技術的負債を調査したGoogleの論文が...
モノのインターネットは私たちの日常生活を再構築するのに役立つテクノロジーですが、IoT がその可能性...
機械は損失関数を通じて学習します。これは、特定のアルゴリズムが与えられたデータをどれだけ適切にモデル...
ハイパーオートメーション、ブロックチェーン、AI セキュリティ、分散クラウド、自律デバイスは、今年の...
[[415365]]画像ソース: https://pixabay.com/images/id-358...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...