この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 13年前、そんな「異常」な難易度のゲームが大流行した。 その名前はシンプルでわかりやすい「 QWOP」です。つまり、プレイヤーはこれら 4 つのキーを使用して、ゲーム キャラクターの左右の太ももとふくらはぎを制御し、最速の速度で 100 メートル走ることができます。 実際、ほとんどのプレイヤーは、最初はゲームが終了する前にスタートラインを越えることさえできないかもしれません。 数メートル走れるなら、あなたは間違いなく達人であり、友達の前で自慢することもできるでしょう。 QWOP の難しさは、一度バランスを崩すと回復が難しいことです。100 メートル以内の距離で重心が前方または後方に傾きすぎないようにする必要があります。 厳しいトレーニングの後に初めて走り始めると、著者が50メートル地点に意図的に設置したハードルに戸惑うでしょう。100メートル走がどのようにしてハードル走になったのでしょうか? △ 某エディターのゲームのスクリーンショット 4399ミニゲームが流行っていた時代には、このゲームも「男なら100メートル走」と揶揄されていました。難易度があまりにも「異常」であるため、QWOP 開発者は多くの中傷メールを受け取っています。 ほとんどの人にとって、ゴールラインに到達するのは難しいことですが、それでもそれを楽しんでいる熱心なプレイヤーのグループがいます。彼らは簡単にレースを完走できるだけでなく、世界ランキングを競うために自分自身に挑戦し続けます。 2か月前、日本人選手が48.34秒という新しい世界記録を樹立しました。 この「砂の彫刻ゲーム」を見ると、強化学習を使って二足歩行ロボットを訓練する場面を思い浮かべますか? ボストン コンサルティング グループのデータアナリスト、ウェスリー・リャオ氏もそう考えている。 しかし、「異常な」難易度のゲームが AI の前ではただの霧雨にしかならないと考えないでください。 廖氏は、これまでのさまざまな強化学習アルゴリズムを組み合わせ、さらには「世界的に有名な教師」を招いて指導を行った。多大な努力の末、ついに先週、AIが人間のプレイヤーの記録を破ることに成功した。 このゲームの難しさは囲碁に劣らないことがわかります。 (手動犬頭) 試してみる当初、Liao 氏は OpenAI Gym 強化学習環境を使用して AI をトレーニングし、ゲームの状態、操作、報酬と罰のメカニズムを設定しました。 状態には、各体の部分と関節の位置、速度、角度が含まれます。操作モードは、4 つの QWOP キー、6 つの 2 つのキーの組み合わせ、およびキーが押されていない状態の 11 に制限されています。 AI のトレーニングに使用されるアルゴリズムはACER (Actor-Critic with Experience Replay) です。このアルゴリズムの利点は、最新の経験だけでなく、保存されたデータ内の以前の経験からも学習できることです。 ACER は非常に複雑なため、Liao は他の人の実装コード「Stable Baselines」を使用しました。 廖氏はまず、AIに自ら学習させようとした。何度も実験を重ねた結果、AIは「膝をこする」ことでゴールラインを走ることしか学習しておらず、速度が非常に遅いことがわかった。 これは、多くの普通の人間のプレイヤーや他の強化学習アルゴリズムと同じで、記録を破ることはおろか、マスターのレベルにもまだ遠く及びません。 注意深く分析すると、AI はストライドのメカニズムをまったく学習しておらず、ゴールラインに到達するための最も安全で最も遅い方法のみを学習していることがわかります。 独学をAIに全面的に頼ることはできないようです。 走ることを学ぶDeepMind がトップクラスのチェスプレイヤーを使って AlphaGo にチェスの遊び方を教えたのと同様に、Liao 氏は人間のプレイヤーも AI に教えることができるのではないかと考えました。 しかし、廖選手の実力はトップ選手に遠く及ばず、せいぜい28メートルしか走れなかった。 これらはどれも重要ではありません。重要なのは、少なくとも Liao がより大きなステップを踏むスキルを持っていることです。AI がこの「粗悪な技術」からランニング スキルを学習できることを願うばかりです。 しかし残念なことに、その結果はAIが「邯鄲で歩くことを学ぶ」良い例となり、走る技術を習得できなかっただけでなく、スタート地点で転倒してしまった。 その後、廖氏はAIが自力でトレーニングを継続できるようにした。諺にあるように、師匠はあなたを門まで導くことしかできず、実践するのはあなた次第です。AIは人間の技術と自己学習能力を組み合わせることができるのでしょうか? 結果は素晴らしいものでした。90 時間のトレーニングを経て、AI はついに人間のように走ることを学習しました。 最終結果は1分25秒で、これはすでに世界ランキングのトップ15に入っており、人間を超えるのもそう遠くない。 次にやるべきことは、AIにさらに多くのスキルを教えることですが、私のスキルは貧弱すぎます。 したがって、AI のレベルをさらに向上させたいのであれば、トップレベルの専門家の助けを求める必要があります。 トッププレイヤーが助ける廖さんはスピードランニングのランキングのビデオを観察し、トップ選手の秘訣は左足をさらに高く上げてより速く走ることだということを発見した。 △トッププレイヤーgunmanekoのキックスキル 彼は世界のトッププレイヤーであるgunmanekoとkurodoにキックのテクニックについてアドバイスを求め始めました。 二人の選手は彼の質問に熱心に答えた。蔵人氏は、この手法の鍵はゲームキャラクターの垂直方向の移動を減らすことだと指摘し、体の高さの維持をAIの報酬関数に加えることを提案した。 Liao 氏は自分のコードを Kurodo 氏と共有し、Kurodo 氏はそれを使用して自分のゲームのキーストロークを50 回記録し、それを Liao 氏に送信しました。 廖氏はこのデータを活用して AI を事前トレーニングしようとしたが、うまくいかなかった。 AIがキックのテクニックを習得する前に、基本的な走り方を忘れてしまいました。 廖はアプローチを変えて、黒戸のデータを AI のリプレイ バッファーに挿入する必要がありました。これは、AI のメモリの半分が AI 自身のメモリとなり、残りの半分が Kurudo のメモリとなるように AI のメモリを変更することと同じです。 そして、AIが自分でプレイするたびに、Kurodoのデータを1回注入することで、AIがメモリからセクションをランダムに選択して学習するときに、2つのメモリを選択する確率が同じになるようにし、新しいスキルを学習する過程で基本的な操作を忘れないようにします。 AIは蔵人のデータを使って15時間トレーニングし、ついにキックを習得した。しかし、2つの記憶を連携させることができなかったため、長時間走ると動きが不安定になってしまった。 その後、廖氏は黒戸氏の記憶を削除し、AIにさらに25時間トレーニングさせ、合計トレーニング時間は65時間になった。 最終的にAIのスコアは1分8秒に達し、ついにトップ10入りを果たした。 世界記録を破る廖氏は、AIにこのゲームをプレイする方法を教える過程をビデオに撮り、オンラインで公開した。 1か月前、海外メディアのGismodoは彼にこう尋ねた。「なぜAIはまだ世界記録を破っていないのか?」 そこで、Liao は速度を最適化するためだけに存在する新しい AI を再トレーニングしました。 新しい AI は、Prioritized DDQN アルゴリズムを使用します。このアルゴリズムは、均一なサンプリングではなく、学習効率の高い状態に重みを追加するため、新しい AI は古い AI が習得したスキルをすばやく学習できます。 さらに、新しい AI の報酬関数では、体の高さや膝の曲げ角度などのパラメータが削除され、前進速度のみに関連するように変更されています。 新しい AI は、まず既存のデータを使用してわずか数分間事前トレーニングされ、その後 40 時間の自己トレーニングが行われました。最終的に、新しい AI による 1 秒あたりのアクション数は、トレーニング環境では 9 から 18 に増加し、テスト環境では 25 に達しました。 新しい AI はキックのテクニックを非常に安定して把握しており、障害物の影響を受けてもすぐに回復できます。 素早く効率的な動きにより、AI のパフォーマンスは 47.34 秒に向上し、人間の記録である 48.34 秒よりわずか 1 秒速くなりました。 これにより、ついに人工知能が人間を上回るゲームのリストに新たなゲームが加わることになります。 もう一つそれで終わりだと思いますか? 100メートルを走るだけでは終わりではありません。このゲームには世界レベルの難易度もあります。 「男ならマラソンを走れ」 廖を助けたプレイヤー、黒戸は最近世界記録を提出した。この偉業を達成したのは世界でたった二人だけだ。 彼らがコンピューターの前で何時間も QWOP と入力している姿を想像するのは難しい。 さらに、QWOP の開発者であるBennett Foddy氏は、この種の「異常な」独立系ゲームの開発にこだわり続けています。 ベネット・フォディの「Getting Over It」という非常に有名なゲームがあり、その中国語名は「挖地求升」です。遊び方は、人が瓶の中に入れられ、ハンマーを使って自分自身を持ち上げるというものです。 フォディ氏はプリンストン大学とオックスフォード大学で博士研究員を務め、現在は独立したゲームデザイナーです。 QWOP はプリンストン大学在学中に彼によって開発されました。 優秀な学生が開発したゲームは、貧しい学生にとっては本当に手の届かないものだとしか言えません。 |
<<: ベクトル監視なしのベクトル画像生成アルゴリズムがCVPR 2021に選出
>>: Java プログラミング スキル - データ構造とアルゴリズム「スレッド バイナリ ツリー」
前回の記事「PyTorch Concise Tutorial Part 1」に引き続き、多層パーセプ...
21 世紀に革命をもたらした技術を 1 つ挙げるとすれば、それは人工知能でしょう。人工知能は私たちの...
毎年恒例の11.11グローバルショッピングフェスティバルが近づいており、JD.comは再び歴史を刻み...
マスク氏の脳コンピューターインターフェース企業 Neuralink が新たな進歩を遂げました。さらに...
2月2日、マイクロソフトのソフトウェアエンジニアリング部門のマネージャーであるシェーン・ジョーンズ...
機械学習を活用したソリューションとプロセスは、医療、情報技術 (IT)、農業、教育、エレクトロニクス...
ディープラーニングにおける活性化関数は、ニューラル ネットワークの重要なコンポーネントです。活性化関...
9月18日、2018年世界人工知能会議中。 Fourth Paradigm は、自動機械学習プラット...
多くの新製品と同様に、自動運転に対する人々の態度は、過度の信頼から過少な信頼まで二極化しています。自...