世界で最も難しい「砂の彫刻」ゲームがAIによって解読された

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

13年前、そんな「異常」な難易度のゲームが大流行した。

その名前はシンプルでわかりやすい「 QWOP」です。つまり、プレイヤーはこれら 4 つのキーを使用して、ゲームキャラクターの左右の太ももとふくらはぎを制御し、最速の速度で 100 メートル走ることができます。

実際、ほとんどのプレイヤーは、最初はゲームが終了する前にスタートラインを越えることさえできないかもしれません。

数メートル走れるなら、あなたは間違いなく達人であり、友達の前で自慢することもできるでしょう。

QWOP の難しさは、一度バランスを崩すと回復が難しいことです。100 メートル以内の距離で重心が前方または後方に傾きすぎないようにする必要があります。

厳しいトレーニングの後に初めて走り始めると、著者が50メートル地点に意図的に設置したハードルに戸惑うでしょう。100メートル走がどのようにしてハードル走になったのでしょうか?

△ 某エディターのゲームのスクリーンショット

4399ミニゲームが流行っていた時代には、このゲームも「男なら100メートル走」と揶揄されていました。難易度があまりにも「異常」であるため、QWOP 開発者は多くの中傷メールを受け取っています。

ほとんどの人にとって、ゴールラインに到達するのは難しいことですが、それでもそれを楽しんでいる熱心なプレイヤーのグループがいます。彼らは簡単にレースを完走できるだけでなく、世界ランキングを競うために自分自身に挑戦し続けます。

2か月前、日本人選手が48.34秒という新しい世界記録を樹立しました。

この「砂の彫刻ゲーム」を見ると、強化学習を使って二足歩行ロボットを訓練する場面を思い浮かべますか？

ボストンコンサルティンググループのデータアナリスト、ウェスリー・リャオ氏もそう考えている。

しかし、「異常な」難易度のゲームが AI の前ではただの霧雨にしかならないと考えないでください。

廖氏は、これまでのさまざまな強化学習アルゴリズムを組み合わせ、さらには「世界的に有名な教師」を招いて指導を行った。多大な努力の末、ついに先週、AIが人間のプレイヤーの記録を破ることに成功した。

このゲームの難しさは囲碁に劣らないことがわかります。（手動犬頭）

試してみる

当初、Liao 氏は OpenAI Gym 強化学習環境を使用して AI をトレーニングし、ゲームの状態、操作、報酬と罰のメカニズムを設定しました。

状態には、各体の部分と関節の位置、速度、角度が含まれます。操作モードは、4 つの QWOP キー、6 つの 2 つのキーの組み合わせ、およびキーが押されていない状態の 11 に制限されています。

AI のトレーニングに使用されるアルゴリズムはACER (Actor-Critic with Experience Replay) です。このアルゴリズムの利点は、最新の経験だけでなく、保存されたデータ内の以前の経験からも学習できることです。

ACER は非常に複雑なため、Liao は他の人の実装コード「Stable Baselines」を使用しました。

廖氏はまず、AIに自ら学習させようとした。何度も実験を重ねた結果、AIは「膝をこする」ことでゴールラインを走ることしか学習しておらず、速度が非常に遅いことがわかった。

これは、多くの普通の人間のプレイヤーや他の強化学習アルゴリズムと同じで、記録を破ることはおろか、マスターのレベルにもまだ遠く及びません。

注意深く分析すると、AI はストライドのメカニズムをまったく学習しておらず、ゴールラインに到達するための最も安全で最も遅い方法のみを学習していることがわかります。

独学をAIに全面的に頼ることはできないようです。

走ることを学ぶ

DeepMind がトップクラスのチェスプレイヤーを使って AlphaGo にチェスの遊び方を教えたのと同様に、Liao 氏は人間のプレイヤーも AI に教えることができるのではないかと考えました。

しかし、廖選手の実力はトップ選手に遠く及ばず、せいぜい28メートルしか走れなかった。

これらはどれも重要ではありません。重要なのは、少なくとも Liao がより大きなステップを踏むスキルを持っていることです。AI がこの「粗悪な技術」からランニングスキルを学習できることを願うばかりです。

しかし残念なことに、その結果はAIが「邯鄲で歩くことを学ぶ」良い例となり、走る技術を習得できなかっただけでなく、スタート地点で転倒してしまった。

その後、廖氏はAIが自力でトレーニングを継続できるようにした。諺にあるように、師匠はあなたを門まで導くことしかできず、実践するのはあなた次第です。AIは人間の技術と自己学習能力を組み合わせることができるのでしょうか?

結果は素晴らしいものでした。90 時間のトレーニングを経て、AI はついに人間のように走ることを学習しました。

最終結果は1分25秒で、これはすでに世界ランキングのトップ15に入っており、人間を超えるのもそう遠くない。

次にやるべきことは、AIにさらに多くのスキルを教えることですが、私のスキルは貧弱すぎます。

したがって、AI のレベルをさらに向上させたいのであれば、トップレベルの専門家の助けを求める必要があります。

トッププレイヤーが助ける

廖さんはスピードランニングのランキングのビデオを観察し、トップ選手の秘訣は左足をさらに高く上げてより速く走ることだということを発見した。

△トッププレイヤーgunmanekoのキックスキル

彼は世界のトッププレイヤーであるgunmanekoとkurodoにキックのテクニックについてアドバイスを求め始めました。

二人の選手は彼の質問に熱心に答えた。蔵人氏は、この手法の鍵はゲームキャラクターの垂直方向の移動を減らすことだと指摘し、体の高さの維持をAIの報酬関数に加えることを提案した。

Liao 氏は自分のコードを Kurodo 氏と共有し、Kurodo 氏はそれを使用して自分のゲームのキーストロークを50 回記録し、それを Liao 氏に送信しました。

廖氏はこのデータを活用して AI を事前トレーニングしようとしたが、うまくいかなかった。 AIがキックのテクニックを習得する前に、基本的な走り方を忘れてしまいました。

廖はアプローチを変えて、黒戸のデータを AI のリプレイバッファーに挿入する必要がありました。これは、AI のメモリの半分が AI 自身のメモリとなり、残りの半分が Kurudo のメモリとなるように AI のメモリを変更することと同じです。

そして、AIが自分でプレイするたびに、Kurodoのデータを1回注入することで、AIがメモリからセクションをランダムに選択して学習するときに、2つのメモリを選択する確率が同じになるようにし、新しいスキルを学習する過程で基本的な操作を忘れないようにします。

AIは蔵人のデータを使って15時間トレーニングし、ついにキックを習得した。しかし、2つの記憶を連携させることができなかったため、長時間走ると動きが不安定になってしまった。

その後、廖氏は黒戸氏の記憶を削除し、AIにさらに25時間トレーニングさせ、合計トレーニング時間は65時間になった。

最終的にAIのスコアは1分8秒に達し、ついにトップ10入りを果たした。

世界記録を破る

廖氏は、AIにこのゲームをプレイする方法を教える過程をビデオに撮り、オンラインで公開した。 1か月前、海外メディアのGismodoは彼にこう尋ねた。「なぜAIはまだ世界記録を破っていないのか？」

そこで、Liao は速度を最適化するためだけに存在する新しい AI を再トレーニングしました。

新しい AI は、Prioritized DDQN アルゴリズムを使用します。このアルゴリズムは、均一なサンプリングではなく、学習効率の高い状態に重みを追加するため、新しい AI は古い AI が習得したスキルをすばやく学習できます。

さらに、新しい AI の報酬関数では、体の高さや膝の曲げ角度などのパラメータが削除され、前進速度のみに関連するように変更されています。

新しい AI は、まず既存のデータを使用してわずか数分間事前トレーニングされ、その後 40 時間の自己トレーニングが行われました。最終的に、新しい AI による 1 秒あたりのアクション数は、トレーニング環境では 9 から 18 に増加し、テスト環境では 25 に達しました。

新しい AI はキックのテクニックを非常に安定して把握しており、障害物の影響を受けてもすぐに回復できます。

素早く効率的な動きにより、AI のパフォーマンスは 47.34 秒に向上し、人間の記録である 48.34 秒よりわずか 1 秒速くなりました。

これにより、ついに人工知能が人間を上回るゲームのリストに新たなゲームが加わることになります。

もう一つ

それで終わりだと思いますか？

100メートルを走るだけでは終わりではありません。このゲームには世界レベルの難易度もあります。 「男ならマラソンを走れ」

廖を助けたプレイヤー、黒戸は最近世界記録を提出した。この偉業を達成したのは世界でたった二人だけだ。

彼らがコンピューターの前で何時間も QWOP と入力している姿を想像するのは難しい。

さらに、QWOP の開発者であるBennett Foddy氏は、この種の「異常な」独立系ゲームの開発にこだわり続けています。

ベネット・フォディの「Getting Over It」という非常に有名なゲームがあり、その中国語名は「挖地求升」です。遊び方は、人が瓶の中に入れられ、ハンマーを使って自分自身を持ち上げるというものです。

フォディ氏はプリンストン大学とオックスフォード大学で博士研究員を務め、現在は独立したゲームデザイナーです。 QWOP はプリンストン大学在学中に彼によって開発されました。

優秀な学生が開発したゲームは、貧しい学生にとっては本当に手の届かないものだとしか言えません。

<<: ベクトル監視なしのベクトル画像生成アルゴリズムがCVPR 2021に選出

>>: Java プログラミングスキル - データ構造とアルゴリズム「スレッドバイナリツリー」

人々が家に座っていて、車が道路を走っています。自動運転は信頼できるのでしょうか?

世界で最も難しい「砂の彫刻」ゲームがAIによって解読された

試してみる

走ることを学ぶ

トッププレイヤーが助ける

世界記録を破る

もう一つ

人々が家に座っていて、車が道路を走っています。自動運転は信頼できるのでしょうか?

AIが研究者に歴史の匂いを再現する手助けをする方法

AIと機械学習の品質保証

将来の顔認識技術の最大の問題は、それがほぼ間違いのないものであることだ

切り抜きや着色を超えて、人工知能がデザインに及ぼす影響をご覧ください

宝くじに当たるのは雷に打たれるより難しいですか？確率を向上させるためにアルゴリズムを使ってみる

信じられますか？これら 8 つの AI テクノロジーにより、すでに次のことが可能になっています...

電気自動車や自動運転車の時代に入り、自動車は「商品」であると同時に「サービス」でもある

データセットには独自の世界観がありますか?いいえ、それは実際には人々の世界観です。

この記事を読んで、人工知能に携わる私は、もう

推薦する

人工知能は人類のより良い生活を可能にする

超強力なPytorchオペレーション！！！

人工知能は鉄道の乗客の安全を守ることができるか？

人々は長い間、運転免許試験に悩まされてきました。自動運転は、その苦しみを緩和できるのでしょうか？

なぜ人工知能はテクノロジーの未来なのか?

スタンフォード大学の研究によると、AIチャットボットChatGPTのパフォーマンスは非常に不安定であることが判明

AIによる顔の変形は危険だが、VRスキーは素晴らしい

ニューラルネットワークの過剰適合を避ける 5 つのテクニック

図解機械学習: ニューラルネットワークと TensorFlow によるテキスト分類

AIの技術的負債の解消は急務

「ロボット革命」は人類社会の発展にどのような影響を与えるのでしょうか？