このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

レーシングゲームをプレイする AI は、スピードと楽しさだけを追求するものではありません。

彼らは戦術的な計画について考え始め、独自の運転スタイルや特技を開発しました。

たとえば、ターンだけが得意なこの「部分的な」プレーヤーは、急カーブに直面したときには激しくパンチし、危険なドリフトをしますが、直線に直面したときには臆病になり、動揺してしまいます。

長期的なビジョンを持ち、戦術的な計画を学習した AI もあります。レース中のこの 2 台のグリーンの車は、カーブで減速しているように見えますが、急カーブをスムーズに通過し、直接の GG 結果を回避しています。

また、地図がどれだけ新しいものであっても、推論を導き出して旅全体を完了できる AI もあります。

彼は本当にレーストラックで考えることを学んだようだ。

(前述のように、ある科目が苦手だった選手も、不断の努力で復活を遂げた)

この訓練の結果が発表されると、多くのネットユーザーが注目した。

強化学習により、AIは「長期的に考える」ことを学ぶことができる

トレーニング トラックは、カスタマイズ性に優れたトラック エディターでプレイヤー コミュニティの間で有名な Trackmania というゲームから取得されています。

レーシング AI の可能性をさらに刺激するために、開発者は紆余曲折のある悪魔的なマップを作成しました。

開発者はyoshtmと呼ばれ、以前にも AI を使用してこのゲームをプレイしたことがあり、激しい議論を巻き起こしました。

当初、YoshTM は 2 つの隠れ層を持つ教師あり学習モデルを使用していました。

モデルには、車の現在の速度、加速度、道路セクションの位置など、16 個の入力が含まれています。入力パラメータはニューラル ネットワークによって分析され、最終的に 6 つのアクションのうちの 1 つが出力されます。

このモデル アーキテクチャに基づいて、開発者は複数の AI が同じマップ上で競争できるようにします。

複数回の反復を通じて、さまざまな AI のニューラル ネットワークに微妙な違いが現れ、最終的には最も優れた AI が際立つようになります。

この方法では AI が運転を学習できるようになりますが、次のような問題も発生します。

AI は多くの場合、速度やゴールラインを通過するのにかかる時間など、単一の指標に基づいてのみ自分自身を評価できるため、さらに先に進むことが困難になります。

2年が経過した今回、レーシングAIは長期的な視点で戦略を立てること(急カーブを曲がる際の速度調整など)を学習しただけでなく、新しいマップへの適応性も大幅に向上しました。

その主な理由は、今回開発者が導入した新しい手法である強化学習にあります。

この方法の核となる概念は「報酬」であり、より多くの報酬をもたらす行動を選択することで、最終的な効果を継続的に最適化することです。

レーシング ゲームで AI をトレーニングする場合、yoshtm によって定義された報酬は非常に標準的です。つまり、速く走れば走るほど、より多くの報酬が得られ、間違った方向に進んだり、コースから外れたりするとペナルティが課せられます。

問題は、カーブに近づくときに加速するなどの一部のアクションは、短期的にはプラスの報酬につながるかもしれませんが、長期的にはマイナスの結果をもたらす可能性があることです。

そこでyoshtmはDeep Q Learningという手法を採用しました。

これは、環境のモデルを必要とせずに、特定の状態に対して利用可能なアクションの期待される効用を比較する、モデルフリーの強化学習手法です。

ディープQラーニングは、ディープネットワークパラメータの学習を通じて、Q値予測の精度を継続的に向上させます。言い換えれば、AIがレーシングゲーム内の各アクションの予想される累積報酬を予測できるようになり、「長期的な戦略的ビジョンを持つ」ようになります。

ランダムな出生点はAIの「偏り」を修正するのに役立つ

次に、正式なトレーニングが始まりました。

Yoshtm 氏の考えは、AI がまずランダムな探索を通じてできるだけ多くのマップ データを収集するというものです。彼はこれを動作探索と呼んでいます。

探索比率が高いほどランダム性が強くなります。比率が下がると、AIは上で設定した報酬を獲得すること、つまりマップを走ることに集中するようになります。

しかし、約3万回のトレーニングを経て探索率が5%に低下すると、AIは行き詰まってしまいました。

根本的な問題は、AI が「偏っている」ということだ。

初期段階で複数のカーブを走行した経験により、AIは過剰適合しました。長い直線コースなどの新しいコースタイプに直面したとき、車体は不安定で揺れ、最終的に「自殺」を選択しました。

この問題を解決するにはどうすればいいでしょうか?

Yoshtm はマップを作り直すことを選択せず​​、AI のスポーン ポイントを変更することを選択しました。

トレーニングを開始するたびに、AI の開始地点がマップ上のランダムな場所にランダムな速度と方向で生成されます。

「Crazy Furious」は多くのトレーニングを必要とするゲームであり、AIも同様です。

少なくとも、この AI が多数の初心者に勝てると確信しました。

この方法はすぐに効果を発揮し、AIはついにトラックを完成させることができました。

次のステップは継続的なトレーニングでした。最終的に開発者yoshtmがAIと競争し、今度はAIが6分20秒という最高の結果を達成しました。

まだ実際の人間が操縦する車ほど速くはありませんが、AIは会場への適応力が高く、芝生でも泥道でも経験からすぐに学習することができます。

ヨシュトムは最後にこう言った。

「Crazy Furious」は多くのトレーニングを必要とするゲームであり、AIも同様です。

少なくとも、この AI が多数の初心者に勝てると確信しました。

<<:  Adobe は GAN をステッチされたモンスターに変え、1024 解像度の全身ポートレートを空中から作り出した

>>:  Nvidia の新 GPU: 800 億個のトランジスタを搭載した 4nm プロセス、新しい Hopper アーキテクチャは驚異的

ブログ    
ブログ    

推薦する

...

新世代のAIがディープラーニングの問題を解決する

では、新世代の人工知能とは何でしょうか? 知能とは、学習する能力と問題を解決する能力です。学習は問題...

...

...

このアルゴリズムは顔認識の「マスク」問題を解決し、2日間で1,000人のコミュニティで97%の精度を達成しました | AIが疫病と戦う

ますます成熟する人工知能は、新型コロナウイルス感染症対策の最前線で「逆転者」と呼ばれる特別な集団とな...

エンジニアリングだけではありません!人間の認知バイアスが原因の AI 研究における 12 の盲点

[[255272]]ビッグデータダイジェスト制作編集者: ゴウ・シャオバイ、チャン・チウユエ、アイリ...

中秋節には月餅を食べます。今日はロボットがどのように月餅を作るかについてお話します。

最近、主要プラットフォームのホームページには、生地をこねる、餡を作る、型から外す、焼くまで、月餅を作...

ビル・ゲイツ氏:GPT-5はGPT-4よりそれほど良くはならない、生成AIは限界に達した

ビル・ゲイツ氏の暴露は機械学習コミュニティで話題となっている。 「GPT-5 は GPT-4 よりそ...

今回はホーキングの言うことを聞かなかった!人工知能が人間に取って代わる、これが科学が進む道だ

科学の分野では、人類の科学技術の発展のスピードは実に速く、人工知能と比較すると、すでに基本的に活用で...

...

40年前、袁龍平が田んぼで教えている姿はこんな感じです!ネットユーザーがAIを使って貴重な動画を復元し悲しみを表現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Python + 機械学習手法を使用した感情分析 (詳細な手順)

辞書マッチングの方法はないのでしょうか?なぜ複数の機械学習方法が必要なのでしょうか?辞書方式と機械学...

フォークス写真ツール:顔認識システムを密かに汚染

海外メディアの報道によると、インターネットには数十億枚の写真が溢れており、その多くは放置されたアカウ...

...