このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

レーシングゲームをプレイする AI は、スピードと楽しさだけを追求するものではありません。

彼らは戦術的な計画について考え始め、独自の運転スタイルや特技を開発しました。

たとえば、ターンだけが得意なこの「部分的な」プレーヤーは、急カーブに直面したときには激しくパンチし、危険なドリフトをしますが、直線に直面したときには臆病になり、動揺してしまいます。

長期的なビジョンを持ち、戦術的な計画を学習した AI もあります。レース中のこの 2 台のグリーンの車は、カーブで減速しているように見えますが、急カーブをスムーズに通過し、直接の GG 結果を回避しています。

また、地図がどれだけ新しいものであっても、推論を導き出して旅全体を完了できる AI もあります。

彼は本当にレーストラックで考えることを学んだようだ。

(前述のように、ある科目が苦手だった選手も、不断の努力で復活を遂げた)

この訓練の結果が発表されると、多くのネットユーザーが注目した。

強化学習により、AIは「長期的に考える」ことを学ぶことができる

トレーニング トラックは、カスタマイズ性に優れたトラック エディターでプレイヤー コミュニティの間で有名な Trackmania というゲームから取得されています。

レーシング AI の可能性をさらに刺激するために、開発者は紆余曲折のある悪魔的なマップを作成しました。

開発者はyoshtmと呼ばれ、以前にも AI を使用してこのゲームをプレイしたことがあり、激しい議論を巻き起こしました。

当初、YoshTM は 2 つの隠れ層を持つ教師あり学習モデルを使用していました。

モデルには、車の現在の速度、加速度、道路セクションの位置など、16 個の入力が含まれています。入力パラメータはニューラル ネットワークによって分析され、最終的に 6 つのアクションのうちの 1 つが出力されます。

このモデル アーキテクチャに基づいて、開発者は複数の AI が同じマップ上で競争できるようにします。

複数回の反復を通じて、さまざまな AI のニューラル ネットワークに微妙な違いが現れ、最終的には最も優れた AI が際立つようになります。

この方法では AI が運転を学習できるようになりますが、次のような問題も発生します。

AI は多くの場合、速度やゴールラインを通過するのにかかる時間など、単一の指標に基づいてのみ自分自身を評価できるため、さらに先に進むことが困難になります。

2年が経過した今回、レーシングAIは長期的な視点で戦略を立てること(急カーブを曲がる際の速度調整など)を学習しただけでなく、新しいマップへの適応性も大幅に向上しました。

その主な理由は、今回開発者が導入した新しい手法である強化学習にあります。

この方法の核となる概念は「報酬」であり、より多くの報酬をもたらす行動を選択することで、最終的な効果を継続的に最適化することです。

レーシング ゲームで AI をトレーニングする場合、yoshtm によって定義された報酬は非常に標準的です。つまり、速く走れば走るほど、より多くの報酬が得られ、間違った方向に進んだり、コースから外れたりするとペナルティが課せられます。

問題は、カーブに近づくときに加速するなどの一部のアクションは、短期的にはプラスの報酬につながるかもしれませんが、長期的にはマイナスの結果をもたらす可能性があることです。

そこでyoshtmはDeep Q Learningという手法を採用しました。

これは、環境のモデルを必要とせずに、特定の状態に対して利用可能なアクションの期待される効用を比較する、モデルフリーの強化学習手法です。

ディープQラーニングは、ディープネットワークパラメータの学習を通じて、Q値予測の精度を継続的に向上させます。言い換えれば、AIがレーシングゲーム内の各アクションの予想される累積報酬を予測できるようになり、「長期的な戦略的ビジョンを持つ」ようになります。

ランダムな出生点はAIの「偏り」を修正するのに役立つ

次に、正式なトレーニングが始まりました。

Yoshtm 氏の考えは、AI がまずランダムな探索を通じてできるだけ多くのマップ データを収集するというものです。彼はこれを動作探索と呼んでいます。

探索比率が高いほどランダム性が強くなります。比率が下がると、AIは上で設定した報酬を獲得すること、つまりマップを走ることに集中するようになります。

しかし、約3万回のトレーニングを経て探索率が5%に低下すると、AIは行き詰まってしまいました。

根本的な問題は、AI が「偏っている」ということだ。

初期段階で複数のカーブを走行した経験により、AIは過剰適合しました。長い直線コースなどの新しいコースタイプに直面したとき、車体は不安定で揺れ、最終的に「自殺」を選択しました。

この問題を解決するにはどうすればいいでしょうか?

Yoshtm はマップを作り直すことを選択せず​​、AI のスポーン ポイントを変更することを選択しました。

トレーニングを開始するたびに、AI の開始地点がマップ上のランダムな場所にランダムな速度と方向で生成されます。

「Crazy Furious」は多くのトレーニングを必要とするゲームであり、AIも同様です。

少なくとも、この AI が多数の初心者に勝てると確信しました。

この方法はすぐに効果を発揮し、AIはついにトラックを完成させることができました。

次のステップは継続的なトレーニングでした。最終的に開発者yoshtmがAIと競争し、今度はAIが6分20秒という最高の結果を達成しました。

まだ実際の人間が操縦する車ほど速くはありませんが、AIは会場への適応力が高く、芝生でも泥道でも経験からすぐに学習することができます。

ヨシュトムは最後にこう言った。

「Crazy Furious」は多くのトレーニングを必要とするゲームであり、AIも同様です。

少なくとも、この AI が多数の初心者に勝てると確信しました。

<<:  Adobe は GAN をステッチされたモンスターに変え、1024 解像度の全身ポートレートを空中から作り出した

>>:  Nvidia の新 GPU: 800 億個のトランジスタを搭載した 4nm プロセス、新しい Hopper アーキテクチャは驚異的

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ソフトウェア開発者ガイド: 独自のデータで ChatGPT をトレーニングする

翻訳者 | 李睿レビュー | Chonglou制作:51CTO テクノロジースタック(WeChat ...

...

...

人工知能チップの過去、現在、そして未来

AIは現在ニュースでよく取り上げられています。現在、AIは医療診断、新しい化学物質の合成、群衆の中に...

...

人工知能はこれら12の分野に混乱をもたらし、ホワイトカラー労働者も職を失うことになるだろう

[[192649]]人工知能 (AI) は、今日最もエキサイティングで将来有望な最先端技術の 1 つ...

ベイジアンパーソナライズランキングアルゴリズムを1つの記事で理解する

[[260485]] [51CTO.com からのオリジナル記事] 哲学にさまざまな流派があるように...

オイラー誕生!中国初の産業グレードのグラフディープラーニングオープンソースフレームワーク

[[255980]]ついに待望の登場です! Alibaba は、主要なオープンソース プロジェクトで...

...

神々の中年の戦いが始まった。どの国内大型モデルが華山の頂上を勝ち取ることができるのか?

2023年も半ばを過ぎた現在、ビッグモデルは爆発後のメタバースのように冷めることなく、ますます活発...

OpenAI の共同創設者 Karpathy が記事「自動運転による AGI の解釈」を公開しました。元の投稿は削除されました。保存済み

「汎用人工知能」に関しては、OpenAIの科学者カルパシー氏が説明を行った。数日前、Karpathy...

...

1つのGPUで数千の環境と800万ステップのシミュレーションをわずか3秒で実行。スタンフォード大学が強力なゲームエンジンを開発

この段階では、AI エージェントは万能であるように見え、ゲームをプレイしたり、人間を模倣してさまざま...

...