AIレーシングドライバーが人間を破り自然の頂点に！ 1,000台のPS4のトレーニング、トラックを支配するための極端な追い越し

近年、さまざまなゲームで高性能なAIが人間に勝利するというニュースが頻繁に登場しています。

初期のチェスやクイズの大会であれ、近年の囲碁、StarCraft、Dota 2 であれ。

AIプレイヤーの前で、人間のプロプレイヤーは涙が出るほど打ち負かされました。

今日、AI レーシングドライバーが再び人間のプレイヤーに勝利し、ネイチャー誌の表紙を飾りました!

ソニーの独自AI「GT Sophy」は、上記のリストにeスポーツゲームを追加しました。日本や他の国のトップeスポーツ選手であっても、GTレースではソニーがPS4コンソール1,000台を使用してトレーニングしたAIに勝つことはできません。

GT Sophy、または愛称で「Sophie」と呼ばれるこの製品は、ソニーの社内 AI 部門、PDI スタジオ、インタラクティブエンターテイメント子会社による共同研究開発プロジェクトで、5 年以上を要しました。

AI部門はディープラーニングアルゴリズムを提供し、モデルのトレーニングを担当しています。PDI Studioが制作したゲームはAIのトレーニングと検証の環境として機能し、インタラクティブエンターテインメント企業のクラウドコンピューティングアーキテクチャは、大規模なトレーニングアーキテクチャとプラットフォームとして何千台ものPS4コンソールを直列に接続しています。

ニューラルネットワーク駆動型プログラムである GT Sophy は、レースのルールに準拠しながら、並外れたスピード、ハンドリング、運転戦術を発揮します。

「この直接対決でAIドライバーが人間のプレイヤーを非常に巧みに上回ったという事実は、人工知能における画期的な成果を表している」とスタンフォード大学のクリスチャン・ガーデス教授はネイチャー誌の記事に記した。

ドラゴントレイルの「ワイルド・スピード」

これの何がすごいんですか？ ? ?

実際、自動車レースの目的は単純です。より短い時間で競争相手を追い抜くことができれば、勝利です。

「ワイルド・スピード」のハードコアな衝突は人々の血を沸騰させるが、実際のアリーナでの究極の対決には本物の戦術が必要だ。

ソニーPDIスタジオが東京に会場を提供し、グランツーリスモの世界トップクラスのeスポーツプレイヤーを招待し、「GTソフィー」とそのバリエーションで競い合いました。

コンテスト抜粋

GTソフィーと人間のプレイヤーとの初めての対戦では、ドラゴントレイルでスリリングな決闘が繰り広げられました。

滑走路全体の長さは 5,209 メートルで、S1、S2、S3 の 3 つのセクションと 17 のカーブに分かれています。

レースのスタート位置はAIと実在の人間が交互に並び、ドライバーは合計8人になります。

しかし、レース開始時には、GTソフィーの人工知能バージョンである「ヴィオレット」が人間のドライバーを上回り、2位となった。

AIチームメイトのボルドーが1位を維持した。

T2/3ターン目に、AIプレイヤーのヴェルテが人間プレイヤーの山中千恵を抜いて突進した。

ゲームの途中で、1位と2位だったSophy AIは、何の障害もなく最適なルートを選択しました。

レースは最後のゾーンS3に到達し、レーサーは大きなカーブT17を回ってフィニッシュラインに急いで向かう必要があります。

大会の結果、レーシングドライバー上位3名のうち、GTソフィーが2席を占め、人間ドライバーの國府龍太のみが上位3名に入った。

國府亮太選手は常に冷静沈着なレーシングドライバーです。2019年には国際自動車連盟スポーツカー選手権東京ネイションズカップ第5戦で優勝し、2020年FIA GT選手権ネイションズカップでは3位に輝きました。

実際、予選ラウンドからこの結果に関するいくつかの手がかりを見ることができます。

画面右側の AI プレイヤーは、旋回時に安定しているだけでなく、人間のプレイヤーよりも大幅に優れたルートを選択しています。

ゲームのマジョーレ湖コースでの別のレースでは、4 台の AI が 4 人の人間の対戦相手を破りました。

大会で最も優秀なAI「GTロジャー」は、大会の3つのスコアリングラップすべてで1位となり、最速の人間プレイヤーに5秒以上の差をつけました。しかし、マッジョーレ湖サーキットではAIドライバーもミスを犯し、旋回時にアンダーステアとなり壁に激突した。

2021年7月の実験では、GT Sophyは他の車がいない仮想の空のトラック上でのみ、人間のプレイヤーを上回る純粋なレース結果を達成できました。 2021年10月までに、実際のゲームレースセッションで人間の対戦相手のグループに勝つことができるようになります。

2020年のGTワールドカップのスター選手である宮園拓真は、「AIがどのように運転するかは想像もつきません」と語った。しかし、彼はまた、「GTソフィー」の戦術的判断が有用であることを認めた。

宮園拓真はAIに敗れ不満げな表情

ご覧のとおり、レースはスピードと反応時間だけの問題ではありません。レーシングカーの運転は人間の究極の戦略にとって非常に難しいため、機械がそれをマスターするのは簡単ではありません。

Natureの記事が指摘しているように、この目標を達成するには、極めて複雑な身体的課題を克服する必要がある。トラックでのレースでは、タイヤと地面の間の「限られた摩擦」を慎重に利用する必要があるからだ。

たとえば、摩擦を利用してブレーキをかけると、コーナーを曲がるときに必要な力が軽減されます。

より具体的には、地面に接する各タイヤは、垂直方向の力に比例する摩擦力、つまり負荷を生成します。車が加速すると、荷重が後輪に移り、前輪の摩擦が減少します。

これによりアンダーステアが発生する可能性があります。その場合、ステアリングホイールは追加のコーナリング力を生成できず、コーナーを出るときに事実上のハンドブレーキモードのままになります。

逆に、車がブレーキをかけると、荷重は車の前部に移動します。これによりオーバーステアが発生し、後輪のトラクションが失われ、車が激しく回転することになります。

これに複雑なコースの地形と、車両のサスペンションへの荷重伝達を調整する複雑さが加わり、レースの難しさが明らかになります。

レースに勝つためには、ドライバーは車をできるだけ摩擦限界に近づける軌道を選択する必要があります。

曲がるときにブレーキを踏みすぎると、車が減速し、時間を無駄にしてしまいます。ブレーキをかけるのが遅すぎると、希望するレーシングラインを維持するのに十分なコーナリング力が得られません。さらに、ブレーキを強くかけすぎると車両がスピンする可能性があります。

レースカーのハンドリング限界は複雑ですが、物理学によって十分に説明できます。したがって、それらを計算したり学習したりできるのは当然です。

直接対決のレースでは、ラップタイムの優位性を利用して対戦相手を倒すのではなく、GT Sophy は最後に簡単にライバルを追い抜きました。

たとえば、最初のレースの最後のスプリントでは、2 人の人間のレーサーが 2 人の AI レーサーの進路を妨害しようとしました。

しかし、GTソフィーは2つの異なるルートをうまく見つけ出し、ついに人間のプレイヤーを追い抜いてゴールラインまで駆け抜けました。

ニューラルネットワークモデルでトレーニングされた後、GT Sophy はさまざまな状況でコーナーを通過する際にさまざまなルートを取ることを学習しました。

それで、この AI 超人レーシングドライバーはどのようにして誕生したのでしょうか?

AIレーシングドライバーを作成するには？

固定されたルールとゲームプレイを持つ他のゲームとは異なり、GT レーシングゲームではプレイヤーの戦術オプションが非常にオープンです。さらに、GT レーシングゲームの特徴は、現実世界の物理法則をより正確にシミュレートすることです。

そのため、仮想世界と現実世界の両方の難しさを持つ GT レーシングゲームで AI がうまくプレイするのは簡単ではありません。

まず、トレーニング環境として超リアルなシミュレーターが必要です。

グランツーリスモ® スポーツ（GT スポーツ）は、FIA（国際自動車連盟）と共同でポリフォニーデジタルが設計・制作した PlayStation 4 用のドライビングシミュレーターです。

GT Sport には明確なルールと審査基準があり、「チーター」を必要とせずに公正な競争環境を確保できます。（ドージェ）

さらに、GT スポーツは、車両、コース、さらには空気抵抗やタイヤの摩擦などの物理現象まで、現実世界のレース環境を可能な限りリアルに再現します。

自動車メーカーの指導に従い、車体の曲線からボディパネルの隙間の幅、方向指示器やヘッドライトの形状に至るまで、車の細部まで正確に再現されています。

ゲーム環境の準備ができたら、トレーニング環境を構成する必要があります。

DART は、ソニー AI がこの目的のためにカスタマイズしたネットワークアーキテクチャであり、研究者はインタラクティブエンターテイメント企業のクラウドコンピューティングゲームプラットフォームを使用して 1,000 台の PS4 ゲームコンソールを接続し、GT Sophy を長期間にわたってトレーニングすることができます。

何千台ものPS4が並ぶ、ゲームオタクの贅沢な夢

このようなアーキテクチャでは、異なるリモートデータセンター間のすべてのコンピューティングリソースが効果的に統合されます。研究者は、実験パラメータを簡単に定義し、クラウドリソースが利用可能なときに実験が自動的に実行されるように設定し、ブラウザーで表示できるデータを収集できます。

研究者たちはこのプラットフォームを使用して何百ものシミュレーション実験をスムーズに実行し、AI のスキルと戦術をこれまで達成できなかったレベルまで引き上げました。

最後にAIドライバーGTソフィーのトレーニングです。

ゲームで人間を打ち負かした先駆的な AI と同様に、GT Sophy も、ゲームの動作を複雑で大規模な動作ルールデータセットに最初に手動でエンコードする必要がないように、トレーニングに深層強化学習を使用します。

エージェント GT Sophy がトレーニング環境でアクションを実行すると、アルゴリズムは結果に基づいて報酬またはペナルティを与えます。報酬（または罰）を受け取った後、GT Sophy は世界についての理解を更新し、次の行動を決定します。

ソニーのAI研究者とエンジニアは、ルールと物理的制限の範囲内でAIが行ったさまざまな高速運転の決定の合理的な結果を分析するための新しいトレーニングアルゴリズムであるQR-SACを含む革新的な強化学習技術を開発しました。エージェントが理解できるレースのルールをエンコードし、微妙なレーススキルを促進するトレーニング計画を取得します。

強化学習では、AI レーサーは自分の行動の長期的な結果を考慮する必要があり、学習プロセス中に独自のデータを独立して収集できるため、手動でコーディングされた複雑な行動ルールの必要性がなくなります。

もちろん、グランツーリスモのような複雑な分野に取り組むには、同様に複雑で微妙なアルゴリズム、報酬、トレーニングシナリオが必要です。

訓練の後半段階では、研究者らはさまざまな数の対戦相手を追加し、GTソフィーが人間のドライバーと競争できるように訓練した。

結果から判断すると、ソニーが開発したアルゴリズムは非常に効果的です。

わずか数時間のトレーニングの後、GT Sophy はトラックに出ることが可能になり、「1 日か 2 日以内」にトレーニングデータセット内のドライバーの 95% よりも速くなりました。

もちろん、95% ではまだ十分ではありません。

さらに約45,000時間のトレーニングを経て、GTソフィーはついにクロアチアのドラゴントラック、イタリアのマッジョーレ湖グランプリサーキット、フランスのサーキット・ド・ラ・サルテの3つのサーキットで人間のドライバーに完全に勝利した。

しかし、人間との競争において、AI には完璧な記憶力や素早い反応時間など、多くの生来の利点があります。

特に、GT Sophy には、トラック境界の座標が記された正確なトラックマップのほか、「各タイヤにかかる負荷、各タイヤのスリップ角、その他の車両状態に関する正確な情報」が搭載されています。

ただし、アクションの頻度と反応時間という他の 2 つの要素を制限することは可能です。

GT Sophy の入力信号は 10 Hz に制限されていますが、人間の理論上の最大入力信号は 60 Hz であり、これにより人間のドライバーは高速で「よりスムーズな動き」を示すことができる場合があります。

反応時間に関して言えば、GT Sophy は競技環境における出来事に 23 ～ 30 ミリ秒以内に反応することができ、これはプロのアスリートの推定最高反応時間である 200 ～ 250 ミリ秒よりも大幅に速いです。この欠点を補うために、研究者たちは人工的な遅延を追加し、GT Sophy が 100 ミリ秒、200 ミリ秒、250 ミリ秒で反応するように訓練しました。

それでも、GT ソフィーは「3つのテストすべてで超人的なラップタイム」を達成した。

ソニーのAI事業部門の責任者は、傲慢さや卑屈さのない文明的なゲームをプレイするようにAIに教えるのは非常に難しいと認めた。また、攻撃的すぎず慎重すぎない相手と対峙したときに戦術的な決定を下すのも大きな課題だ。

まず、AI は、ゲーム環境における仮想レーシングカーの位置、仮想空力モデル、トラックグラフィックス、基本的な運転動作を理解した上で運転を学習する必要があります。次に、スリップストリーム障害物、割り込みによる追い越し、さまざまなブロッキング位置など、さまざまな GT レーシングゲーム戦術を学習する必要があります。最後に、AI は、悪意のあるファウル衝突の回避、対戦相手の車線の安全性の尊重など、必要なトラックエチケットルールを学習する必要があります。

車のコントロール

QR-SAC アルゴリズムは、GT Sophy の高速アクションのさまざまな可能な結果について明示的に推論できます。運転行動の結果とそれに伴う不確実性を考慮することで、GT Sophie は物理限界でターンし、さまざまな種類の対戦相手とレースをする際に複雑な可能性を考慮することができます。

レース戦術

混合シナリオトレーニングを組み込み、各トラックで重要になる可能性が高い人工的に作成されたレース状況と、エージェントがこれらのスキルを習得するのに役立つ特殊な対戦相手を使用します。

これらのスキル構築プログラムにより、GT Sophy は、混雑したスタートへの対応、カタパルトによる追い越しによるスリップストリームの障害物の回避、防御的な動きなど、プロのレース技術を習得することができました。

レースのエチケット

GT ソフィーがトラックエチケットを学習できるように、ソニーの AI 研究者は、レースの明文化されたルールと暗黙のルールを複雑な報酬関数にエンコードする方法を見つけました。

また、チームは、GT Sophy がトレーニングマッチで適切なレベルの競争力を発揮しつつ、人間と対戦する際に攻撃的になりすぎたり臆病になりすぎたりしないように、対戦相手の数のバランスを取る必要があることもわかりました。

<<: 個人情報保護における人工知能データの役割

>>: 機械学習が自動車産業を次のレベルに引き上げる方法

AIレーシングドライバーが人間を破り自然の頂点に！ 1,000台のPS4のトレーニング、トラックを支配するための極端な追い越し

ドラゴントレイルの「ワイルド・スピード」

AIレーシングドライバーを作成するには？

人工知能は寒い冬を迎え、自動運転車の開発は妨げられている

Antの信用リスク管理の実践

言語学からディープラーニングNLPまで、自然言語処理の概要

コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキストバージョンが登場しますか?

2020年の中国の人工知能産業の現在の市場状況と競争環境の分析

クラウドコンピューティング、ビッグデータ、AI の関係と違いを 1 つの記事で理解する

Apache Flink トークシリーズ - PyFlink のコアテクノロジーを公開

これらの6つのヒントを活用してAIガバナンスの問題を解決しましょう

マシンビジョンは人工知能の次のフロンティアとなる

推薦する

2019年の人工知能の給与水準、給与水準分析チャート、わかりやすい

顔認識技術の現状と今後の開発動向

人工知能は視覚障害者にさらなる利便性をもたらす

悲劇！ウーバー、自動運転車が人をはねて死亡させたため全テストを中止

データの筒状のビジョンを避け、人間と機械の調和のとれた共生関係を築く

人工知能は今後10年間で世界の成長を12%押し上げるだろう

システムアーキテクト、アルゴリズムエンジニア、人工知能エンジニアはどの程度の数学を学ぶ必要がありますか?

Python 補間アルゴリズムの完全な説明

凌創志新は、AI商業化の閉ループを作成するための最初のデータアノテーションビジネスを立ち上げました

模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

世界の主要なテクノロジー企業は新型コロナウイルスとどう戦っているのか？

OpenAIは、開発者がAIモデルを使用してソフトウェアをより速く、より安価に開発できるようにするためのメジャーアップデートを開始すると報じられている。

五菱科技は、知能絵本ロボット「ルカヒーロー」と「ルカベイビー」を発売し、シリーズA資金調達を獲得した。