自動運転車のためのモデルベースのエンドツーエンドの深層強化学習戦略

実際の運転シナリオでは、観察と相互作用を通じて、インテリジェント運転車は知識を蓄積し、予測できない状況に対応することができます。私たちはこの世界を理解する方法を「従来の認知」と呼んでおり、これによってスマートカーは道を見つけることができるのです。周囲の環境にある物体を観察することで、自動運転車はルールを学習して従うことも可能になります。機械学習における同様の概念は、模倣学習と呼ばれる方法であり、これによりモデルは特定のタスクで人間がどのように行動するかを模倣することを学習できます。

Wayve は、CARLA ベースのシミュレーションデータを使用して世界モデルと車両運転戦略を学習し、高解像度の地図なしで自動車が自動運転を実現できるようにする、最先端のエンドツーエンドモデルをリリースした最初の企業です。その中で、モデルベース模倣学習（MILE）は、オフライントレーニング中に世界モデルと運転ポリシーを学習できる新しい機械学習モデル、より具体的には強化学習アーキテクチャとして提案されています。 MILE は「一般化推論アルゴリズム」を使用して、インテリジェント車両の将来の運転環境を合理的かつ視覚的に想像および予測し、この機能を使用して将来の行動を計画することができます。

01 はじめに

実際のプロセスで認識される情報の流れは通常不完全でノイズが多いため、AI大規模モデルのアプリケーション脳は「想像学習」を通じて不足している情報を補うことができます。これは、AIビッグモデルをベースにしたスマートカーが太陽光で目がくらんでも走行を継続できる理由も説明しています。たとえ短時間の視覚的観察が不可能な場合でも、次の状態や行動を確実に予測し、安全な運転行動を示すことができます。

同様に、モデルベースの運転行動学習 (MILE) は、環境のリアルタイムの視覚的観察に頼ることなく、完全に想像力豊かな予測に基づいた正確な運転計画を実行できます。実際、モデル内の想像上の計画を使用することで、MILE は、ラウンドアバウトを走行したり、一時停止標識を走行したり、バイクを避けるために急ハンドルを切ったりするなど、複雑な運転操作を実行できます。

定量的には、予測計画の精度は、フルサイクル設定で実行することによって測定されます。モデルが画像の観察を見ることができる観察モードと、モデルが次の状態とアクションを想像する必要がある想像モードを切り替えることは、太陽のまぶしさで一時的に目が見えなくなった運転手に似ています。

MILE は、自動運転のための動的エージェントと静的環境を使用して 3D ジオメトリを推論し、深度ボックス、カメラの内部特性、外部特性の定義済みグリッドとともに各画像特徴の深度確率分布を使用して、車で撮影した画像を 3D 空間に変換します。これらの 3D フィーチャボクセルは、定義済みのグリッド操作を使用して鳥瞰図に変換できます。最後のステップは、1 次元ベクトルにマッピングして、ワールドモデルに関する情報を圧縮することです。これもエンコーダー定義プロセスの一部です。

観察の次の部分では、StyleGAN アーキテクチャで発生するものと非常によく似たデコーダーを進化させます。エンコーダ出力、鳥瞰図、画像潜在ベクトルの異なる解像度に適用されるアップサンプリング方式です。さらに、デコーダーは車両制御も出力します。時間的モデリングでは、MILE はリカレントニューラルネットワークを使用して潜在状態のダイナミクスをモデル化し、前の潜在状態に基づいて次の潜在状態を予測します。

環境とその中で動作する動的エージェントの正確なモデルは、動作計画を改善する大きな可能性を提供します。 MILE モデルは、過去のコンテキストに基づいて潜在的な将来の状態を想像し、学習した運転ポリシーを使用してアクションを計画および予測するために使用できます。将来の状態もデコーダーによって視覚化および解釈できます。

本稿では、モデルベース模倣学習 (MILE) について紹介します。このモデルは、自律走行車の協調制御を学習し、世界の環境を動的にモデル化するために使用できます。

02 エンドツーエンドのモデル学習の概要

エンドツーエンドの学習プロセスでは、高次元の視覚観察のみに基づいて運転コマンドを予測することでパフォーマンスを向上させることができます。条件付き模倣学習は、シミュレートされた都市運転シナリオと実際の都市運転シナリオの両方に展開できるエンドツーエンドの運転ポリシーを学習するための効果的なアプローチです。それにもかかわらず、高次元の視覚的観察と専門家の軌跡からエンドツーエンドのポリシーを学習することは、依然として比較的困難です。純粋な模倣学習を超えてこれらの困難を克服しようとするアルゴリズムがいくつかあります。たとえば、展開中に発生する可能性のある軌跡に沿って対応するデータを収集する反復的なデータセット集約が提案されています。第二に、このモデルは BeV セマンティックセグメンテーションを使用して監視することもでき、学習者に専門家データの合成摂動をかけて、より堅牢な運転ポリシーを生成します。すべての車両からの学習 (LAV) は、自車両の動作だけでなく、シーン内の他のすべての車両の動作も学習できるため、サンプル効率が向上します。さらに、対応するエージェントを監視およびトレーニングするための強化学習コーチが構築されます。

1. 都市風景学習

運転には本質的に環境の幾何学的理解が必要であり、MILE はまず画像の特徴を 3D 空間に持ち上げ、それらを鳥瞰図 (BeV) 表現に集約することで、3D ジオメトリを重要な誘導バイアスとして活用します。世界の進化は、観察と専門家の行動からコンパクトな潜在状態を推測する潜在ダイナミクスモデルによってモデル化されます。学習された潜在状態は、車両制御を出力する運転ポリシーへの入力であり、視覚化や監視信号として BeV セグメントにデコードすることもできます。

3D 空間に昇格された対応する操作は、次のように詳細に説明できます。

逆固有関数 K−1 と予測深度を使用して、ピクセル画像空間内の特徴がカメラ座標の 3D ピンホールカメラモデルに精製されます。自車両の慣性中心を使用して、剛体運動 M が設定され、3D カメラ座標が 3D 車両座標に変換されます。

一致しないポイントを削除します。トレーニング中、事前確率は KL を介して事後分布と一致するようにトレーニングされますが、必ずしも堅牢な長期将来予測のために最適化されるわけではありません。変換モデルを繰り返し適用し、中間状態を統合することで、状態が最適化され、堅牢なマルチステップ予測が実現されます。ランダムロールアウトを監視するための事前の時間範囲（つまり、t + k の状態を予測する、ただし k ≥ 1）。より正確には、トレーニング中に、ランダムな状態 st が、事後分布ではなく事前分布から確率 pdrop でサンプリングされます。この現象を観測ドロップアウトと呼びます。 X が事前に k 倍に拡張されたランダム変数として表される場合、X は成功確率 (1 − pdrop) を持つ幾何分布に従います。事後分布は、2 つのガウス分布の混合としてモデル化され、そのうちの 1 つは事前分布から取得されます。トレーニング中、事後変数の一部はランダムに削除され、他の事後変数は入力画像から抽出された情報を最大化するように強制されます。ドロップアウトは、すべての事後変数をまとめて削除するため、z ドロップアウトのグローバルなバリエーションとして見ることができることに注意してください。

実際には、エージェントもその行動も環境に影響を与えないという仮定は、都市部の運転ではほとんど当てはまらないため、MILE により、自車両は他の運転エージェントをシミュレートし、自車両の行動に対してエージェントがどのように反応すべきかを計画できるようになります。 MILE モデルは、長期的な潜在的な状態とアクションに基づいて、妥当で多様な将来の状態を予測できます。ロータリーを抜けたり、バイクを避けるために急ハンドルを切ったりといった複雑な運転操作をうまく実行するために、想像の中で運転計画全体を予測することさえ可能です。

MILE は、リカレントニューラルネットワークを使用して時間をモデル化します。これにより、過去のすべての観測を要約した単一の状態を維持し、新しい観測が利用可能になったときに効率的に状態を更新できます。この設計上の決定は、ドライバーのパフォーマンスにほとんど影響を与えず、レイテンシの面での展開に重要な利点をもたらします。

推論中は、時間が再帰型ニューラルネットワークを使用してモデル化されるため、過去のすべての観測を要約した単一の状態を維持し、新しい観測が利用可能になったときにその状態を効率的に更新することが可能です。この設計上の決定は、ドライバーのパフォーマンスにほとんど影響を与えず、レイテンシの面での展開に重要な利点をもたらします。

2. 3Dシーン表現

自動運転計画を成功させるには、3D シーンを理解して推論する能力が必要ですが、単眼カメラでは難しい場合があります。一般的な解決策は、複数のカメラからの情報を、シーンの単一の鳥瞰図に圧縮することです。これは、特徴の深度分布を学習して各画像の認識精度を向上させ、すべての錐台を共通のラスタライズされた BeV グリッドに広げることで 3D で実現できます。別のアプローチでは、トランスフォーマー（時空間融合）を利用して、深度を明示的にモデル化せずに、画像から鳥瞰図への直接マッピングを学習します。

3. 世界モデル

モデルベースの方法は、主に強化学習のコンテキストで検討されます。これは実際には完全にオフラインの状態で強化学習を行うものであり、環境とのオンラインでのやり取りを通じて報酬が得られることを前提としています。モデルベースの模倣学習は、ロボット操作と OpenAI Gym における強化学習の代替として登場しました。これらの方法では報酬を得る必要はありませんが、良好なパフォーマンスを達成するには環境とのオンラインでのやり取りが必要です。

ビデオ予測では、まず画像観察から学習した世界モデルの潜在的なダイナミクスを活用し、さらに報酬関数をモデル化し、世界モデル内でポリシーを最適化します。もちろん、ここでのアルゴリズムは報酬関数へのアクセスを前提としていませんが、オフラインデータセットから学習戦略を直接吸収します。

さらに、これまでのアプローチは単純な視覚入力に基づいて動作します。対照的に、MILE は高解像度の入力観測から複雑な都市の運転シーンの根本的なダイナミクスを学習することができ、小さな詳細の優れた認識性能を保証します (例: 信号機の確実な認識)。

4. 軌道予測

軌道予測の目的は、過去の物理状態 (位置、速度など) とシーンのコンテキスト (オフライン HD マップなど) を使用して、動的エージェントの将来の軌道を推定することです。世界モデルは、自車両の動作に基づいて、感覚入力（カメラ画像など）の観察を説明する環境の潜在的表現を構築します。軌道予測方法は動的シーンのみをモデル化しますが、ワールドモデルは静的シーンと動的シーンを共同で推論します。モバイルエージェントの将来の軌道は、学習した世界モデルに暗黙的にエンコードされ、将来の軌道ラベルにアクセスできる場合は明示的にデコードできます。

これらのコードは、移動するターゲットの将来の軌道を予測できますが、自車両自体を制御することはできません。実際、軌道計画全体は、デモンストレーションから専門家の行動を単に学習するのではなく、予測の問題に重点を置いています。専門家のデモンストレーションから自車両エージェントの将来の軌道を推測し、特定の目標を条件とする新しいタスクを実行することで、モバイルエージェントと自車両の将来の軌道の共同シミュレーションも可能になります。ここで、軌道予測は主に、他の動的エージェントの動き、自車両エージェントの動作、および静的シーンを共同でシミュレートすることによって実行されます。地上の真実の物理状態 (位置、速度) またはシーンのコンテキストのオフライン HD マップにアクセスできないと想定します。つまり、そのような先験的な真実のシステムは存在しません。ここでは、カメラ検出方法のみを使用して、都市の運転環境における静的シーン、動的シーン、および自己動作をモデル化します。

03モデルベース学習法

MILE メソッドは、3D ジオメトリを誘導バイアスとして活用し、専門家のデモンストレーションの高解像度ビデオから直接、非常にコンパクトな潜在空間を学習します。 MILE は、起こりそうな未来を想像し、それに応じて行動を計画することができ、モデルが想像の中で車両を制御できるようになります。これは、モデルが世界の最新の観測情報にアクセスしなくても車両を正常に制御できることを意味します。

1. 確率的生成モデル

o1:T を、関連する専門家のアクション a1:T とグラウンドトゥルース BeV セマンティックセグメンテーションラベル y1:T を持つ T 個のビデオフレームのシーケンスとします。これらのアクションの進化は、時間的ダイナミクスを制御する潜在変数 s1:T を導入することによってシミュレートされます。

完全な確率モデルは次の式で与えられます。

変数h1 ∼δ(0)を決定論的履歴として導入することにより、初期分布がs1 ∼N (0, I)としてパラメータ化されていると仮定します。変換は、過去の履歴htと過去の状態stに依存する決定論的更新ht+1 = fθ(ht, st)と、確率的更新st+1 ∼N(μθ(ht+1, at), σθ(ht+1, at)I)で構成されます。ここで、stは対角共分散を持つ正規分布としてパラメータ化されます。これらの変換はニューラルネットワークを使用してモデル化されます。fθ はゲート付き再帰ユニットであり、(μθ、σθ) は多層パーセプトロンです。 δ はディラックのデルタ関数、gθ は画像デコーダー、lθ は BeV デコーダー、πθ は戦略です。

2. MILEモデル予測アーキテクチャ

MILE モデルの全体的な予測アーキテクチャを下図に示します。これには、観測ネットワークと推論ネットワークの 2 つの部分が含まれます。以下では、全体的なアーキテクチャの詳細な分析を行います。

全体的な推論フレームワークは、観測 o1:T、専門家のアクション a1:T、鳥瞰図ラベル y1:T を生成する潜在的なダイナミクス (h1:T、s1:T) を推論することを目的としています。潜在的なダイナミクスは、決定論的な履歴 ht と確率的状態 st で構成されます。

対応する推論モデルは、パラメータをφ、xt = eφ(ot)に設定して、ランダム状態q(st|o≤t, aφ(ht, at−1, xt),σφ(ht, at−1, xt)I)の事後分布を推定することです。 eφ は観測エンコーダーであり、画像の 2D 特徴を 3D 空間に持ち上げて鳥瞰図に集約し、1D ベクトルに圧縮することができます。

生成モデル推定は、主にパラメータがθ：p(st|ht−1, st−1)∼N (μθ(ht, aˆt−1),σθ(ht, aˆt−1) )I)という条件下で、時刻t-1におけるランダム状態の事前分布を推定します。ここでht = fθ(ht−1,st−1)は決定論的変換であり、aˆt−1 =πθ(ht−1,st−1)は予測される動作である。同時に、モデルは次の 3 つのモデルパラメータも推定します。

観測値の分布p(ot|ht, st)∼N(gθ(ht,st),I);
鳥瞰図セグメンテーション p(yt|ht, st) ∼Categorical(lθ(ht, st));
アクションp(at|ht, st) ∼Laplace(πθ(ht,st),1);を実行します。

最後に、推論時間ステップが設定されます。つまり、モデルは T = 2 時間ステップの入力を観察して、将来の複数のステップの潜在的な状態とアクションを推論します。

04 推論ネットワークフレームワーク

MILE は実際には、都市運転のためのモデルベースの模倣学習方法であり、オフラインの専門家のデモンストレーションのみから運転ポリシーと世界モデルを共同で学習します。 MILE は、高次元の視覚入力に基づいて幾何学的帰納的バイアスを活用し、多様で妥当な将来の状態と動作を予測し、完全に想像力によって予測された計画に従ってモデルを運転できるようにします。

未解決の問題は、世界モデルでの明示的な計画を容易にするために、専門家のデータから運転報酬関数をどのように推測するかということです。もう 1 つのアプローチは、鳥瞰図のセグメンテーションラベルへの依存を緩和するための自己監督です。自己監督により、現実世界の運転やその他のロボットタスクのための世界モデルの潜在能力を最大限に引き出すことができます。

下の図に示すように、MILE が完全に記述されています。グラフは、状態間の条件付き依存関係のグラフィカルモデルを表します。決定論的状態とランダム状態はそれぞれ四角と円で表され、観測された状態は灰色で表されます。生成モデルと推論モデルの両方のグラフィカルモデルには、モデルの各コンポーネントのパラメーターの数と、トレーニング中に使用されるすべてのハイパーパラメーターが表示されます。

推論ネットワークは φ によってパラメータ化され、入力画像、道路地図、車両制御センサーデータを低次元ベクトルに埋め込む観測エンコーダー eφ と、ガウス事後確率分布を推定する事後ネットワーク (μφ、σφ) の 2 つの要素で構成されます。 q(st|o≤t,a<t)をモデル化することで、近似的な真の事後確率p(st|o≤t,a<t)を計算できます。

トレーニングが収束すると、事前分布はエキスパートデータセット内のすべてのアクション状態遷移をモデル化できるようになります。画像および BeV デコーダーは StyleGAN に似たアーキテクチャを備えています。予測は学習された定数テンソルから始まり、最終的な解像度まで徐々にアップサンプリングされます。各解像度で、適応インスタンス正規化を介して潜在状態がネットワークに注入されます。そして、潜在状態がさまざまな解像度で予測を調整できるようにします。

従来のダイナミクスモデルに基づく学習を効果的に一般化するには、対応する観測エンコーダを設計する必要があります。

モデル全体の状態はコンパクトかつ低次元である必要があります。そのため、高解像度の入力画像を低次元ベクトルに埋め込む必要があります。画像分類タスクと同様に、画像を単純に 1 次元ベクトルにエンコードすると、パフォーマンスが低下する可能性があります。対照的に、モデル内で 3D ジオメトリを明示的にエンコードすると、バイアスを一般化できます。

この方法では、次の 3 つのステップに基づいて次元削減コーディングを実現できます。

1. 画像の特徴を3Dに強化する

自動運転は幾何学的な問題であるため、3D の静的シーンと動的エージェントに関する推論が必要です。そのため、まずは画像の特徴を3Dに強化する必要があります。より正確には、画像入力 ot ∈ R3×H×W は画像エンコーダを使用してエンコードされ、特徴 ut ∈ RCe×He×We が抽出されます。次に、各画像特徴の深度確率分布が、深度ビン dt∈RD×He×We の定義済みグリッドに沿って予測されます。深度確率分布、カメラの固有パラメータ K、および外部パラメータ M を使用して、カメラ座標系からワールド座標系への投影行列が生成され、画像の特徴を 3D 空間に持ち上げることができます: Lift(ut, dt, K−1, M)) ∈ RCe×D×He×De×3。

2. BeV空間における特徴セット

3D 特徴ボクセルは、空間範囲 Hb×Wb と空間解像度 bres を持つ定義済みグリッドを使用して BeV 空間に集約され、特徴 ID bt∈ RCe×Hb×Wb が生成されます。

従来のコンピュータービジョンタスク (セマンティックセグメンテーション、深度予測など) では、ボトルネックとなる特徴は通常、約 105 ～ 106 個の特徴を持つ空間テンソルです。このような高次元性は、事前分布（アクションを実行した場合に何が起こると考えられるか）と事後分布（画像入力を観察することによって実際に何が起こるか）を一致させる必要がある世界モデルにとっては、法外なものです。したがって、畳み込みバックボーンを使用すると、BeV特徴btを単一のベクトルxt∈RCに圧縮できます。同時に、BeV 空間での圧縮は、画像空間での直接圧縮よりも重要であることがわかりました。

3. ルートマップと速度環境目標予測モデリング

ターゲット予測ベンチマークネットワークは、道路地図の形式でインテリジェントエージェントに提供され、交差点でインテリジェントカーがどこを移動すべきかを示す軽量のグレースケール画像を生成します。同時に、ロードマップは畳み込みモジュールを使用してエンコードされ、1D 機能 rt が生成されます。現在の速度は、完全に接続されたレイヤーを使用して mt としてエンコードされます。各タイムステップ t で、観測埋め込み xt は、画像機能、ロードマップ機能、および速度機能の連結として表すことができると結論付けることができます。xt=[xt,rt,mt]∈RC、ここで C=512。

4. ネットワークθを生成する

ここでのネットワークデータ処理プロセス全体は、ネットワークパラメータθを生成することによって、潜在的なダイナミクス（h1:T、s1:T）および（o1:T、y1:T、a1:T）の生成プロセスをモデル化することです。これには、ゲート付き再帰ユニット fθ、事前ネットワーク (μθ、σθ)、画像デコーダー gθ、BeV デコーダー lθ、および戦略 πθ が含まれます。

事前ネットワークは、ガウス分布のパラメータをp(st|ht−1, st−1) ∼N (µθ(ht, aˆt−1),σθ(ht, aˆt−1)I)と推定します。ここで、ht = fθ(ht−1, st−1)、a^t−1=πθ(ht−1, st−1)です。時刻t-1における真のアクションat−1は事前にアクセスできないため、事後分布推定では推定に学習戦略a^t−1=πθ(ht−1, st−1)を使用します。

5. 発散損失の推定

実際、事前分布推定値と事後分布推定値の両方に一定の乖離損失があります。この損失の原因は次のように説明できます。

過去の状態（ht−1、st−1）が与えられた場合、次の状態stの分布を予測することが目標です。アクティブエージェントをモデル化する場合、この遷移は (i) アクション予測と (ii) 次の状態予測に分解されます。この転送推定値は、at−1（グラウンドトゥルースアクションにアクセスできる場所）とot（画像観測）上の事後分布と比較されます。事前分布が事後分布と一致しようとするダイバージェンスマッチングフレームワークにより、モデル予測が観測されたデータの動作と将来の状態の両方を説明することが保証されます。事後分布と事前分布の差は、事後分布を観察するときに事前分布からどれだけの情報が失われるかを測定します。この情報損失は、ここでは発散損失と呼ばれます。

6. 将来の状態と行動の予測

前述したように、この記事で紹介したモデルは、学習した事前戦略を使用して将来の潜在的な状態を推測し、次の決定論的状態 hT+i+1=fθ(hT+i,sT+i) を予測することで、時刻 T+i でのアクションを推測できます。同時に、事前分布sT+i+1∼N（µθ（hT+i+1、a^T+i）、σθ（hT+i+1、a^T+i）I）から、i≥0に対してプロセスが反復され、その結果が潜在空間で生成されたより長い将来のシーケンスに適用され、予測された将来のシーケンスがデコーダーによって視覚化されます。

運転中はいつでも、複数の有効な動作が考えられます。たとえば、ドライバーは速度をわずかに調整したり、車線を変更したり、車両の後ろを走行する際の安全な距離を決定したりできます。決定論的な運転ポリシーでは、これらの微妙な違いをシミュレートすることはできません。複数の選択肢が考えられる曖昧な状況では、多くの場合、平均的な動作を学習します。これは、場合によっては効率的ですが (たとえば、平均安全距離と平均巡航速度は合理的な選択です)、他の場合には安全ではありません (たとえば、車線変更時: より洗練されたアプローチは、車線を早めにまたは遅く変更することですが、平均的な動作は車線標示に沿って運転することです)。

将来の状態全体の状態とアクションのクローズドループドライブにおける完全な循環推論には、次の 2 つのステップが含まれます。

(i) 状態のリセット: 新しい観測ごとに潜在状態を再初期化し、新しい状態[hT、sT]を再計算します。ここで、Tはトレーニングシーケンスの長さと一致します。

(ii) 完全再帰型：潜在状態推定値は評価の開始時に初期化され、新しい観測値で再帰的に更新されます。

モデルは、トレーニング中に使用される T よりも数桁多い情報統合ステップに一般化する表現を学習する必要があります。実践により、MILE は Imagine モードで最大 30% の駆動力削減で同じ運転性能を維持できることが証明されています。このモデルは、十分に正確な閉ループ運転計画を想像することができます。さらに、世界モデルの潜在状態は、観察モードと想像モード間でシームレスに切り替えることができます。基礎となる状態の進化は、観察が不可能な場合には想像を通じて予測することができ、観察が可能な場合には画像観察を通じて更新することができます。

05 結論

MILE は、環境とのオンラインのやり取りなしに、都市部の運転データのオフラインコーパスでトレーニングされます。このフレームワークの制限の 1 つは、熟練したドライバーのデータから推測されるのではなく、手動で調整された報酬関数です。 2 番目の重要な潜在的な問題は、将来の状態を予測するために鳥瞰図の画像セグメンテーションに大きく依存していることです。 3 番目の潜在的な改善点は、さまざまなシナリオにわたるモデルの一般化です。このモデルは、多様で妥当な状態とアクションを予測し、鳥瞰図によるセマンティックセグメンテーションに解釈可能にデコードできます。さらに、MILE は完全に想像で予測された計画に基づいて複雑な運転操作を実行することができます。したがって、全体として、MILE モデル予測は、都市の運転環境における静的シーン、動的シーン、およびインテリジェントな運転車両の動作をモデル化できます。

<<:

>>: GPT-4 脳を解読する 0 コード!海外のネットユーザーがLLMのガードレールを突破し、AIに段階的に爆弾を作らせる