最初の壮大な統合事前トレーニング済みモデル！ BEVGPT: 予測、意思決定、動作計画を統合します。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

著者の個人的な理解

BEVGPT は、予測、意思決定、動作計画を統合した、初めての生成型、自己教師型の事前トレーニング済み大規模モデルです。 BEV 画像を入力し、自車の軌跡を出力し、運転シナリオの予測を出力できます。このソリューションでは、トレーニングに高精度のマップが必要です。

GPT と呼ばれる理由は、GPT スタイルの自己回帰トレーニング方法を使用するためです。自己回帰の入力は過去の軌跡と BEV であり、ターゲットは次の BEV と軌跡です。

一方、生成することもできます。つまり、BEV の初期フレームが与えられると、アルゴリズムは自動的に次のマルチフレーム BEV シーンを生成することができます。

この方法は、センサー入力に基づくエンドツーエンドの方法ではなく、知覚の結果に基づくモデルと見ることができます。後続のモジュールはモデルでモデル化されます。また、実践においても重要な応用価値を持っています。たとえば、大量の運転フィードバックデータの知覚結果と軌跡の真理値に基づいて、運転エキスパートモデルをトレーニングできます。

質問と感想

因果的トランスフォーマーのトレーニングに関する部分はあまり詳細ではないようです。トランスフォーマーに入る前に BEV 画像と BEV 軌跡がどのようにエンコードまたはトークン化されるのか具体的には述べられていません。
BEV 予測ヘッド構造はどのようになっているのでしょうか?
軌道ヘッドの構造はどのようになっていますか?
トレーニングには高精度マップが必要です。高精度マップを削除するにはどうすればよいでしょうか? ここでの高精度マップの役割は、動的な障害物情報とともに現在の BEV シーンを形成することです。
高精度の地図を使わず、障害物情報のみをトレーニングに使用した場合、つまりBEVイメージに障害物情報のみが含まれている場合、効果はどうなるでしょうか？（人々は依然として車線や縁石のない田舎道を運転するでしょう）。個人的には、この実験を行うべきだと思います。
自動運転のシナリオは連続したシーケンスと見なすことができます。GPT などの言語モデルを使用すると、一定の利点がある可能性があります。ただし、入力はまだ言語ほど単純で意味的ではありません。これが次の検討の焦点になるかもしれません。考えられる 1 つの試みは、ここでの BEV 画像を BEV 機能 (BEVformer または LSS によって取得された BEV 機能など) に置き換えることです。効果は何でしょうか?

BEVGPT は具体的に何をするのでしょうか?

予測、意思決定、動作計画は、自動運転のモジュール設計において重要な役割を果たします。多くのタスクでは、これらのモジュールは共有バックボーンを介して異なるヘッドを使用してマルチタスク方式で学習します。

著者は、これらのモジュールを包括的なフレームワークに統合する必要があると考えています。これを実行する研究はいくつかありますが、既存の方法には、複雑な入力表現やネットワークフレームワークの冗長設計など、いくつかの問題があります。さらに重要なことは、既存の研究では運転シナリオの長期予測ができないことです。

これらの問題に対処するため、著者らは各モジュールの必要性を再考し、運転シーンの予測、意思決定、動作計画を統合した自己教師型の事前トレーニング済み大規模モデルである BEVGPT と呼ばれる、可能な限り小さなフレームワークを設計しました。

BEVGPTはBEV画像を入力し、周囲の交通状況に基づいて判断を行います。運転軌道の実現可能性と滑らかさを確保するために、著者らは最適化に基づく動作計画法を設計した。

BEVGPT は複数のデータセットで有効性と堅牢性を実証しています。さらに、BEVGPT は長期的な BEV 画像を正確に生成することができ、それが運転シナリオの予測に反映されます。

BEVGPT の紹介

自動運転車は、予測、意思決定、計画の技術を統合したインテリジェントシステムです。広く受け入れられている解決策は、これらのタスクを異なるモジュールに分割し、各モジュールのタスク固有のモデルを設計および開発することです。

この方式では、まず環境情報に基づいて周囲の交通参加者の将来の軌道を予測します。交通参加者の予測される行動と地図情報を使用して、運転上の決定を下し、車両の将来の軌道を計画します。ただし、このモジュール方式では、システムは異なるモジュール間の累積エラーの影響を受けやすくなります。

もう 1 つの代替パラダイムは、共有バックボーンを使用して特徴抽出を行うが、それぞれに独立したタスクヘッドがあるマルチタスク学習です。このアプローチはモデルのサイズと複雑さを軽減し、計算オーバーヘッドを減らして計算を高速化しますが、無関係なタスクと情報を共有するとモデルのパフォーマンスが低下する可能性があるため、悪影響が生じる可能性があります。

代わりに、著者らは、自動運転のさまざまなモジュールを包括的なフレームワークに統合する必要があると主張している。最近の研究では、トップダウン車両ビュー (BEV) の視点が自動運転システムに大きな可能性を秘めていることが示されています。 BEV は、周囲の交通状況を正確に表す視覚中心の認識を提供します。しかし、既存の BEV 生成方法では複雑な入力表現が必要になります。さらに、これらの方法には長期的なモデル化能力が欠けており、将来の BEV の予測は信頼できません。

著者らは、予測、意思決定、および動作計画を、BEV 画像を入力として単一の生成的事前トレーニング済み GPT に統合する、BEVGPT と呼ばれる包括的なフレームワークを提案しています。

図に示すように、

フレームワーク全体では 2 段階のトレーニングプロセスが採用されています。まず、大量の自動運転データを使用してカジュアルトランスフォーマーをトレーニングします。その後、現実的なシミュレータを使用したオンライン学習によってモデルが微調整されます。事前トレーニング段階の目標は、運転シナリオの予測と意思決定、つまり自動運転タスクにおける BEV 生成と自車の予測を学習することです。

このモデルは高い能力を備えており、最大 4 秒先の軌道を予測し、最大 6 秒先の運転シナリオを予測できます。

BEVGPTの方法設計

フレームワーク設計

著者らは、人間のドライバーの観点から各モジュールの必要性を再評価し、自動運転システムのフレームワークを設計します。

人間のドライバーは、環境マップを事前に知っています。たとえば、ナビゲーションソフトウェアを使用すると、各道路の構造や交差点の位置は比較的明らかです。
人間の運転手は、周囲の他の車両を明確に追跡したり、将来の軌道を予測したりすることはありません。代わりに、予測された自車両の軌道が他の車両によって占有されるかどうかに重点を置いています。その後、それに応じて運転の決定を下します。

上記の考えに基づいて、著者は、ターゲット追跡やその他の車両動作予測モジュールを削除し、意思決定、動作計画、運転シーン予測を含む基本モジュールを設計しました。

このフレームワークでは、決定出力は T = 4 秒以内の車両の将来の位置であり、モーションプランナーによってさらに処理されて、動的で滑らかな軌道が生成されます。高解像度の地図から静的な環境情報を簡単に取得できることを考慮して、車両や歩行者などの動的オブジェクトの正確な予測にさらに重点を置きます。運転シーンの予測は、下図に示すように、環境マップと動的物体予測の組み合わせによって得られます。

車両モデル

車両の動きを合理的に表現し、実行可能な軌道を計画するために、ここでは自転車モデルを使用します。

【補足】自転車モデルの構築は、以下の仮定に基づいています。

車両の鉛直方向（Z軸方向）の移動は考慮されず、すなわち、車両の移動は2次元平面内の移動であると想定される。
車両の左右のタイヤが常に同じ操舵角と回転速度を持っていると仮定します。このようにして、車両の左右のタイヤの動きを 1 つのタイヤにまとめて記述することができます。
車両の速度はゆっくり変化するものと仮定し、前車軸と後車軸間の荷重の移動は無視します。
車体とサスペンションシステムは剛体システムであると仮定します。
車両の動きとステアリングは前輪（前輪のみ）によって駆動されると仮定します。

運動方程式は次のようになる

後輪の中心位置、進行方向角度、車速、車両の加速度と前輪の回転角度です。前輪と後輪の間の距離です。システム全体が微分可能であるため、軌道表現と操縦計画が容易になります。

軌道表現

ここではセグメント表現を使用し、各セグメントは5次多項式で表現され、5次多項式はジッターを減らすために使用されます。軌跡の総数は各セグメントの時間間隔は等しく、次のように記録されます。、つまりセグメントの軌道は次の多項式で表すことができます。

モーションプランニング

ご覧のとおり、上記の式はこれは基本的に実現可能性と滑らかさの要件を満たしています。私たちの設定では、制御努力を表すためにジャークを選択します [補足: 最小ジャークは、軌道最適化のための古典的なアルゴリズムです]。初期状態そして最終状態が指定されます。決定出力は軌道に含める必要があります。要約すると、動作計画では次の最小ジャーク問題が生じます。

上記の式は非常によく似ていますが、これは、動作計画問題の一般的な形式です。目標は、制御努力のジャークを最小化することです。その他の項目は、初期条件、最終条件、および満たすべきいくつかの制約です。各セグメントの初期位置が、事前トレーニング済みの因果トランスフォーマーによって予測された軌跡ポイントから取得されることを確認します。連続する 2 つのセグメント間の連続性と滑らかさを表します。最高速度と最大加速度の制限を表します。ここでは、車両加速度の上限がシステム全体の制約として使用されます。

モデルトレーニング

トレーニングデータ

使用されたデータセットは、ヒューストンらによって 2021 年に提案されたもので、20 台の車両から 4 か月間にわたって収集された 1,000 時間を超える運転データが含まれています。

データセットから、車両のポーズ、セマンティック BEV 画像、静的環境マップ画像が抽出されます。継続時間が 24 秒未満の運転シナリオ (つまり、時間間隔 Δt = 0.1 秒の 240 フレーム) は削除されました。次に、車両の将来の目標位置が意思決定トレーニングのラベルとして使用されます。各フレームの車両位置、現在の BEV 画像、次の BEV 画像、次の環境マップ画像がトレーニングセットとして使用されます。

事前トレーニング

事前トレーニング段階では、BEVGPT は 20 エポックにわたってトレーニングされました。モデルの意思決定および予測機能を向上させるために、平均二乗誤差 (MSE) が損失として使用されます。

これらは、次の 4 秒間の決定出力と車両の位置の GT を表します。

BEVとGTの予測を表します。静的な地図を表現するため、高精度な地図情報を利用するシステムです。さまざまな損失を相殺するために使用されます。

ハイパーパラメータ情報

ハイパーパラメータ情報全体は以下のとおりです。

オンライン微調整

著者は、自動運転シミュレーションに Woven Planet L5Kit を使用して、事前トレーニング済みモデルを微調整します。

BEV がモデルに入力されると、将来の時間間隔における軌道ポイントが出力されます。モーションプランナーは、決定出力に基づいて動的に実行可能な軌道を生成し、BEV の予測を取得します。

上記の損失式を振り返ると、モデルには微調整とマップ情報が必要です。ここで、著者は、モデルがシミュレートされた運転シーンの静的情報を取得できるように、経験的ラスタライザーを開発しています。ここでの出発点は、静的なグローバルマップ、自車両の初期ワールド座標、およびワールド座標とラスター座標間の変換がわかれば、すべての車線と交差点をラスター化された BEV イメージに簡単にマッピングできることです。

BEV と静的グラフの情報を取得したら、次のステップは BEV の真の値を取得することです。

シミュレータが Δt の時間間隔でシミュレーションを実行した後、次の BEV 画像の実際のデータを取得できます。

損失を計算します

ここでのシミュレーターは予測された軌道をたどるため、軌道の損失は 0 です。これは、事前トレーニングは主に軌道を予測するための学習であり、微調整は次の BEV を予測するための学習であると先ほど述べた理由も説明しています。ここで、モデルは 1w ステップごとに微調整されます。

モデル評価

モデルの意思決定能力を評価するために、次の指標が使用されます。

最終変位誤差指標 (FDE) は、最終予測位置と基準位置の間の距離を示します。
平均変位誤差指数 (ADE) は、時刻 t より前のすべての予測位置と基準位置間の平均二乗誤差を指します。
参照軌道の最終距離指標 (FDR) は、時刻 t における予測位置と参照軌道内の最も近いウェイポイント間の距離を示します。
平均距離参照軌道 (ADR) の距離指標は、時刻 t より前のすべての予測位置とそれらの最も近い位置との間の平均二乗誤差を指します。

ここでは、さまざまな予測期間についてすべての指標が評価されます。 Houston et al. 2021 で使用された ResNet ベースのアプローチとパフォーマンスを比較します。彼らの論文では、FDE メトリックの結果のみが提示されました。検証データセットには多数のシーンが含まれているため、ここでは決定ベースラインをテストするために 50 のシーンがランダムに選択されます。これらの指標の平均を計算した。

次の指標を使用して、モデルのモーションプランニング機能を評価します。

1) L2 エラー (L2) は、シミュレーション中に実行された軌道とログレコード内の実際の位置との間の平均二乗誤差を指します。各シナリオのシミュレーション期間は t です。

2) 衝突率（CR）。シミュレーション期間 t 内に衝突するシーンの割合を指します。

3) オフロード比率（OR）。これは、オフロードシナリオの数とシナリオの総数の比率を指します。オフロードインジケーターは、シミュレーション期間 t 内に基準軌道と自車両間の距離が 2 メートルを超えると定義されます。

上記の表から、特にオフロード率と衝突率の点で、UniADよりも効果が優れていることがわかります。

運転シナリオ予測

長期的な将来の運転シナリオ予測の能力を評価するために、著者らは、モデルが T = 6 秒以内に将来の BEV 画像を生成する必要がある実験を設計しました。この場合、BEVGPT は自己回帰法を使用して 60 タイムステップ以内に将来の運転シナリオを予測する必要があります。最初のフレームの BEV が基礎となる実際のデータです。私たちは、4 つの困難な交通シナリオを選択しました。図に示すように

1 つ目は信号のある交差点で、車両は赤信号の意味を理解し、交差点の手前で停止する必要があります。 2 つ目は、車両が交差点を正しく通過する必要がある、ダイナミクスの高い交差点です。 3 番目は、交通量の多い直線道路で、車はできるだけ速く前進する必要があります。最後は道路の交差点で、信号が赤から緑に変わるので、車両はこの情報を理解して時間内に発進する必要があります。

オリジナルリンク: https://mp.weixin.qq.com/s/XF8eL_wt5Ss-yJLRxAQuSQ

<<:

>>: 人工知能とメタバースの関係を探る