自動運転のためのエンドツーエンドの計画方法の概要

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1. ウーブン・プラネット（トヨタ子会社）のソリューション：アーバン・ドライバー2021

この記事は21年前のものですが、多くの新しい記事がこれを比較基準として使っているので、その方法も見る必要があるかもしれません。

ざっと見たところ、主にポリシー勾配を使用して、状態->最近のアクションのマッピング関数を学習していることがわかりました。このマッピング関数を使用すると、実行軌跡全体を段階的に推測できます。最終的な損失は、この推測によって与えられた軌跡を、エキスパートの軌跡にできるだけ近づけることです。

当時の効果は良好だったはずなので、さまざまな新しいアルゴリズムのベースラインになりました。

2. 南洋理工大学ソリューション1：逆強化学習による条件付き予測行動計画 2023.04

まず、ルールを使用してさまざまな動作を列挙し、10 ～ 30 個の軌跡を生成しました。（予測結果は使用されません）
条件付き予測を使用して、メイン車両の各候補軌道の予測結果を計算し、IRL を使用して候補軌道にスコアを付けます。

条件付き共同予測モデルは次のようになります。

この方法の優れた点は、条件付きジョイント予測を利用してインタラクティブな予測を非常にうまく実行し、アルゴリズムに一定のゲーム機能を与えることです。
しかし、個人的には、このアルゴリズムの欠点は、最初に 10 ～ 30 個の軌道しか生成せず、軌道生成時に予測が考慮されないことだと考えています。最終的には、これらの軌道の 1 つが IRL スコアリング後の最終結果として直接選択されます。予測を考慮した後、10 ～ 30 個の軌道が理想的ではないという状況に遭遇することはよくあります。それは、不自由な人々の中から将軍を選ぼうとするのと同じで、選んだ将軍もやはり不自由な人のままです。この解決策に基づいて、選択するサンプルの品質を解決するとよいでしょう。

3. NVIDIA ソリューション: 2023.02 学習した行動モデルによるツリー構造のポリシープランニング

ルールツリーサンプリングを使用し、レイヤーごとに検討し、各レイヤーの各子ノードに対して条件付き予測を生成し、ルールを使用して予測結果と主要な車両軌道にスコアを付け、いくつかのルールを使用して不正なものを排除します。次に、DP を使用して最適な軌道を生成します。DP の考え方は、Apollo の dp_path_optimizer に似ていますが、時間ディメンションが追加されています。

しかし、次元が1つ増えたため、その後の拡張回数を重ねても、解空間が大きく、計算量が大きすぎる状況が依然として存在します。現在の論文に書かれている方法は、ノードが多すぎると、いくつかのノードをランダムに破棄して、計算量を制御可能にすることです（ノードが多すぎると、n層後になる可能性があり、影響は比較的小さい可能性があるという意味だと思います）

この論文の主な貢献は、このツリーサンプリング規則を通じて連続解空間をマルコフ決定プロセスに変換し、DP を使用してそれを解決することです。

4. 南洋理工大学と NVIDIA の 2023 年 10 月の最新共同計画: DTPP: 自動運転におけるツリーポリシー計画のための微分可能な共同条件予測とコスト評価

タイトルを見るだけでとてもワクワクします。

1. 条件付き予測により、特定のゲーム効果が保証されます。2. 微分可能で、勾配全体を返すことができるため、予測を IRL と一緒にトレーニングできます。これは、エンドツーエンドの自動運転システムを構築するための必要条件でもあります。3. ツリーポリシープランニング。特定のインタラクティブな推論機能を備えている場合があります。

注意深く読んでみると、この記事は非常に有益であり、方法も非常に巧妙であることがわかりました。

これは主に、NVIDIA の TPP と Nanyang Technological University の逆強化学習による条件付き予測行動計画の組み合わせと改良に基づいており、Nanyang Technological University の以前の論文における選択軌道の悪さの問題を効果的に解決します。

論文提案の主なモジュールは次のとおりです。

1. 条件付き予測モジュール: メイン車両の過去の軌跡 + プロンプト軌跡 + 障害物車両の過去の軌跡を入力し、プロンプト軌跡に近づくメイン車両の予測軌跡と、メイン車両の動作と一致する障害物車両の予測軌跡を提供します。
次に、スコアリングモジュールは、メイン車両 + 障害物車両の軌道をスコアリングして、その軌道がエキスパートの動作に似ているかどうかを確認します。学習方法は IRL です。
3. 候補となる軌道を生成するために使われるツリーポリシー検索モジュール

ツリーサーチソリューションは、メインビークルの実行可能なソリューションを探索するために使用されます。探索プロセスの各ステップでは、探索された軌道が入力として使用され、条件付き予測を使用して、メインビークルと障害物ビークルの予測軌道が与えられます。次に、スコアリングモジュールが呼び出され、軌道の品質が評価されます。これは、拡張ノードを検索する次のステップの方向に影響します。この方法を使用すると、比較的大きな差のあるいくつかの主要な車両軌道を取得でき、軌道を生成するときに障害物車両との相互作用が常に考慮されます。

従来の IRL では、軌道時間次元の前後にある多数の障害物のさまざまな特徴 (相対的な s、l、ttc など) など、多くの特徴が人工的に作成されます。モデルを微分可能にするために、本論文では予測エゴコンテキスト MLP を直接使用して、主車両の周囲の環境情報を暗黙的に表す重み配列 (サイズ = 1 * C) を生成します。次に、MLP を使用して、主車両の軌道 + 対応するマルチモーダル予測結果を直接特徴配列 (サイズ = C * N、N は候補軌道の数を指します) に変換し、2 つの行列を乗算して最終的な軌道スコアを取得します。次に、IRL で専門家に最高得点をもらいます。個人的には、これは計算効率のため、デコーダーをできるだけシンプルにするため、または一定量の主要な車両情報が失われるためではないかと感じています。計算効率を気にしないのであれば、より複雑なネットワークを使用してEgo ContextとPredicted Trajectoriesを接続すると、より良い効果が得られるのではないでしょうか。あるいは、微分可能性をあきらめた場合でも、手動で設定された機能を追加することを検討できます。これにより、モデルの効果も向上するはずです。

時間消費の面では、このソリューションは 1 つの重いエンコード + 複数の軽量デコードという方法を採用しており、計算遅延を効果的に削減します。記事では、遅延を 98 ミリ秒まで削減できると述べています。

これは SOTA 学習ベースのプランナーの 1 つであり、そのクローズドループ効果は、前の記事で言及した nuplan によって 1 位にランク付けされたルールベースソリューション PDM の効果に近いです。