エンドツーエンドの自動運転は、Apollo や autoware などのフレームワークに取って代わるでしょうか?

エンドツーエンドの自動運転は、Apollo や autoware などのフレームワークに取って代わるでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

nuScenes におけるエンドツーエンドの自動運転のオープンループ評価の再考

  • 著者:百度
  • 著者: 江天翟、Ze Feng、百度王京東グループ
  • 公開: arXiv
  • 論文リンク: https://arxiv.org/abs/2305.10430
  • コードリンク: https://github.com/E2E-AD/AD-MLP

キーワード: エンドツーエンドの自動運転、nuScenes、オープンループ評価

1. 要約

既存の自動運転システムは、一般的に、知覚、予測、計画という 3 つの主要なタスクに分かれており、計画タスクでは、内部の意図と外部の環境に基づいて車両の動きの軌道を予測し、車両を操作します。既存のソリューションのほとんどは、nuScenes データセットでメソッドを評価し、評価指標は L2 エラーと衝突率です。

この論文では、既存の評価指標を再評価し、さまざまな方法の優位性を正確に測定できるかどうかを検討します。この論文では、生のセンサーデータ(過去の軌跡、速度など)を入力として受け取り、カメラ画像や LiDAR などの知覚情報や予測情報を使用せずに車両の将来の軌跡を直接出力する MLP ベースの方法も設計しています。驚くべきことに、このような単純な方法で nuScenes データセットで SOTA 計画パフォーマンスが達成され、L2 エラーが 30% 削減されます。さらに、nuScenes データセットの計画タスクにとって重要な要素を分析し、いくつかの新しい洞察を提供します。私たちの観察は、nuScenes におけるエンドツーエンドの自動運転のためのオープンループ評価スキームを再考する必要があることも示唆しています。

2. 論文の目的、貢献、結論

本論文は、nuScenes 上でエンドツーエンドの自動運転のオープンループ評価スキームを評価することを目的としています。ビジョンと Lidar を使用せず、車両状態と高レベルコマンド (合計 21 次元のベクトル) のみを入力として使用することで、nuScenes 上で計画の SOTA を達成できます。そこで著者は、nuScenes でのオープンループ評価の信頼性の低さを指摘し、2 つの分析を示しています。nuScenes データセット上の車両の軌跡は、直線または曲率の非常に小さい曲線になる傾向があります。衝突率の検出はグリッド密度に関連しており、データセット内の衝突注釈にもノイズがあります。衝突率を評価する現在の方法は、十分に堅牢で正確ではありません。

3. 論文の方法論

3.1 はじめにと関連研究

既存の自動運転モデル​​には、認識、予測、計画などの複数の独立したタスクが含まれます。この設計により、チーム間の書き込みの難しさが軽減されますが、各タスクの最適化とトレーニングの独立性により、システム全体で情報の損失やエラーの蓄積が発生する可能性もあります。自車両とその周囲の時空間的特徴を学習することでメリットが得られるエンドツーエンドの方法が提案されています。

関連研究:ST-P3[1]は、知覚、予測、計画のための特徴学習を統合した、解釈可能なエンドツーエンドのビジョンベースシステムを提案している。 UniAD[2]は計画タスクを体系的に設計し、クエリベースの設計を使用して複数の中間タスクを接続し、複数のタスク間の関係をモデル化してエンコードすることができます。VAD[3]はシーンを完全にベクトル化された方法でモデル化します。これは高密度の特徴表現を必要とせず、計算効率が高くなります。

この論文では、既存の評価指標がさまざまな方法の長所と短所を正確に測定できるかどうかを調査したいと考えています。この論文では、カメラやライダーによって提供される知覚情報や予測情報を使用するのではなく、運転中の自車両の物理的状態(既存の方法で使用される情報のサブセット)のみを使用して実験を行います。要約すると、この論文のモデルは、視覚的またはポイントクラウドの特徴エンコーダーを使用せず、車両の物理情報を 1 次元ベクトルに直接エンコードし、連結後に MLP に送信します。トレーニングは GT 軌道を使用して監督され、モデルは将来の一定期間内の自車両の軌道ポイントを直接予測します。前回の研究に続き、L2 エラーと衝突率を使用して nuScenes データセットのパフォーマンスを評価します。

モデル設計はシンプルですが、最良の計画結果が得られます。これは、現在の評価指標が不十分であることによるものと考えられます。実際、自車の過去の軌跡、速度、加速度、時間の連続性を利用することで、自車の将来の動きをある程度反映することができます。

3.2 モデル構造

モデル構造の概要

モデル入力は、車両の状態と将来の短期的な動作傾向を表す高レベルのコマンドの 2 つの部分で構成されます。

自動運転ステータス: 自動運転の履歴を収集  = 4フレームの運動軌跡、瞬間速度、加速度

高度なコマンド: このモデルでは高精度のマップを使用しないため、ナビゲーションには高度なコマンドが必要です。一般的な慣例に従い、左折、直進、右折の 3 種類のコマンドが定義されています。具体的には、車両が次の 3 秒間に左または右に 2 メートル以上移動する場合は、対応するコマンドが左または右に曲がるように設定され、それ以外の場合は直進します。高レベルのコマンドを表現するために、1x3次元のワンホットエンコーディングを使用する

ネットワーク構造:ネットワークは単純な3層MLP(入力から出力までの次元はそれぞれ21-512-512-18)です。最終出力フレーム番号=6で、各フレームは車両の軌道位置(x、y座標)と進行方向角度を出力します。

損失関数

損失関数: ペナルティにL1損失関数を使用する

4. 本論文の実験

4.1 実験のセットアップ

データセット: 主にボストンとシンガポールで収集された 1K のシーンと約 40K のキーフレームを含む nuScenes データセットで、LiDAR とサラウンド カメラを搭載した車両を使用して実験を行います。各フレームで収集されるデータには、マルチビュー カメラ画像、LiDAR、速度、加速度などが含まれます。
評価メトリクス: ST-P3 論文 (https://github.com/OpenPerceptionX/ST-P3/blob/main/stp3/metrics.py) の評価コードを使用します。 1 秒、2 秒、3 秒の時間範囲の出力トレースを評価します。予測された自車両の軌道の品質を評価するために、一般的に使用される 2 つのメトリックが計算されます。

L2 エラー: 次の 1 秒、2 秒、3 秒の時間枠における自車両の予測軌道と実際の軌道の間の平均 L2 エラー (メートル単位)。

衝突率: パーセンテージ。自車両が他の物体と衝突する頻度を判断するために、予測軌道上の各ウェイポイントに自車両を表すボックスを配置し、現在のシーン内の車両や歩行者の境界ボックスとの衝突が発生するかどうかを検出することで衝突率を計算します。

ハイパーパラメータ設定とハードウェア: PaddlePaddle および PyTorch フレームワーク、AdamW オプティマイザー (4e-6 lr および 1e-2 重み減衰)、コサイン スケジューラー、6 エポックでトレーニング、バッチ サイズ 4、V100 を使用

4.2 実験結果

表1 既存の知覚ベースの方法との比較

いくつかのアブレーション実験が表 1 に示されています。速度、加速度、軌道、および高レベルコマンドがこのモデルのパフォーマンスに与える影響を分析します。驚くべきことに、知覚情報なしで軌跡のみを入力として使用することで、当社のベースライン モデルは、既存のすべての方法よりも低い平均 L2 エラーをすでに達成しています。

入力に加速度、速度、高レベルコマンドを徐々に追加すると、平均 L2 エラーと衝突率は 0.35 m から 0.23 m に、0.33% から 0.12% に減少します。自我状態と高レベルコマンドの両方を入力として受け取るモデルは、最後の行に示されているように、これまでの最先端の知覚ベースの方法をすべて上回り、最も低い L2 エラーと衝突率を達成しています。

4.3 実験分析

この記事では、nuScenesトレーニングセット上の自車状態の分布を、次の3秒間の軌道ポイント、進行方向角度(進行方向/ヨー角)、曲率角度(曲率角)の2つの観点から分析します。

nuScenes トレーニング セットの分布分析。

トレーニング セット内のすべての将来の 3 秒の軌跡ポイントが図 2 (a) にプロットされています。図から、軌跡は主に中間部分(直線)に集中しており、軌跡は主に直線、または曲率の非常に小さい曲線であることが分かります。

進行方向角度は現在の時刻に対する将来の移動方向を示し、曲率角度は車両の旋回速度を反映します。図2(b)および(c)に示すように、方位角および曲率角の約70%は、それぞれ-0.2~0.2ラジアンおよび-0.02~0.02ラジアンの範囲内にあります。この発見は、軌道点の分布から導き出された結論と一致しています。

上記の軌跡点、進行方向角度、曲率角度の分布の分析に基づいて、本論文では、nuScenes トレーニング セットでは、自車両は短時間の範囲で運転する場合、直線的に移動して小さな角度で移動する傾向があると考えています。

占有マップのグリッドサイズが異なると、GTトラックが衝突する

衝突率を計算する場合、既存の方法では、車両や歩行者などのオブジェクトを鳥瞰図 (BEV) 空間に投影し、グラフ内の占有領域に変換するのが一般的です。そして、ここで精度が失われます。GT 軌道サンプルのごく一部 (約 2%) も占有グリッド内の障害物と重なっていますが、データが収集されるときにエゴカーが他のオブジェクトと実際に衝突することはなく、衝突が誤って検出されることになります。これにより、自車両が単一の占有マップ ピクセルのサイズよりも小さい特定のオブジェクトに近づくと、誤った衝突が発生する可能性があります。

図 3 は、この現象の例と、2 つの異なるグリッド サイズでの実際の軌跡の衝突検出結果を示しています。オレンジ色の車両は、衝突と誤検知される可能性があります。右下隅に示す小さいグリッド サイズ (0.1 m) では、評価システムは GT の軌跡を衝突なしと正しく識別しますが、右下隅の大きいグリッド サイズ (0.5 m) では、誤った衝突検出が発生します。

占有グリッド サイズが軌道衝突検出に与える影響を観察した後、0.6 m のグリッド サイズをテストしました。 nuScenes トレーニング セットには 4.8% の衝突サンプルがあり、検証セットには 3.0% あります。以前に 0.5 m のグリッド サイズを使用した場合、検証セット内のサンプルの 2.0% のみが衝突として誤分類されたことは注目に値します。これは、衝突率を推定する現在の方法が十分に堅牢かつ正確ではないことを改めて証明しています。

著者要約: この論文の主な目的は、新しいモデルを提案することではなく、私たちの観察結果を提示することです。私たちのモデルは nuScenes データセットでは良好なパフォーマンスを発揮しますが、非現実的なおもちゃであり、現実世界では機能できないことを認識しています。自我状態なしで運転することは、克服するのが難しい課題です。それでも、私たちの洞察がこの分野でのさらなる研究を刺激し、エンドツーエンドの自動運転に向けた進歩の再評価につながることを願っています。

5. 論文評価

この記事は、nuScenes データセットにおける最近のエンドツーエンドの自動運転評価のレビューです。暗黙的なエンドツーエンドの直接計画信号であれ、中間リンクを伴う明示的なエンドツーエンドの出力であれ、それらの多くは nuScenes データセットで評価された計画指標です。ただし、この Baidu の記事では、この種の評価は信頼できないと指摘しています。この種の記事は実はかなり興味深いものです。 発表されたとき、多くの同僚の顔に平手打ちを食らわせましたが、同時に業界を積極的に前進させました。 おそらくエンドツーエンドの計画は必要なく(認識と予測はエンドツーエンド)、パフォーマンスを評価するときに誰もがより多くのクローズドループテスト(CARLAシミュレータなど)を行うことができ、自動運転コミュニティの進歩をよりよく促進し、論文を実際の車両に導入することができます。自動運転の実現にはまだまだ長い道のりが残っています。

参照する

  1. ^ST-P3: 時空間特徴学習によるエンドツーエンドのビジョンベースの自動運転
  2. ^計画指向型自動運転
  3. ^VAD: 効率的な自動運転のためのベクトル化されたシーン表現

オリジナルリンク: https://mp.weixin.qq.com/s/skNDMk4B1rtvJ_o2CM9f8w

<<: 

>>:  クローズドループへ! DriveMLM: LLM と自動運転行動計画の完璧な組み合わせ!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

清華大学と中国人工知能学会が2019年人工知能開発報告書を発表

2019年中国人工知能産業年次大会で「2019年人工知能発展報告書」が発表されました。唐潔教授は、関...

ライブクイズゲーム「Winning with Ease」は止められない、Baidu AIが150万の現金獲得にあなたを招待します!

「2進数では、1+1=?」答えが2の場合、残念ながら150万を逃してしまいます。これは頭​​の体操...

医療画像のインテリジェント認識:医療とAIを組み合わせた成功事例

医療画像のインテリジェント認識:医療とAIを組み合わせた成功事例医療画像認識はAIがすぐに導入できる...

史上初! Google AI プレイヤーが StarCraft II で人間に勝利

[[256388]]この試合はイギリス・ロンドンにあるDeepMind本社からライブ配信された。 G...

MITの新しい研究によると、機械学習ではフェイクニュースを検知できない

MITの研究者らが発表した2つの新しい論文は、現在の機械学習モデルがフェイクニュース報道を区別する能...

AGI を理解する: 知能の未来?

病気の診断から交響曲の作曲、車の運転から道徳的な判断に至るまで、人間が行えるあらゆる作業を機械が実行...

...

世界で最も引用率の高い中国の AI ジャーナルではどのような研究が行われていますか?

[[410109]]人工知能(AI)研究に関しては、中国が現在最もホットな国です。清華大学人工知能...

Pythonは画像内のすべての顔を認識し、それを表示する機能を実装しています

Python3 を使用して、写真内のすべての顔を認識して表示します。コードは次のとおりです。 # -...

人工知能の将来の動向

人工知能 (AI) が普及し、人生を変えるような意思決定に組み込まれるようになるにつれて、透明性の必...

人工知能 (AI) を活用して仕事の未来を築くにはどうすればよいでしょうか?

仕事は私たちの生活の重要な部分です。私たちの人生の3分の1はこれに費やされています。私たちの世界には...

自然言語処理が人工知能の中核である理由

コンピュータが人間を騙して自分は人間だと信じ込ませることができるなら、そのコンピュータは知的であると...

人間かAIか?両方

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

人工知能はチェスをプレイする以外に何をすべきでしょうか?

[[183486]]医療、金融、交通、教育、公安、小売、商業サービスなどの業界は、電子データの度合...