WidthFormer: リアルタイム自動運転！変圧器ベースのBEVソリューションの量産を支援

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と業界理解

BEVベースのトランスフォーマーソリューションは、今年の量産の主なソリューションです。CNNと比較すると、トランスフォーマー構造は特徴抽出能力が強力ですが、より多くの計算能力が必要です。そのため、多くの車は1〜2個のORINチップでサポートされています。そのため、Transformer ベースの BEV ソリューションをいかに軽量化するかが、大手自動運転企業にとって最適化の焦点となっています。Horizon の最新の取り組みでは、Transformer + BVE を軽量化し、パフォーマンスと速度のリーダーシップを維持しています。

WidthFormer の利点は何ですか?

WidthFormer は、単層トランスフォーマーデコーダーを使用して BEV 表現を計算する、軽量で簡単に導入できる BEV 変換方法です。さらに、WidthFormer のビュー変換を支援する 3D オブジェクト検出用の新しい位置エンコーディングメカニズムである参照位置エンコーディング (RefPE) が提案されています。ここがポイントです。また、プラグアンドプレイ方式でスパース 3D 検出器のパフォーマンスを向上させるためにも使用できます。提案されたモジュールは nuScenes 3D 検出データセットで評価され、その結果、RefPE によってスパースオブジェクト検出器のパフォーマンスが大幅に向上することが示されました。さらに、WidthFormer は、さまざまな 3D 検出アーキテクチャにわたるパフォーマンスと効率の点で、従来の BEV 変換方法よりも優れています。

コード: https://github.com/ChenhongyiYang/WidthFormer

WidthFormer は、さまざまな 3D 検出アーキテクチャにわたって従来の方法よりも優れたパフォーマンスを発揮します。 256×704 入力画像を使用する場合、NVIDIA 3090 GPU と Horizon J5 チップで 1.5 ミリ秒と 2.8 ミリ秒のレイテンシを実現します。さらに、WidthFormer は、さまざまな程度のカメラの摂動に対しても強力な堅牢性を示します。この研究は、現実世界の複雑な道路環境に展開するための BEV 変換アプローチに関する貴重な洞察を提供します。

BEV変換に基づく方法の概要

直感的な IPM ベースの方法は、3D-2D 投影と補間を介して BEV の特徴を計算します。問題の 1 つは、平坦な地面の仮定が成り立たない場合、BEV 機能の品質が著しく低下することです。 Lift Splat ベースの方法では、投影されたポイントクラウドフィーチャを垂直にプールし、予測される深度に応じて重み付けすることによって BEV フィーチャが計算されます。リフトスプラットプロセスは高性能ですが、その効率は十分ではありません。 BEVFusion は、マルチスレッドメカニズムを通じてこのプーリングプロセスを高速化します。

M2BEV は均一な深度分布を想定することでメモリ使用量を節約します。 MatrixVT は、視覚的特徴を垂直方向に圧縮し、効率的な極座標変換を使用して BEV 特徴を計算することで全体的な効率を向上させます。 BEVDepth はポイントクラウドを組み合わせて深度推定を改善します。トランスフォーマーベースの VT メソッドは、アテンションメカニズムを通じて BEV 表現を直接出力します。 PYVA は、交差注意を使用して BEV 機能を学習し、モデルをサイクル一貫性のあるものにします。 CVT と PETR は、3D 位置エンコーディングを利用してモデルに 3D 幾何学情報を提供します。効率を向上させるために、最近の多くの手法では、変形可能な注意を採用しています。

ネットワーク構造

図 3 に示すように、WidthFormer はマルチビュー画像を入力として受け取り、変換された BEV 特徴を出力します。まず、画像の高さの次元を結合して、画像の特徴を幅の特徴に圧縮します。次に、潜在的な情報損失を補うために、RefineTransformer を使用して幅の特徴が調整されます。参照位置エンコーディングを追加した後、幅の特徴はトランスフォーマーデコーダーに送られ、事前定義された BEV 極座標から計算された BEV クエリベクトルによってクエリされるキーと値として使用されます。

1) 参照位置エンコーディング (RefPE)

我々は、トランスフォーマーベースの 3D 検出器 (PETR など) 用の新しい 3D 位置エンコーディングメカニズムと、BEV ビュー変換モジュールである参照位置エンコーディング (RefPE) を設計しました。 RefPE には回転部分と距離部分があります。スパース 3D 検出器の場合は、別の高さ部分があります。回転エンコーディングは、BEV 平面上のカメラ光線の回転をエンコードすることによって簡単に計算されます。 (a)に示すように、点ごとの距離PEと高さPEを計算するために、視覚的特徴から予測された参照係数を使用して、カメラ光線上の参照点の距離と高さPEを集計します。 (b)に示すように、幅の特徴については、高さPEが削除され、予測された高さ分布を使用して画像列に沿ったすべてのポイントごとの距離PEを集計することによって距離PEが計算されます。

2)WidthFormeを使用してBEV変換を完了する

WidthFormer は、マルチビュー画像を入力として受け取り、変換された BEV 機能を出力します。まず、画像の高さの次元を結合して、画像の特徴を幅の特徴に圧縮します。次に、潜在的な情報損失を補うために、RefineTransformer を使用して幅の特徴が調整されます。参照位置エンコーディングを追加した後、幅の特徴はトランスフォーマーデコーダーに送られ、事前定義された BEV 極座標から計算された BEV クエリベクトルによってクエリされるキーと値として使用されます。提案された RefPE を利用して、BEV 用の新しいトランスフォーマーベースのビュー変換モジュール WidthFormer が設計されています。正式には、WidthFormer の入力はマルチビュー画像の特徴であり、出力は統合された BEV 表現です。WidthFormer の概要を図 3 に示します。

3) 幅の調整機能

2 次元の特徴を 1 次元の特徴に圧縮すると、モデルの効率とスケーラビリティが大幅に向上しますが、必然的に情報の損失が発生します。では、この失われた情報を補う方法はあるのでしょうか?

トランスフォーマーを改良します。 Refine Transformer は軽量のトランスフォーマーデコーダーです。他の幅の特徴と元の画像の特徴に焦点を当て、そこから情報を取得することで、初期の幅の特徴を改良します。図 3 に示すように、初期の幅の特徴は、画像の特徴の高さの次元を MaxPooling することによって計算されます。 Refine Transformer では、幅の特徴はまず自己注意操作を介して他の幅の特徴から情報を取得し、次に相互注意操作を使用して対応する画像列から情報を取得します。最後に、フィードフォワードネットワークを使用して最終的な幅の特徴を計算します。

補足的なタスク。幅広い特徴の表現能力をさらに向上させるために、トレーニングプロセス中に、BEVFormer v2 によって駆動される補完的なタスクを使用してモデルをトレーニングし、タスク関連の情報を幅広い特徴に直接注入します。図3(a)に示すように、補完的なタスクには単眼3D検出タスクと高さ予測タスクが含まれます。両方のタスクに FCOS3D スタイルのヘッドが接続されています。ヘッドは 1D 幅の特徴を入力として受け取り、単眼方式で 3D オブジェクトを検出します。 1D 幅の特徴を入力として受け取ることができるようにするために、2 つの変更が加えられています: (1) すべての 2D 畳み込み演算が 1D 畳み込みに変更されます。 (2) ラベルのエンコード中に、高さの範囲は無視され、幅の範囲のみが制限されます。補完タスクをWidthFormerと一貫性を保つために、元の回帰深度推定は分類スタイルに変更されます。高さ予測では、FCOS3D ヘッドに追加のブランチが追加され、元の画像特徴におけるオブジェクトの高さ位置を予測し、高さプーリングで失われた情報を補完できます。モデルの推論中に、推論の効率に影響を与えることなく、補足タスクを完全に削除できることに注意してください。さらに、補助ヘッドのトレーニングでは追加の GPU メモリが 10M 未満しか消費されないため、トレーニング効率への影響は最小限に抑えられます。

実験結果の比較

提案された方法は、一般的に使用される nuScenes データセットでベンチマークされ、700、150、150 のシーン (それぞれトレーニング、検証、テスト用) に分割されます。各シーンには、周囲の環境全体をカバーする 6 つのビューからの画像が含まれています。ここでは、公式の評価プロトコルに従います。3D 検出タスクの場合、一般的に使用される平均精度 (mAP) に加えて、評価メトリックには、nuScenes (TP) エラーも含まれます。これには、平均変換エラー (mATE)、平均スケールエラー (mASE)、平均方向エラー (mAOE)、平均速度エラー (mAVE)、平均属性エラー (mAAE)、および nuScenes 検出スコア (NDS) が含まれます。

ここでは、単一フレームと複数フレームの両方の設定をカバーする提案された WidthFormer をテストするために、2 つの 3D 検出アーキテクチャ (BEVDet と BEVDet4D) が使用されます。 BEVDet コードベース内の 3 つの検出器すべての実装が使用されます。特に指定がない限り、BEVDet のデフォルトのデータ前処理および拡張設定が使用されました。 BEV フィーチャサイズは 128×128 に設定され、BEV チャネルサイズは 64 に設定されています。 BEVDet4D および BEVDepth4D 実験では、1 つの履歴フレームのみを使用する元の BEVDet4D 実装に従います。すべてのモデルは CBGS を使用して 24 エポックにわたってトレーニングされ、ImageNet で事前トレーニングされた ResNet-50 がデフォルトのバックボーンネットワークとして使用されました。すべてのトレーニングと CUDA レイテンシ測定は、NVIDIA 3090 GPU を使用して実行されました。

PETR-DN および StreamPETR 検出器を使用したさまざまな位置エンコード方法の比較。 ResNet-50-DCN がデフォルトのバックボーンネットワークとして使用されます。入力サイズはPETR-DNの場合は512×1408、StreamPETRの場合は256×704に設定されます。すべてのモデルは CBGS なしで 24 エポックにわたってトレーニングされました。

BEVDet および BEVDet4D 検出器を使用したさまざまな BEV ビュー変換方法の比較。デフォルトのバックボーンネットワークとして ResNet-50 が使用されます。入力サイズは256×704に設定されています。すべてのモデルは CBGS を使用してエポックごとにトレーニングされました。

異なるサイズ設定で BEVDet を使用したさまざまな VT メソッドの CUDA レイテンシと mAP のトレードオフの比較:

検出結果を拡大し、nuScenes val-set 上の他の最先端の 3D 検出器と比較します。「MF」はマルチフレームフュージョン、「C」はカメラ、「L」はLIDARを表します。

オリジナルリンク: https://mp.weixin.qq.com/s/avoZwvY7H6kKk_4NlbTyjg

<<:

>>: グラフなしの ICLR'24 のための新しいアイデア! LaneSegNet: 車線セグメンテーションを考慮したマップ学習