この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と業界理解BEVベースのトランスフォーマーソリューションは、今年の量産の主なソリューションです。CNNと比較すると、トランスフォーマー構造は特徴抽出能力が強力ですが、より多くの計算能力が必要です。そのため、多くの車は1〜2個のORINチップでサポートされています。そのため、Transformer ベースの BEV ソリューションをいかに軽量化するかが、大手自動運転企業にとって最適化の焦点となっています。Horizon の最新の取り組みでは、Transformer + BVE を軽量化し、パフォーマンスと速度のリーダーシップを維持しています。 WidthFormer の利点は何ですか?WidthFormer は、単層トランスフォーマー デコーダーを使用して BEV 表現を計算する、軽量で簡単に導入できる BEV 変換方法です。さらに、WidthFormer のビュー変換を支援する 3D オブジェクト検出用の新しい位置エンコーディング メカニズムである参照位置エンコーディング (RefPE) が提案されています。ここがポイントです。また、プラグアンドプレイ方式でスパース 3D 検出器のパフォーマンスを向上させるためにも使用できます。提案されたモジュールは nuScenes 3D 検出データセットで評価され、その結果、RefPE によってスパース オブジェクト検出器のパフォーマンスが大幅に向上することが示されました。さらに、WidthFormer は、さまざまな 3D 検出アーキテクチャにわたるパフォーマンスと効率の点で、従来の BEV 変換方法よりも優れています。 コード: https://github.com/ChenhongyiYang/WidthFormer WidthFormer は、さまざまな 3D 検出アーキテクチャにわたって従来の方法よりも優れたパフォーマンスを発揮します。 256×704 入力画像を使用する場合、NVIDIA 3090 GPU と Horizon J5 チップで 1.5 ミリ秒と 2.8 ミリ秒のレイテンシを実現します。さらに、WidthFormer は、さまざまな程度のカメラの摂動に対しても強力な堅牢性を示します。この研究は、現実世界の複雑な道路環境に展開するための BEV 変換アプローチに関する貴重な洞察を提供します。 BEV変換に基づく方法の概要直感的な IPM ベースの方法は、3D-2D 投影と補間を介して BEV の特徴を計算します。問題の 1 つは、平坦な地面の仮定が成り立たない場合、BEV 機能の品質が著しく低下することです。 Lift Splat ベースの方法では、投影されたポイント クラウド フィーチャを垂直にプールし、予測される深度に応じて重み付けすることによって BEV フィーチャが計算されます。リフトスプラットプロセスは高性能ですが、その効率は十分ではありません。 BEVFusion は、マルチスレッド メカニズムを通じてこのプーリング プロセスを高速化します。 M2BEV は均一な深度分布を想定することでメモリ使用量を節約します。 MatrixVT は、視覚的特徴を垂直方向に圧縮し、効率的な極座標変換を使用して BEV 特徴を計算することで全体的な効率を向上させます。 BEVDepth はポイント クラウドを組み合わせて深度推定を改善します。トランスフォーマーベースの VT メソッドは、アテンション メカニズムを通じて BEV 表現を直接出力します。 PYVA は、交差注意を使用して BEV 機能を学習し、モデルをサイクル一貫性のあるものにします。 CVT と PETR は、3D 位置エンコーディングを利用してモデルに 3D 幾何学情報を提供します。効率を向上させるために、最近の多くの手法では、変形可能な注意を採用しています。 ネットワーク構造図 3 に示すように、WidthFormer はマルチビュー画像を入力として受け取り、変換された BEV 特徴を出力します。まず、画像の高さの次元を結合して、画像の特徴を幅の特徴に圧縮します。次に、潜在的な情報損失を補うために、RefineTransformer を使用して幅の特徴が調整されます。参照位置エンコーディングを追加した後、幅の特徴はトランスフォーマー デコーダーに送られ、事前定義された BEV 極座標から計算された BEV クエリ ベクトルによってクエリされるキーと値として使用されます。 1) 参照位置エンコーディング (RefPE)我々は、トランスフォーマーベースの 3D 検出器 (PETR など) 用の新しい 3D 位置エンコーディング メカニズムと、BEV ビュー変換モジュールである参照位置エンコーディング (RefPE) を設計しました。 RefPE には回転部分と距離部分があります。スパース 3D 検出器の場合は、別の高さ部分があります。回転エンコーディングは、BEV 平面上のカメラ光線の回転をエンコードすることによって簡単に計算されます。 (a)に示すように、点ごとの距離PEと高さPEを計算するために、視覚的特徴から予測された参照係数を使用して、カメラ光線上の参照点の距離と高さPEを集計します。 (b)に示すように、幅の特徴については、高さPEが削除され、予測された高さ分布を使用して画像列に沿ったすべてのポイントごとの距離PEを集計することによって距離PEが計算されます。 2)WidthFormeを使用してBEV変換を完了するWidthFormer は、マルチビュー画像を入力として受け取り、変換された BEV 機能を出力します。まず、画像の高さの次元を結合して、画像の特徴を幅の特徴に圧縮します。次に、潜在的な情報損失を補うために、RefineTransformer を使用して幅の特徴が調整されます。参照位置エンコーディングを追加した後、幅の特徴はトランスフォーマー デコーダーに送られ、事前定義された BEV 極座標から計算された BEV クエリ ベクトルによってクエリされるキーと値として使用されます。提案された RefPE を利用して、BEV 用の新しいトランスフォーマーベースのビュー変換モジュール WidthFormer が設計されています。正式には、WidthFormer の入力はマルチビュー画像の特徴であり、出力は統合された BEV 表現です。WidthFormer の概要を図 3 に示します。 3) 幅の調整機能2 次元の特徴を 1 次元の特徴に圧縮すると、モデルの効率とスケーラビリティが大幅に向上しますが、必然的に情報の損失が発生します。では、この失われた情報を補う方法はあるのでしょうか? トランスフォーマーを改良します。 Refine Transformer は軽量のトランスフォーマー デコーダーです。他の幅の特徴と元の画像の特徴に焦点を当て、そこから情報を取得することで、初期の幅の特徴を改良します。図 3 に示すように、初期の幅の特徴は、画像の特徴の高さの次元を MaxPooling することによって計算されます。 Refine Transformer では、幅の特徴はまず自己注意操作を介して他の幅の特徴から情報を取得し、次に相互注意操作を使用して対応する画像列から情報を取得します。最後に、フィードフォワード ネットワークを使用して最終的な幅の特徴を計算します。 補足的なタスク。幅広い特徴の表現能力をさらに向上させるために、トレーニング プロセス中に、BEVFormer v2 によって駆動される補完的なタスクを使用してモデルをトレーニングし、タスク関連の情報を幅広い特徴に直接注入します。図3(a)に示すように、補完的なタスクには単眼3D検出タスクと高さ予測タスクが含まれます。両方のタスクに FCOS3D スタイルのヘッドが接続されています。ヘッドは 1D 幅の特徴を入力として受け取り、単眼方式で 3D オブジェクトを検出します。 1D 幅の特徴を入力として受け取ることができるようにするために、2 つの変更が加えられています: (1) すべての 2D 畳み込み演算が 1D 畳み込みに変更されます。 (2) ラベルのエンコード中に、高さの範囲は無視され、幅の範囲のみが制限されます。補完タスクをWidthFormerと一貫性を保つために、元の回帰深度推定は分類スタイルに変更されます。高さ予測では、FCOS3D ヘッドに追加のブランチが追加され、元の画像特徴におけるオブジェクトの高さ位置を予測し、高さプーリングで失われた情報を補完できます。モデルの推論中に、推論の効率に影響を与えることなく、補足タスクを完全に削除できることに注意してください。さらに、補助ヘッドのトレーニングでは追加の GPU メモリが 10M 未満しか消費されないため、トレーニング効率への影響は最小限に抑えられます。 実験結果の比較提案された方法は、一般的に使用される nuScenes データセットでベンチマークされ、700、150、150 のシーン (それぞれトレーニング、検証、テスト用) に分割されます。各シーンには、周囲の環境全体をカバーする 6 つのビューからの画像が含まれています。ここでは、公式の評価プロトコルに従います。3D 検出タスクの場合、一般的に使用される平均精度 (mAP) に加えて、評価メトリックには、nuScenes (TP) エラーも含まれます。これには、平均変換エラー (mATE)、平均スケール エラー (mASE)、平均方向エラー (mAOE)、平均速度エラー (mAVE)、平均属性エラー (mAAE)、および nuScenes 検出スコア (NDS) が含まれます。 ここでは、単一フレームと複数フレームの両方の設定をカバーする提案された WidthFormer をテストするために、2 つの 3D 検出アーキテクチャ (BEVDet と BEVDet4D) が使用されます。 BEVDet コード ベース内の 3 つの検出器すべての実装が使用されます。特に指定がない限り、BEVDet のデフォルトのデータ前処理および拡張設定が使用されました。 BEV フィーチャ サイズは 128×128 に設定され、BEV チャネル サイズは 64 に設定されています。 BEVDet4D および BEVDepth4D 実験では、1 つの履歴フレームのみを使用する元の BEVDet4D 実装に従います。すべてのモデルは CBGS を使用して 24 エポックにわたってトレーニングされ、ImageNet で事前トレーニングされた ResNet-50 がデフォルトのバックボーン ネットワークとして使用されました。すべてのトレーニングと CUDA レイテンシ測定は、NVIDIA 3090 GPU を使用して実行されました。 PETR-DN および StreamPETR 検出器を使用したさまざまな位置エンコード方法の比較。 ResNet-50-DCN がデフォルトのバックボーン ネットワークとして使用されます。入力サイズはPETR-DNの場合は512×1408、StreamPETRの場合は256×704に設定されます。すべてのモデルは CBGS なしで 24 エポックにわたってトレーニングされました。 BEVDet および BEVDet4D 検出器を使用したさまざまな BEV ビュー変換方法の比較。デフォルトのバックボーン ネットワークとして ResNet-50 が使用されます。入力サイズは256×704に設定されています。すべてのモデルは CBGS を使用してエポックごとにトレーニングされました。 異なるサイズ設定で BEVDet を使用したさまざまな VT メソッドの CUDA レイテンシと mAP のトレードオフの比較: 検出結果を拡大し、nuScenes val-set 上の他の最先端の 3D 検出器と比較します。 「MF」はマルチフレームフュージョン、「C」はカメラ、「L」はLIDARを表します。 オリジナルリンク: https://mp.weixin.qq.com/s/avoZwvY7H6kKk_4NlbTyjg |
>>: グラフなしの ICLR'24 のための新しいアイデア! LaneSegNet: 車線セグメンテーションを考慮したマップ学習
ニューラルネットワークがうまく動作しない場合はどうすればいいでしょうか?この記事の著者は、データの前...
チップを作る上で最も重要な部分は何ですか? より高度な製造プロセスを使用してトランジスタ密度と計算能...
[[432441]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
ハリー・ポッターの世界では、組分け帽子は生徒の行動履歴、好み、性格に関するデータを取得し、そのデータ...
近年の科学技術分野で最も代表的な技術をいくつか選ぶとしたら、AI技術は間違いなくそのリストに入るでし...
AI は、ネットワークとデバイスが過去の決定から学習し、将来のアクティビティを予測し、パフォーマン...
Facebook AI Research は近年、ビデオ理解研究において多くの素晴らしい成果を上げて...
人工知能 (AI) は研究と産業の両方で驚異的な成長を遂げ、科学、医学、金融、教育など多岐にわたる分...
インターネットとオンラインショッピングの普及は、一部のオフライン業界に前例のない影響をもたらしました...
[[434605]] Googleは11日、「発明家」をテーマにしたイベントを開催し、AI技術をベー...
[[441194]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
2018年の初めに、人工知能は大きな進歩を遂げました。 1月11日、スタンフォード大学が主催する世界...