BEVFusionを超えて!高速かつシンプルなBEV統合展開ソリューション

BEVFusionを超えて!高速かつシンプルなBEV統合展開ソリューション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

アルゴリズムの開発中に、LiDAR カメラによる 3D オブジェクト検出で過剰適合の問題が発生しましたが、これはいくつかの基本ルールに違反したために発生しました。データセット構築のためのデータ注釈に関しては、この論文では理論的な補足を参照し、回帰タスクの予測にはカメラブランチからの特徴を含めるべきではないと主張しています。本論文では、「検出としてのラベル付け」という最先端の視点を採用し、DAL と呼ばれる新しいパラダイムを提案します。最も古典的なプライマリアルゴリズムを使用して、データのラベル付けプロセスを模倣することで、シンプルな予測パイプラインが構築されました。次に、依存性を最小限に抑え、移植性を高めるために、最も簡単な方法でトレーニングします。提案された DAL パラダイムは、構築とトレーニングが簡単であるにもかかわらず、パフォーマンスにおいて大きな進歩を遂げるだけでなく、既存のすべての方法の中で速度と精度の間の優れたトレードオフも提供します。 DAL は、その包括的な利点により、将来の作業開発と実際の展開にとって理想的なベンチマークとなります。コードは https://github.com/HuangJunJie2017/BEVDet でリリースされています。

構築とトレーニングがシンプルであるにもかかわらず、提案された DAL パラダイムは、パフォーマンスの限界を大幅に押し上げるだけでなく (例: nuScenes 検証セットでは 74.0 NDS、nuScenes テスト セットでは 74.8 NDS)、既存のすべての方法の中で速度と精度の優れたトレードオフも提供します。この論文の主な貢献は以下のように要約できる。

  1. この記事では、3D オブジェクト検出における LiDAR カメラ融合について、「注釈としての検出」という最先端の視点を提案しています。これは既存の方法に対する良い補足であり、将来の作業で従うべき基本的なルールです。
  2. この論文では、「注釈としての検出」の観点に従って、DAL と呼ばれる堅牢なパラダイムを構築します。 DAL は、非常に優れたトレーニング パイプラインを備えた最初の LiDAR カメラ融合パラダイムです。さらに、この問題のパフォーマンスの限界を大幅に押し上げ、推論の遅延と精度の間の優れたトレードオフを実現します。 DAL は総合的な強みを備えており、将来の業務開発や実際の使用に最適なベースラインです。
  3. この記事では、速度分布における避けられない不均衡を指摘し、この問題を軽減するためにインスタンス レベルの速度向上を提案しています。

アルゴリズムネットワーク設計

「検出はラベル付けである」という観点から、次の図に示すように、データのラベル付けプロセスを模倣して予測パイプラインを構築します。提案されたパイプラインは、密から疎へのパラダイムに従います。高密度認識段階では、特徴のエンコードと候補特徴の生成に重点が置かれます。画像エンコーダーとポイント クラウド エンコーダーを使用して、それぞれ画像とポイント クラウドから特徴を抽出します。 N はビューの数です。 H × W は、画像ビュー内のフィーチャのサイズを表します。 X × Y は鳥瞰図 (BEV) における特徴のサイズを表します。特徴エンコーダーには、従来のバックボーン構造 (ResNet や VoxelNet など) とネック構造 (FPN や SECOND など) があります。高密度画像の BEV 特徴とポイント クラウドの BEV 特徴を単純に連結し、2 つの追加の残差ブロックを適用して高密度ヒートマップを予測します。 C はカテゴリの数を表します。最後に、密なヒートマップ内で予測スコアが上位の K 個の候補が選択されます。これは、データ注釈における候補生成プロセスを模倣します。このプロセスでは、画像とポイント クラウドの両方の特徴を使用して、候補データの完全なセットが生成されます。

DAL パラダイムの予測パイプライン。画像とポイント クラウドからの BEV 特徴が融合され、高密度のヒートマップが生成されます。回帰タスク予測のために、上位 K 件の提案とそのポイント クラウド機能を抽出します。画像特徴、画像 BEV 特徴、および点群 BEV 特徴を融合した特徴がカテゴリ予測に使用されます。各提案の対応する予測中心に基づいて、スパース画像の特徴が抽出されます。

スパース認識段階では、まず、各候補オブジェクトのポイント クラウド機能が、高密度ヒート マップ内の座標に従って収集されます。次に、単純なフィードフォワード ネットワーク (FFN) を使用して、回帰ターゲット (中心、サイズ、方向、速度など) を予測します。過剰適合の問題を防ぐため、このプロセスには画像の特徴は考慮されません。最後に、本論文では、画像特徴、画像 BEV 特徴、およびポイント クラウド BEV 特徴を融合して、カテゴリ予測用の融合特徴を生成します。画像の BEV 特徴の一部は、密なヒートマップ内の候補オブジェクトの座標に基づいて抽出され、画像特徴の一部は、予測されたオブジェクトの中心に基づいて抽出されます。

DAL の予測パイプラインは、いくつかの重要な変更を除いて、その構造設計の大部分を BEVFusion から継承しています。まず、ポイント クラウド BEV 機能と画像 BEV 機能が高密度 BEV エンコーダーの後に融合され、BEVFusion はエンコーダーの前に融合されます。この論文では、LiDAR ブランチの回帰能力を最大化するために融合を延期します。次に、スパースインスタンスと BEV 機能間の注目は不要であると判断されたため削除されます。最後に、回帰タスクでは予測にポイント クラウド機能のみを使用しますが、BEVFusion では融合された機能を使用します。

この論文では予測パイプラインを構築する際の適切なアプローチを配布しているため、ほとんどの従来のビジョンタスクと同様に、ImageNet で事前トレーニングされた画像バックボーンのパラメータをロードするだけで済みます。次に、1 つのステージのみでエンドツーエンド方式で DAL をトレーニングします。ターゲット データセット nuScenes のデータのみが使用されます。このようにして、文献では珍しい最もエレガントな方法で DAL モデルをトレーニングします。

たとえば、DAL は目標と損失の設計を TransFusion および BEVFusion と共有します。さらに、本論文では、画像の特徴に補助的な分類ヘッドを追加して、候補オブジェクトの検索とさまざまなカテゴリの区別における画像ブランチの能力を強化します。 3D オブジェクト検出ヘッドの密な認識段階と疎な認識段階の両方での監視に欠陥があるため、これは DAL にとって非常に重要です。具体的には、高密度知覚段階では、ビュー変換で予測された深度スコアに応じて画像の特徴が調整されます。バックプロパゲーションの勾配についても同様です。予測された深度スコアが不完全であることは避けられず、監督も同様です。スパース認識ステージでは、注釈が付けられたすべてのオブジェクトの画像特徴ではなく、予測されたインスタンスの画像特徴のみが損失計算に関与します。すべての注釈付きオブジェクトを監視する補助分類ヘッドは、上記の問題に対処し、画像ブランチをある程度強化することができます。実際には、注釈付きオブジェクトの重心を使用して、注釈付きオブジェクトごとにスパースな特徴を抽出します。次に、別の FFN を使用してスパースな特徴を分類し、損失の計算は 3D オブジェクト検出ヘッドの分類タスクと同じです。この論文では、再重み付けの代わりに、補助損失を既存の損失に直接追加します。

回帰タスク予測で画像の特徴を破棄すると、避けられないパフォーマンスの低下を防ぐだけでなく、画像空間でのより広範なデータ拡張も可能になります。この記事では、サイズ変更の強化を例に挙げて説明します。カメラベースの 3D オブジェクト検出は、画像ビュー内のオブジェクトのサイズに基づいてオブジェクトのサイズを予測します。画像のサイズがランダムに変更される場合、画像の特徴と予測ターゲット間の一貫性を維持するために、予測ターゲットをそれに応じて調整する必要があります。次に、LiDAR カメラを融合した 3D オブジェクト検出の連鎖反応でポイント クラウドが生成されます。そのため、既存の方法では常に画像空間で小規模なデータ拡張が使用されます。その結果、ほとんどの画像 2D タスク (分類、検出、セグメンテーションなど) において、画像空間での大規模なデータ拡張のメリットを享受できなくなります。

最後に、トレーニング データ内の速度の分布が極端に不均衡であることがわかります。図 3 に示すように、nuScenes トレーニング セット内の車カテゴリのインスタンスのほとんどは静的です。分布を調整するために、いくつかの静的オブジェクトがランダムに選択され、それらのポイント クラウドが事前定義された速度に応じて調整されます (図 4 を参照)。複数の LiDAR フレームからのポイントの完全なセットは、注釈付きの境界ボックスから簡単に識別できるため、静的オブジェクトに対してのみ速度の向上を実行します。

図 3. nuScenes トレーニング セットにおける車クラスの速度分布。

図4. 同じ静的オブジェクトが異なる定義済みの速度(つまり(vx、vy))を使用して強化される

関連する実験結果

データセット

この論文では、大規模ベンチマーク nuScenes に関する包括的な実験を実施します。 NuScenes は、3D オブジェクト検出、占有予測、BEV セマンティック セグメンテーション、エンドツーエンドの自動運転など、多くの屋外タスクを検証するための最先端の人気ベンチマークです。これには、6 台のカメラからの画像と 32 本のビームを持つ LiDAR からのポイント クラウドを含む 1000 のシーンが含まれています。カメラ クラスターは、LiDAR と一致する 360 度の視野を備えています。これにより、LiDAR カメラ融合アルゴリズムを評価するためのデータセットとして最適になります。シーンは、トレーニング/検証/テスト用に 700/150/150 シーンに正式に分割されます。車、トラック、バス、トレーラー、建設車両、歩行者、オートバイ、自転車、障害物、交通コーンの 10 クラスに、140 万個の注釈付き 3D 境界ボックスがあります。

評価指標

この論文では、3D オブジェクト検出について、公式に事前定義されたメトリックである平均精度 (mAP)、平均変換誤差 (ATE)、平均スケール誤差 (ASE)、平均方向誤差 (AOE)、平均速度誤差 (AVE)、平均属性誤差 (AAE)、および NuScenes 検出スコア (NDS) を報告します。 mAP は、2D オブジェクト検出の mAP に似ており、精度と再現率を測定しますが、交差和集合 (IOU) ではなく、グラウンド トゥルース上の 2D 中心距離のマッチングに基づいています。 NDSは他の指標と組み合わせることで、検出能力を総合的に判断するために使用されます。残りのメトリックは、対応する側面(変換、スケール、方向、速度、属性など)の肯定的な結果の精度を計算するために使用されます。

予測パイプライン

表 2 に示すように、この論文では、2 つの古典的な 3D オブジェクト検出パラダイム BEVDet-R50 と CenterPoint に従って、それぞれアブレーション研究用の画像ブランチと LiDAR ブランチを構築します。さらに、この記事では、推論の遅延と精度の間で優れたトレードオフを実現する推奨構成をいくつか紹介します。

研修と評価

DAL モデルは、バッチ サイズ 64 の 16 3090 GPU でトレーニングされます。表1に示すように、
複数の事前トレーニング段階と複雑な学習率戦略を必要とする既存のほとんどの方法とは異なり、DAL は ImageNet 分類タスクから事前トレーニング済みの重みをロードし、CBGS を使用してパイプライン全体を 20 エポックにわたってトレーニングします。 DAL は CenterPoint と同じ学習率戦略を共有します。具体的には、学習率は、初期値が 2.0×10-4 である循環学習率戦略に従って調整されます。評価中は、テスト時の拡張を行わない単一モデルのパフォーマンスを報告します。デフォルトでは、推論速度は単一の 3090 GPU でテストされます。 BEVPoolV2 は、ビュー変換アルゴリズム LSS を高速化するために使用されます。

nuScenes val set の結果。表 4 に示し、図 1 に示すように、提案された DAL パラダイムは、パフォーマンスの限界を大幅に押し上げるだけでなく、速度と精度の間のより優れたトレードオフも提供します。構成 DAL-Large は、71.5 mAP と 74.0 NDS のスコアを達成し、それぞれ +1.0 mAP と +0.7 NDS の増加で既存の最高記録を大幅に上回りました。このような高い精度にもかかわらず、DAL-Large は 6.10 FPS の推論速度で実行されます。もう一つの推奨構成である DAL-Base は、最速の方法である CMT-R50 と同様の推論速度で実行されます。その精度はそれぞれ 2.1 mAP と 2.6 NDS で、CMT-R50 の精度を大幅に上回ります。 CMT-R50 と同等の精度で、DAL-Tiny は 54% の高速化を実現します。

nuScenes テスト セットの結果。この論文では、モデルのアンサンブルとテスト時間の延長を行わない nuScenes テスト セットでの DAL-Large 構成のパフォーマンスを報告します。 DAL は NDS 74.8 を使用した他のすべての方法よりも優れています。

要約する

この論文では、LIDAR カメラ融合による 3D オブジェクト検出のための最先端の視点「注釈としての検出」を提案します。 DAL はこの観点に従って開発されたテンプレートです。 DAL は、簡潔な予測パイプラインと簡単なトレーニング プロセスを備えた非常にエレガントな例です。これらの点ではシンプルであるにもかかわらず、LIDAR とカメラを融合した 3D オブジェクト検出のパフォーマンスの限界を大幅に押し上げ、速度と精度の最適なバランスを実現します。したがって、これは将来の作業と実用的なアプリケーションにとって良いマイルストーンとなります。

LiDAR の範囲外にあるオブジェクトは DAL では考慮されません。この論文では、ポイント クラウド フィーチャのみを使用して高密度ヒートマップを予測し、それを融合フィーチャを使用して予測されたヒートマップと比較することで、このケースを区別しようとします。次に、別の FFN を使用して、融合された機能上のこれらのインスタンスの回帰ターゲットを予測します。ただし、この変更は最終的な精度にはあまり貢献しません。これは、nuScenes では 1 つ以上の LIDAR ポイントを持つオブジェクトのみが注釈付けされるためです。さらに、nuScenes 評価では、範囲が十分に小さいため、予測と回帰に十分な LIDAR ポイントが使用されることが保証されます。

さらに、nuScenes データセットの単純な分類タスクでは、DAL が SwinTransformer、DCN、EfficientNet などの高度な画像バックボーンを適用することが制限されます。オープンワールドの分類タスクははるかに複雑であり、したがってより困難です。したがって、イメージ ブランチは実際には高レベルのイメージ バックボーンを活用できます。

DAL には注意を必要としない予測パイプラインがありますが、これは「ラベル付けとしての検出」の価値を明らかにするためのテンプレートにすぎません。したがって、この論文では注意を適用せずに最も古典的なアルゴリズムを使用します。ただし、この記事はそれを DAL から除外することを意図するものではありません。対照的に、本論文では、注意はさまざまな方法で DAL をさらに発展させることができる魅力的なメカニズムであると主張しています。たとえば、UniTR のような高レベルの DSVT バックボーンを適用したり、CMT のような注意ベースの LiDAR カメラ融合を適用したり、DETR のような注意ベースのスパース検出パラダイムを適用したりできます。

オリジナルリンク: https://mp.weixin.qq.com/s/NQ9LIAxsN4Azj0Nj7fV10w

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

ChatGPTの背後にある技術的進化を分析する

1. 自然言語理解と言語モデル1.1 自然言語処理自然言語処理 (NLP) は人工知能 (AI) の...

2Dラベルのみを使用してマルチビュー3D占有モデルをトレーニングするための新しいパラダイム

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

次世代の人工知能は将来のテクノロジーの展望を一変させるだろう

過去 10 年間、従来のシステムからクラウド コンピューティング サービス、ランサムウェア対策まで、...

...

...

2019年のAI開発の7つの分野

[[257419]] 2018 年は人工知能 (AI) の主流採用をさらに促進し、より多くの機能の提...

Google Research: ゲーデル賞とクヌース賞受賞者が「脳内のテキスト表現」を分析

このオンラインセミナーで特に注目を集めた講演は、コロンビア大学のコンピューターサイエンス教授であるク...

超便利!追加のコードを書かずに依存性注入の5つの原則をマスターする

この概念に初めて遭遇した場合、一瞬理解できないかもしれません。インターネット上のさまざまな説明により...

ビル・ゲイツ:AIが最大の影響を与えるには何十年もかかる

[[271684]]ビル・ゲイツは、世界を変えるトレンドを予見し、それを活用することで、史上最も成功...

...

40年前、袁龍平が田んぼで教えている姿はこんな感じです!ネットユーザーがAIを使って貴重な動画を復元し悲しみを表現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能とビッグデータが私たちの生活に何をもたらすかご存知ですか?

「ビッグデータ」と「人工知能」はテクノロジー業界で最も価値のある分野となっている。Apple、Go...

人工知能とプライバシーの議論: AIの透明性の長所と短所を理解する

AI がますます多くの業界で採用されるようになるにつれ、AI のユーザーは、実用性を効果的に維持しな...

2022 年に注目すべき主要なエッジ AI トレンド

1956 年に大学の研究分野として取り入れられて以来、AI は楽観的な時期と悲観的な時期を同程度に...