SupFusion: 香港中文大学の最新の LV 融合による 3D 検出用新 SOTA!

SupFusion: 香港中文大学の最新の LV 融合による 3D 検出用新 SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: SupFusion: 3D オブジェクト検出のための教師あり LiDAR カメラ融合

論文リンク: https://arxiv.org/pdf/2309.07084.pdf

著者所属機関: NIO、香港中文大学

コードリンク: https://github.com/IranQin/SupFusion

会議: ICCV 2023

論文のアイデア

LiDARとカメラの融合による3次元検出は、自動運転を実現するための重要な技術の一つです。近年、多くの LiDAR カメラ融合方式が登場し、単一モダリティ検出器と比較して有望なパフォーマンスを実現していますが、融合プロセスの慎重な設計と効果的な監視が常に欠如しています。

本稿では、LiDAR とカメラの融合を効果的に行うための補助的な特徴レベルの監視を提供し、検出性能を大幅に向上させる新しいトレーニング戦略 SupFusion を提案します。私たちの戦略には、Polar Sampling と呼ばれるデータ拡張手法が採用されています。これは、スパース オブジェクトを暗号化し、補助モデルをトレーニングして、監視として高品質の機能を生成するものです。これらの特徴は、LiDAR カメラ融合モデルのトレーニングに使用され、融合された特徴は、生成された高品質の特徴をシミュレートするために最適化されます。さらに、本論文では、SupFusion 戦略に基づく既存の融合方法と比較して一貫して優れたパフォーマンスを発揮する、シンプルでありながら効果的なディープ融合モジュールを提案します。この論文で提案された方法には、次のような利点があると思われます。まず、SupFusion は補助的な特徴レベルの監視を導入し、追加の推論コストを導入することなく LiDAR カメラの検出パフォーマンスを向上させることができます。第二に、提案された深核融合により、検出器の能力を継続的に向上させることができます。本論文で提案されている SupFusion およびディープ フュージョン モジュールはプラグ アンド プレイであり、その有効性を実証するために多数の実験が行われています。具体的には、複数の LiDAR カメラ 3D 検出器に基づいて、この論文では KITTI ベンチマークで約 2% の 3D mAP の改善を実現しています。

主な貢献

本稿では、SupFusion という新しい教師あり融合トレーニング戦略を提案します。これは主に高品質の特徴生成プロセスで構成されており、私たちの知る限り、堅牢な融合特徴抽出と正確な 3D 検出を実現するために補助的な特徴レベルの監督損失を提案した初めての戦略です。

SupFusion で高品質の特徴を得るために、本論文では、極座標サンプリングを使用してスパース オブジェクトを暗号化するデータ拡張方法を提案します。さらに、本論文では、連続検出精度を向上させる効率的なディープフュージョンモジュールを提案しています。

我々は、異なる融合戦略を用いて複数の検出器で広範な実験を実施し、KITTI ベンチマークで約 2% の mAP 改善を達成しました。

ネットワーク設計

本論文では、高品質の特徴を生成し、融合および特徴抽出プロセスに効果的な監督を提供し、LiDAR カメラ融合に基づく 3D 検出のパフォーマンスをさらに向上させる、SupFusion という教師あり LiDAR カメラ融合方法を提案します。具体的には、まず高品質の機能を提供するために補助モデルをトレーニングします。この目標を達成するために、より大きなモデルや追加データを利用する従来の方法とは異なり、本論文では Polar Sampling と呼ばれる新しいデータ拡張方法を提案します。極座標サンプリングは、スパースな LIDAR データからオブジェクトの密度を動的に高め、オブジェクトの検出を容易にし、正確な検出結果につながる特徴などの特徴の品質を向上させることができます。次に、補助的な特徴レベルの監視を導入することで、LiDAR カメラ融合ベースの検出器をトレーニングします。このステップでは、生の LiDAR とカメラの入力を 3D/2D バックボーンと融合モジュールに送り、融合された機能を取得します。一方では、融合された特徴は、最終的な予測、つまり決定レベルの監視のために検出ヘッドに送られます。一方、補助的な監督は、事前にトレーニングされた補助モデルと強化された LiDAR データを通じて取得された、融合された特徴を高品質の特徴としてシミュレートします。このように、提案された特徴レベルの監視により、融合モジュールはより堅牢な特徴を生成し、検出パフォーマンスをさらに向上させることができます。 LiDAR とカメラの機能をより適切に融合するために、この論文では、スタックされた MLP ブロックと動的融合ブロックで構成されるシンプルでありながら効果的なディープ融合モジュールを提案します。 SupFusion は、ディープ フュージョン モジュールの機能を最大限に活用し、検出精度を継続的に向上させることができます。

図 2: 検出器のトレーニング プロセス。この論文では、与えられた LiDAR カメラ サンプルについて、対応する 3D/2D エンコーダーを通じて特徴表現を抽出し、提案されたディープ フュージョン モジュールを使用してマルチモーダル特徴を融合します。損失を検出するだけでなく  さらに、本論文では補助的な特徴レベルの監督を提案している。   、融合された特徴  高品質な機能をシミュレートする 補助モデルと拡張データによって生成されます。

図 3: 高品質な特徴生成プロセス。任意の LiDAR サンプルについて、データベースから照会された密なターゲットの方向と回転を計算し、貼り付けによって疎なターゲットに追加のポイントを追加する極座標貼り付けによって疎なターゲットを暗号化します。この論文では、まず強化されたデータを使用して補助モデルをトレーニングし、強化された LiDAR データを補助モデルに入力して、高品質の特徴を生成します。   収束するまで続けます。

図 1: 上部: 従来の LiDAR カメラ 3D 検出器。検出損失を介して融合モジュールを最適化します。下: この論文で提案された SupFusion。ここでは、補助モデルによって提供される高品質の機能を使用した補助的な監督を提案しています。

図 4: 極座標グループ化は、主に各クラスの方向と回転を含む極座標系で各グループの密なオブジェクトを格納するデータベースを構築することです。

実験結果

参考文献

Qin, Y., Wang, C., Kang, Z., Ma, N., Li, Z., & Zhang, R. (2023). SupFusion: 3D オブジェクト検出のための教師あり LiDAR カメラ融合。ArXiv. /abs/2309.07084

オリジナルリンク: https://mp.weixin.qq.com/s/-pPUtrlfeo_09svMxk2qFA

<<:  ロボットと人間:その組み合わせが産業オートメーションの様相を変える可能性

>>: 

ブログ    
ブログ    

推薦する

...

将来、人工知能が自発的な感情知能を獲得することは可能でしょうか?

人工知能の発展は人類の生存を脅かすという見方は以前からあった。人類の知能の典型的な反映である囲碁で、...

よりスケーラブルになるにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI as a Service: AIとクラウドコンピューティングが出会うとき

競争で優位に立つために、ますます多くの企業が自社のアプリケーション、製品、サービス、ビッグデータ分析...

天津市、スマートテクノロジー産業の発展促進に向け多方面から対策

2017年に第1回世界情報会議が開催されて以来、天津では257件のプロジェクトが実施され、1000億...

データがあなたを監視することに抵抗はありませんか?

AI 技術の発展と影響に関する最近の調査、研究、予測、その他の定量的評価により、消費者はデータのプ...

...

BEV におけるレーダー・カメラ間データセット融合に関する実験的研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能の雇用見通しはどれほど明るいのでしょうか?これらのポジションは不足しており、経済的見通しは良好です

近年、科学技術の急速な発展により、人工知能分野の人材が非常に人気を集めています。 UiPath が以...

人工知能は10の新たな雇用を生み出す

25秒で何ができるでしょうか?人間の記者たちがまだショックを受けている間に、ロボットはデータマイニン...

...

優れたオープンソース音声認識エンジン13選

自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...

EU、生成AIツールの規制について暫定合意に達する:これまでで最も包括的な規則

12月9日、ワシントンポスト紙やエンガジェットなどの海外メディアの報道によると、世界各国がAIの急速...