BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション

BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文: Lift-Attend-Splat: トランスフォーマーを使用した鳥瞰カメラとライダーの融合

リンク: https://arxiv.org/pdf/2312.14919.pdf

自動運転などの安全性が重要視されるアプリケーションに堅牢な認識機能を提供するには、補完的なセンサー モダリティを組み合わせることが不可欠です。最近の最先端の自動運転用カメラ-LIDAR 融合法は単眼深度推定に依存していますが、これは LIDAR からの深度情報を直接使用するのに比べて難しい作業です。ここでは、このアプローチでは期待どおりに深度を活用していないことがわかり、単純に深度推定を改善しても物体検出のパフォーマンスは向上せず、驚くべきことに深度推定を完全に排除しても物体検出のパフォーマンスは低下しないことがわかります。

これは、単眼深度への依存が、カメラとライダーの融合中に不必要な構造上のボトルネックになる可能性があることを示唆しています。この論文では、単眼深度推定を完全に回避し、代わりに単純な注意メカニズムを使用して BEV グリッド内のカメラと LiDAR の特徴を選択して融合する新しい融合方法を紹介しています。提案モデルは、LIDAR 機能の可用性に応じてカメラ機能の使用を適応させることができ、単眼深度推定に依存するベースラインよりも nuScenes データセットで優れた 3D 検出パフォーマンスを実現できることを示します。

この論文では、単眼深度推定を完全にバイパスし、代わりに単純なトランスフォーマーを使用して BEV 内のカメラとライダーの特徴を選択して融合する、「Lift Attented Splat」と呼ばれる新しいカメラとライダーの融合手法を紹介します。証拠によれば、私たちのアプローチは、単眼深度推定に基づく方法と比較して、カメラの利用率が向上し、物体検出のパフォーマンスが向上することが示されています。貢献内容は次のとおりです。

  1. Lift Splat パラダイムに基づくカメラと LiDAR の融合アプローチでは、期待どおりに深度が活用されません。特に、単眼深度予測を完全に排除した場合、同等かそれ以上のパフォーマンスを発揮することを示します。
  2. この論文では、単純な注意メカニズムを使用して純粋な BEV 内のカメラとライダーの機能を融合する新しいカメラ - ライダー融合方法を紹介します。この論文では、Lift Splat パラダイムに基づくモデルと比較して、カメラをより有効に活用し、3D 検出パフォーマンスを向上できることが実証されています。

メイン構造の紹介

Lift Splat の深度予測は一般に精度が低いため、BEVFusion によって予測された深度品質は、絶対相対誤差 (Abs.Rel.) と二乗平均平方根誤差 (RMSE) を使用して、LIDAR 深度マップと定性的および定量的に比較することによって分析されます。図 1 に示すように、深度予測はシーンの構造を正確に反映しておらず、LiDAR 深度マップとは大きく異なります。これは、単眼深度が期待どおりに活用されていないことを示しています。この論文では、深度予測を改善しても検出性能は向上しないことも判明しました。深度予測を完全に削除しても、オブジェクト検出のパフォーマンスには影響しません。

私たちは、単眼深度推定を完全に回避し、代わりに単純なトランスフォーマーを使用して鳥瞰図でカメラとライダーの特徴を融合するカメラとライダーの融合アプローチを提案します。ただし、カメラとライダーの特徴の数が多く、注意が 2 次関数的であるため、トランスフォーマー アーキテクチャをカメラとライダーの融合問題に単純に適用することは困難です。 BEV でカメラ機能を投影する場合、カメラ機能は対応する光線に沿った位置にのみ寄与する必要があるため、問題のジオメトリを使用して注目範囲を大幅に制限できます。私たちはこの考え方をカメラとライダーの融合のケースに適用し、カメラ平面の柱とライダー BEV グリッドのエピポーラ光線の間のクロスアテンションを使用したシンプルな融合方法を紹介します。単眼の奥行きを予測する代わりに、交差注意は、光線に沿った LiDAR 機能によって提供されるコンテキストを考慮して、どのカメラ機能が最も顕著であるかを学習します。

BEV でカメラの特徴を投影することとは別に、私たちのモデルは、下の図に示すように、Lift Splat パラダイムに基づく方法と全体的なアーキテクチャが似ています。これは、各モダリティの特徴を個別に生成するカメラとライダーのバックボーン、カメラの特徴を BEV に埋め込み、ライダーと融合する投影および融合モジュール、そして最後に検出ヘッドというモジュールで構成されています。オブジェクトの検出を考えると、モデルの最終的な出力は、位置、寸法、方向、速度、分類情報を含む 3D 境界ボックスとして表されるシーン内のオブジェクトの属性です。

Lift Attented Splat カメラ LiDAR 融合アーキテクチャを以下に示します。 (左) 全体的なアーキテクチャ: カメラと LiDAR バックボーンからの特徴は、検出ヘッドに渡される前に融合されます。 (インセット) 3D 投影のジオメトリ: 「リフト」ステップでは、双線形サンプリングを使用して Z 方向に沿って LIDAR フィーチャを持ち上げることで、LIDAR BEV フィーチャを投影された地平線に埋め込みます。 「スプラット」ステップは逆変換に対応しており、双線形サンプリングを使用して、投影された地平線からの特徴を再び Z 方向に沿って BEV グリッドに投影します。右側にはプロジェクト モジュールの詳細が表示されます。

実験結果

オリジナルリンク: https://mp.weixin.qq.com/s/D7xgvrp8633S2SeUfCRFXQ

<<:  マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用

>>:  何? NeRF は BEV の一般化パフォーマンスも向上させます。最初の BEV クロスドメイン オープンソース コードと Sim2Real の最初の完成!

ブログ    
ブログ    

推薦する

人工知能とはいったい何でしょうか?人工知能の主要なテクノロジーと概念について学びましょう。

現在、人工知能が何であるかをまだよく理解していない人がたくさんいます。今日は、人工知能の主要な技術と...

[私はジャービスです]: FaceIDの背後にあるディープラーニング視覚アルゴリズムについて語る

先週発売されたiPhoneXで私が一番惹かれたのは、かわいいウサギの耳ではなく、AppleのFace...

...

AI人材が500万人不足!文部省、高等職業教育に人工知能専攻を追加

教育部は最近、浙江大学を含む35の大学の学部課程に人工知能専攻科目を追加したことに続き、大学の職業教...

トヨタが GenAI を活用して IT サービスを変革する方法

「私の大胆な決断の1つは、2025年までに従来のヘルプデスクを廃止したいということだった」とトヨタ自...

LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

産業用人工知能の未来について語る

AI はこれらの分野で大きな進歩を遂げており、世界がネットゼロの未来を目指す中でのエネルギー効率と持...

将来、人工知能が仕事を奪うことになるのでしょうか?

「将来、AI が仕事を奪うようになるか?」と尋ねると、おそらく周囲の人々からさまざまな意見が返って...

...

2022年のエッジAIの主要市場

AI ソリューションはすでにさまざまな業界で導入されており、効率性の向上、コストの削減、安全性の向上...

建設業界には後継者がいないのでしょうか?考えすぎです!建設ロボットがやって来ます!

世界の建設業界の現状人口ボーナスの消滅により、中国の建設業界は人件費への大きな圧力に直面しているほか...

...

人工知能は大きな進歩を遂げ、意識の認識が実現した

参加者が50の文章を話している間に神経活動が収集されました。機械学習アルゴリズムは、収集されたデータ...