BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション

BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文: Lift-Attend-Splat: トランスフォーマーを使用した鳥瞰カメラとライダーの融合

リンク: https://arxiv.org/pdf/2312.14919.pdf

自動運転などの安全性が重要視されるアプリケーションに堅牢な認識機能を提供するには、補完的なセンサー モダリティを組み合わせることが不可欠です。最近の最先端の自動運転用カメラ-LIDAR 融合法は単眼深度推定に依存していますが、これは LIDAR からの深度情報を直接使用するのに比べて難しい作業です。ここでは、このアプローチでは期待どおりに深度を活用していないことがわかり、単純に深度推定を改善しても物体検出のパフォーマンスは向上せず、驚くべきことに深度推定を完全に排除しても物体検出のパフォーマンスは低下しないことがわかります。

これは、単眼深度への依存が、カメラとライダーの融合中に不必要な構造上のボトルネックになる可能性があることを示唆しています。この論文では、単眼深度推定を完全に回避し、代わりに単純な注意メカニズムを使用して BEV グリッド内のカメラと LiDAR の特徴を選択して融合する新しい融合方法を紹介しています。提案モデルは、LIDAR 機能の可用性に応じてカメラ機能の使用を適応させることができ、単眼深度推定に依存するベースラインよりも nuScenes データセットで優れた 3D 検出パフォーマンスを実現できることを示します。

この論文では、単眼深度推定を完全にバイパスし、代わりに単純なトランスフォーマーを使用して BEV 内のカメラとライダーの特徴を選択して融合する、「Lift Attented Splat」と呼ばれる新しいカメラとライダーの融合手法を紹介します。証拠によれば、私たちのアプローチは、単眼深度推定に基づく方法と比較して、カメラの利用率が向上し、物体検出のパフォーマンスが向上することが示されています。貢献内容は次のとおりです。

  1. Lift Splat パラダイムに基づくカメラと LiDAR の融合アプローチでは、期待どおりに深度が活用されません。特に、単眼深度予測を完全に排除した場合、同等かそれ以上のパフォーマンスを発揮することを示します。
  2. この論文では、単純な注意メカニズムを使用して純粋な BEV 内のカメラとライダーの機能を融合する新しいカメラ - ライダー融合方法を紹介します。この論文では、Lift Splat パラダイムに基づくモデルと比較して、カメラをより有効に活用し、3D 検出パフォーマンスを向上できることが実証されています。

メイン構造の紹介

Lift Splat の深度予測は一般に精度が低いため、BEVFusion によって予測された深度品質は、絶対相対誤差 (Abs.Rel.) と二乗平均平方根誤差 (RMSE) を使用して、LIDAR 深度マップと定性的および定量的に比較することによって分析されます。図 1 に示すように、深度予測はシーンの構造を正確に反映しておらず、LiDAR 深度マップとは大きく異なります。これは、単眼深度が期待どおりに活用されていないことを示しています。この論文では、深度予測を改善しても検出性能は向上しないことも判明しました。深度予測を完全に削除しても、オブジェクト検出のパフォーマンスには影響しません。

私たちは、単眼深度推定を完全に回避し、代わりに単純なトランスフォーマーを使用して鳥瞰図でカメラとライダーの特徴を融合するカメラとライダーの融合アプローチを提案します。ただし、カメラとライダーの特徴の数が多く、注意が 2 次関数的であるため、トランスフォーマー アーキテクチャをカメラとライダーの融合問題に単純に適用することは困難です。 BEV でカメラ機能を投影する場合、カメラ機能は対応する光線に沿った位置にのみ寄与する必要があるため、問題のジオメトリを使用して注目範囲を大幅に制限できます。私たちはこの考え方をカメラとライダーの融合のケースに適用し、カメラ平面の柱とライダー BEV グリッドのエピポーラ光線の間のクロスアテンションを使用したシンプルな融合方法を紹介します。単眼の奥行きを予測する代わりに、交差注意は、光線に沿った LiDAR 機能によって提供されるコンテキストを考慮して、どのカメラ機能が最も顕著であるかを学習します。

BEV でカメラの特徴を投影することとは別に、私たちのモデルは、下の図に示すように、Lift Splat パラダイムに基づく方法と全体的なアーキテクチャが似ています。これは、各モダリティの特徴を個別に生成するカメラとライダーのバックボーン、カメラの特徴を BEV に埋め込み、ライダーと融合する投影および融合モジュール、そして最後に検出ヘッドというモジュールで構成されています。オブジェクトの検出を考えると、モデルの最終的な出力は、位置、寸法、方向、速度、分類情報を含む 3D 境界ボックスとして表されるシーン内のオブジェクトの属性です。

Lift Attented Splat カメラ LiDAR 融合アーキテクチャを以下に示します。 (左) 全体的なアーキテクチャ: カメラと LiDAR バックボーンからの特徴は、検出ヘッドに渡される前に融合されます。 (インセット) 3D 投影のジオメトリ: 「リフト」ステップでは、双線形サンプリングを使用して Z 方向に沿って LIDAR フィーチャを持ち上げることで、LIDAR BEV フィーチャを投影された地平線に埋め込みます。 「スプラット」ステップは逆変換に対応しており、双線形サンプリングを使用して、投影された地平線からの特徴を再び Z 方向に沿って BEV グリッドに投影します。右側にはプロジェクト モジュールの詳細が表示されます。

実験結果

オリジナルリンク: https://mp.weixin.qq.com/s/D7xgvrp8633S2SeUfCRFXQ

<<:  マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用

>>:  何? NeRF は BEV の一般化パフォーマンスも向上させます。最初の BEV クロスドメイン オープンソース コードと Sim2Real の最初の完成!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

Baidu がモバイル検索ランキングアルゴリズムを調整し、アプリのランキング結果を改善

百度の関係者は、現在、携帯電話でPCのウェブサイトにアクセスした場合、最高の閲覧体験を得ることは難し...

ヘルスケア市場における人工知能は2028年までに615億9000万ドルに達すると予想

[[432745]]パーソナライズ医療の需要の高まりは、ヘルスケア市場における人工知能の成長を推進す...

人工知能の責任ある使用のための10の原則

AI の責任ある使用に関する包括的な原則は、信頼、公平性、説明責任を促進することです。人工知能 (A...

Zhihu の Bridge Platform は、ビジネス機能を強化するコンテンツ運用プラットフォームをどのように構築するのでしょうか?

1. キーワードZhihu、Bridge、コンテンツ プール、コンテンツ管理プラットフォーム、コン...

OpenAI、リーダーシップ争いの末に新事業GPTストアを立ち上げ

ChatGPT Team は OpenAI の Enterprise Edition 製品の小型版で...

スマート シティ: 誇大広告と現実を切り離す!

スマート シティをめぐる熱狂はかつてないほど高まっていますが、この熱狂の中で、スマート シティが私た...

機械学習について知っておくべき5つのこと

急速に進化するあらゆるトピックと同様に、学ぶべき新しいことが常に存在し、機械学習も例外ではありません...

LangChain と DeepInfra を使用してカスタマー サポート チャットボットを構築するためのガイド

翻訳者 |ブガッティレビュー | Chonglou日常のオンラインのやり取りの中でチャットボットを目...

12 の主要な AI ホットテクノロジーの方向性を網羅する、AISummit グローバル人工知能テクノロジーカンファレンス 2022 が開催されます。

人工知能は、60年以上にわたる発展の中で、数々の浮き沈みを経験してきました。近年、モバイルインターネ...

ディープラーニング? 「ブラックボックス」である必要はない

ディープニューラルネットワークのパラメータネットワークは非常に大きく複雑であり、これによりマシンはこ...

...

AIを活用した臨床モニタリングシステムの台頭

[[355709]]現在、医療システムもさまざまな方法で人工知能の利点を取り入れています。人工知能(...