はるか先へ! BEVHeight++: 道路脇の視覚的な 3D オブジェクト検出のための新しいソリューション!

はるか先へ! BEVHeight++: 道路脇の視覚的な 3D オブジェクト検出のための新しいソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

地面の高さに回帰することで、距離に依存しない定式化が可能になり、カメラのみを認識する方法の最適化プロセスが簡素化されます。道路脇のカメラの 3D 検出ベンチマークでは、当社の方法はこれまでのすべての視覚中心の方法を大幅に上回ります。これにより、BEVDepth と比較して、NDS が +1.9%、mAP が +1.1% という大幅な改善が実現します。 nuScenes テスト セットでは、当社の方法により大幅な改善が達成され、NDS と mAP はそれぞれ +2.8% と +1.7% 増加しました。

タイトル: BEVHeight++: 堅牢な視覚中心の 3D オブジェクト検出に向けて

論文リンク: https://arxiv.org/pdf/2309.16179.pdf

著者の所属: 清華大学、中山大学、菜鳥ネットワーク、北京大学

中国初の自動運転コミュニティから:ついに20以上の技術方向学習ルートの構築を完了(BEV認識/3D検出/マルチセンサー融合/SLAMおよび計画など)

最近の自動運転システムは、自車両センサーからの認識方法の開発に重点を置いていますが、見落とされがちな代替アプローチは、スマートな路側カメラを使用して視覚範囲を超えて認識機能を拡張することです。著者らは、最先端の視覚中心の BEV 検出方法は、路側カメラではパフォーマンスが低いことを発見しました。これは、これらの方法が主にカメラ中心付近の深度を復元することに焦点を当てているためであり、車と地面の深度差は距離が増すにつれて急速に縮小します。本論文では、この問題に対処するために、BEVHeight++ と呼ばれるシンプルでありながら効果的な方法を提案しています。本質的に、著者らは、距離に依存しない定式化を達成するために地面の高さに回帰し、カメラのみの認識方法の最適化プロセスを簡素化します。高さと深さのエンコード技術を組み合わせることで、2D から BEV 空間へのより正確で堅牢な投影が実現します。道路脇のカメラの一般的な 3D 検出ベンチマークでは、当社の方法はこれまでのすべての視覚中心の方法を大幅に上回ります。自車両シナリオの場合、BEVHeight++ は深度のみの方法よりも優れています。

具体的には、nuScenes 検証セットで評価した場合、BEVDepth と比較して NDS が +1.9%、mAP が +1.1% という大幅な改善が見られます。さらに、nuScenes テスト セットでは、NDS と mAP がそれぞれ +2.8% と +1.7% 増加し、当社の方法により大幅な改善が達成されました。

図 1: (a) 単眼画像から 3D 境界ボックスを生成するために、最先端の方法では、まずピクセル単位の深度を明示的または暗黙的に予測して、前景オブジェクトと背景の 3D 位置を決定します。しかし、画像にピクセル単位の深度をプロットすると、車がカメラから離れるにつれて屋根上の点と周囲の地面の点の差が急速に小さくなり、特に遠くの物体に対しては最適化が最適ではなくなることがわかりました。 (b) 代わりに、地面までのピクセル単位の高さをプロットし、この差は距離に関係なく、ネットワークが検出するのに視覚的に適していることを確認します。ただし、高さを予測するだけでは、3D 位置を直接回帰することはできません。 (c) この目的のために、この問題を解決するための新しいフレームワーク BEVHeight++ を提案します。実験結果によると、私たちの方法は、クリーンな設定では最良の方法より 5.49% 優れており、ノイズの多い設定では 28.2% 優れていることがわかりました。

ネットワーク構造

予測される高さと深さの比較。 (a) これまでの深度ベースの方法と私たちが提案する高さベースのパイプラインの概要。この論文では、2D から 3D への新しい投影モジュールを提案していることに注意してください。 (b) ピクセルごとの深度 (上) と地面の高さ (下) のヒストグラムをプロットすると、深度は 200 メートル以上であるのに対し、高さは 5 メートル以内であることが明確にわかり、高さの把握が容易になります。

画像上のオブジェクトの行座標と、その深さおよび高さとの相関関係。画像内のターゲットの位置は (u, v) として定義できます。ここで、v 座標は画像の行座標を表します。 (a) ロール方向とピッチ方向に沿って回転オフセットを正規分布で追加したノイズ設定の視覚的な例。 (b)は深さ分布の散布図です。 (c)は地面からの高さです。高さのノイズ設定は深さに比べて元の分布との重なりが大きく、高さの推定がより堅牢であることがわかります。

BEVHeight++ の全体的なフレームワークである検出器は、深度ベースのブランチ (シアン)、高さベースのブランチ (緑)、および特徴融合プロセス (灰色) の 3 つのサブネットワークで構成されています。深度ベースのパイプラインは、ピクセルあたりの推定深度を使用して、画像ビュー機能を深度ベースの BEV 機能 (D ベース BEV) にアップグレードします。高さベースのパイプラインは、画像ビュー内のリフト特徴の地上高予測を高さベースの BEV 特徴 (H ベース BEV) に適用します。機能融合には、画像融合と鳥瞰図融合が含まれます。画像ビュー融合は、高さ分布と画像の特徴を連結して融合された特徴を取得し、後続のリフティング操作で使用します。鳥瞰図融合は、変形可能なクロスアテンションを介して高さベースの BEV 特徴と深度ベースの BEV 特徴から融合された BEV 特徴を取得し、それを検出ヘッドの入力として使用します。

実験結果

オリジナルリンク: https://mp.weixin.qq.com/s/AdCXYzHIy2lTfAHk2AZ4_w

<<:  テンセント・ロボティクス・ラボの第一人者が起業、ヒューマノイドロボット業界に新たな重鎮が加わる

>>:  BEV におけるデータセット間レーダーカメラ融合に関する実験的研究

推薦する

...

クラウドで必要な 5 つの機械学習スキル

機械学習と AI は IT サービスにさらに深く浸透し、ソフトウェア エンジニアが開発したアプリケー...

...

...

...

スマートシティを計画する際には、アクセシビリティを忘れないようにしましょう

私たちは、使用するほぼすべてのものが「スマート」な時代に生きています。私たちのデバイスは、長い間、指...

NeRFは線画に基づいてリアルな3D顔を生成し、詳細とスタイルを自由に変更できる。この論文はSIGGRAPHに提出されている。

非常にリアルで正確に制御可能な 3 次元の顔のモデリングは、デジタル ヒューマン構築における重要な課...

神府に集い、知恵で未来を勝ち取ろう!神府デモンストレーションゾーン「ファーウェイクラウドカップ」2021年全国AIコンテストが成功裏に終了

2021年9月27日、神府改革革新モデル区、ファーウェイ、上海交通大学が共催する「神府にクラウドが集...

AIにとって合成データが必須である理由

企業はペタバイト、エクサバイト、さらにはゼタバイト単位のデータを収集しています。しかし、データは乱雑...

...

コンピューティングセンターからコンピューティングネットワークまで、人工知能は静かに変化している

人工知能はデジタル経済の高品質な発展の原動力であり、新たな科学技術革命と産業変革の重要な原動力です。...

韓信は本当に数学の達人なのでしょうか?古代中国の数学にヒントを得たコンピュータ暗号化アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

AI企業の成人式:自由が996と衝突し、技術的理想が地上戦争と衝突する

戦争の理由はすべて、例外なく一つのこと、つまり生き残ることにつながります。狼の本能がなければ、生き残...