この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 最近、Arxiv で純粋な視覚的周囲知覚に関する新しい研究を読みました。これは PETR シリーズの手法の続きであり、純粋な視覚的知覚における長距離ターゲット検出の問題を解決し、知覚範囲を 150 メートルまで拡張する方法に焦点を当てています。論文の方法と結果はかなり参考になるので、解釈してみましょう。 Far3D: サラウンドビュー 3D オブジェクト検出の可能性を広げる ミッションの背景3D オブジェクト検出は、車両周囲のオブジェクトを正確に特定して分類することを目的として、自動運転の 3D シーンを理解する上で重要な役割を果たします。純粋な視覚的周囲知覚法は、低コストと幅広い適用性という利点があり、大きな進歩を遂げてきました。しかし、それらのほとんどは短距離の知覚に焦点を当てており(たとえば、nuScenes の知覚距離は約 50 メートル)、長距離検出の分野はあまり研究されていません。遠くの物体を検出することは、特に高速走行時や複雑な道路状況での実際の運転において安全な距離を維持するために重要です。 最近、低コストで実装できるサラウンドビュー画像からの 3D オブジェクト検出において目覚ましい進歩が遂げられています。しかし、ほとんどの研究は短距離の認識範囲に焦点を当てており、長距離の検出についての研究はあまり行われていません。既存の方法を直接拡張して長距離をカバーすると、計算コストが高くなり、収束が不安定になるなどの課題が生じます。これらの制限に対処するために、本論文では Far3D と呼ばれる新しいスパース クエリ ベースのフレームワークを提案します。 論文のアイデア既存のサラウンドビュー知覚方法は、中間表現に応じて、BEV 表現に基づく方法とスパース クエリ表現に基づく方法の 2 つのカテゴリに大まかに分類できます。 BEV 特性ベースのアプローチは、集中的な BEV 特性計算のために計算コストが非常に高く、長距離シナリオに拡張することが困難です。スパースクエリ表現に基づくこの方法では、計算量を大幅に削減し、スケーラビリティを強化しながら、トレーニング データからグローバル 3D クエリを学習できます。しかし、弱点もあります。グローバル固定クエリは、クエリ数の二次増加を回避できますが、動的なシーンに適応するのが難しく、通常、長距離検出ではターゲットを見逃します。 図 1: Argoverse 2 データセットにおける 3D 検出と 2D 検出のパフォーマンス比較。 長距離検出では、スパースクエリ表現に基づく方法には主に 2 つの課題があります。
上記の問題を解決するために、本論文では以下の設計を行います。
主な貢献
モデル設計Far3D パイプラインの概要:
視点を考慮した集約:長距離検出モデルにマルチスケールの特徴を導入するために、本論文では 3D 空間変形可能注意を適用します。まず、クエリに対応する 3D 位置付近でオフセット サンプリングを実行し、次に 3D-2D ビュー変換を通じて画像の特徴を集約します。 PETR シリーズのグローバル アテンションを置き換えるこの方法の利点は、計算量を大幅に削減できることです。具体的には、3D 空間内の各クエリ参照ポイントについて、モデルはその周囲の M 個のサンプル オフセットを学習し、これらのオフセット ポイントをさまざまな 2D ビュー フィーチャに投影します。 その後、3D クエリは投影されたサンプリングされたフィーチャと対話します。このようにして、異なる視点やスケールからのさまざまな特徴が、それらの相対的な重要性を考慮して 3 次元クエリに収束されます。 範囲変調 3D ノイズ除去:異なる距離での 3D クエリには異なる回帰の難しさがあり、これは既存の 2D ノイズ除去方法 (通常は 2D クエリを平等に扱う DN-DETR など) とは異なります。難易度の違いは、クエリの一致密度とエラーの伝播によって生じます。一方、遠くのオブジェクトに対応するクエリの一致度は、近くのオブジェクトに対応するクエリの一致度よりも低くなります。一方、2D 事前確率を 3D 適応クエリに導入すると、2D オブジェクト ボックス内の小さなエラーが増幅され、この効果はオブジェクトの距離とともに増加することは言うまでもありません。したがって、GT ボックスに近い一部のクエリは肯定的なクエリと見なすことができますが、明らかに逸脱しているその他のクエリは否定的なクエリと見なす必要があります。本論文では、これらの正のサンプルを最適化し、負のサンプルを直接破棄することを目的とした 3D ノイズ除去法を提案します。 具体的には、著者らは、正と負の両方のサンプル グループを追加することにより、GT に基づくノイズの多いクエリを構築します。どちらのタイプでも、オブジェクトの位置とサイズに応じてランダムノイズが適用され、長距離知覚におけるノイズ除去学習が容易になります。正式には、正のサンプルは 3D ボックス内のランダムなポイントとして定義され、負のサンプルはグラウンド トゥルースに対してより大きなオフセットを適用し、その範囲はオブジェクトまでの距離に応じて変化します。このアプローチでは、トレーニング プロセス中にノイズの多い候補の陽性サンプルと偽陽性サンプルをシミュレートできます。 実験結果Far3D は、150 メートルの検知範囲で Argoverse 2 で最高のパフォーマンスを実現します。モデルをスケールアップすると、いくつかの LiDAR ベースの方法のパフォーマンスに到達でき、純粋な視覚方法の可能性を実証できます。 一般化パフォーマンスを検証するために、著者らは nuScenes データセットでも実験を行い、検証セットとテストセットの両方で SoTA パフォーマンスが達成されたことを示しました。 アブレーション実験では、3D 適応クエリ、視点を考慮した集約、範囲変調 3D ノイズ除去のそれぞれの利点が実証されています。 紙の思考Q: この記事の目新しい点は何ですか? Q: MV2D と BevFormer v2 の違いは何ですか? Q: クエリ伝播と機能伝播を組み合わせるなど、タイミングを改善することはできますか? Q: 他に改善すべき点はありますか? オリジナルリンク: https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg |
ディープラーニングの急速な発展に伴い、テキスト分類、感情分析など、学術界では毎年多くの高品質な注釈付...
1. 事業の状況及び背景まずはブリッジプラットフォームを紹介します。 Bridge は、Zhihu ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
IT Homeは2月9日、「高齢者のデジタル適応力に関する調査報告」によると、スマートフォンを使用...
問題は、アリ・タブロイド紙の公開記事によると: [[93064]] #p#これは本当の、そして少し悲...
2月10日、QQ誕生23周年にあたり、テンセントQQチームは、これまでのテスト段階を経て、スーパー...
国連のアントニオ・グテーレス事務総長は10月27日(現地時間10月26日)、国際社会がAIのガバナン...
最近、OpenAIが数か月間隠していた大きな動きがついに公開されました。それが「コードインタープリタ...
GPT-4 の視覚機能がテスト用に完全にリリースされる前に、オープンソースのライバルが華々しくデビ...
テンセントが最近テスラの株式5%を購入したというニュースは業界で大きな話題を呼び、人工知能(AI)分...
20 年後の旅行と交通の未来はどうなるでしょうか? おそらく、この質問への答えははるかに複雑です。...
「人工知能の女王」ジャスティン・カッセル氏が済南の中国重汽で「人工知能と世界の未来経済」について講演...
Neural Radiance Fieldsは2020年に提案されて以来、関連論文が飛躍的に増加し...