この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 最近、Arxiv で純粋な視覚的周囲知覚に関する新しい研究を読みました。これは PETR シリーズの手法の続きであり、純粋な視覚的知覚における長距離ターゲット検出の問題を解決し、知覚範囲を 150 メートルまで拡張する方法に焦点を当てています。論文の方法と結果はかなり参考になるので、解釈してみましょう。 Far3D: サラウンドビュー 3D オブジェクト検出の可能性を広げる ミッションの背景3D オブジェクト検出は、車両周囲のオブジェクトを正確に特定して分類することを目的として、自動運転の 3D シーンを理解する上で重要な役割を果たします。純粋な視覚的周囲知覚法は、低コストと幅広い適用性という利点があり、大きな進歩を遂げてきました。しかし、それらのほとんどは短距離の知覚に焦点を当てており(たとえば、nuScenes の知覚距離は約 50 メートル)、長距離検出の分野はあまり研究されていません。遠くの物体を検出することは、特に高速走行時や複雑な道路状況での実際の運転において安全な距離を維持するために重要です。 最近、低コストで実装できるサラウンドビュー画像からの 3D オブジェクト検出において目覚ましい進歩が遂げられています。しかし、ほとんどの研究は短距離の認識範囲に焦点を当てており、長距離の検出についての研究はあまり行われていません。既存の方法を直接拡張して長距離をカバーすると、計算コストが高くなり、収束が不安定になるなどの課題が生じます。これらの制限に対処するために、本論文では Far3D と呼ばれる新しいスパース クエリ ベースのフレームワークを提案します。 論文のアイデア既存のサラウンドビュー知覚方法は、中間表現に応じて、BEV 表現に基づく方法とスパース クエリ表現に基づく方法の 2 つのカテゴリに大まかに分類できます。 BEV 特性ベースのアプローチは、集中的な BEV 特性計算のために計算コストが非常に高く、長距離シナリオに拡張することが困難です。スパースクエリ表現に基づくこの方法では、計算量を大幅に削減し、スケーラビリティを強化しながら、トレーニング データからグローバル 3D クエリを学習できます。しかし、弱点もあります。グローバル固定クエリは、クエリ数の二次増加を回避できますが、動的なシーンに適応するのが難しく、通常、長距離検出ではターゲットを見逃します。 図 1: Argoverse 2 データセットにおける 3D 検出と 2D 検出のパフォーマンス比較。 長距離検出では、スパースクエリ表現に基づく方法には主に 2 つの課題があります。
上記の問題を解決するために、本論文では以下の設計を行います。
主な貢献
モデル設計Far3D パイプラインの概要:
視点を考慮した集約:長距離検出モデルにマルチスケールの特徴を導入するために、本論文では 3D 空間変形可能注意を適用します。まず、クエリに対応する 3D 位置付近でオフセット サンプリングを実行し、次に 3D-2D ビュー変換を通じて画像の特徴を集約します。 PETR シリーズのグローバル アテンションを置き換えるこの方法の利点は、計算量を大幅に削減できることです。具体的には、3D 空間内の各クエリ参照ポイントについて、モデルはその周囲の M 個のサンプル オフセットを学習し、これらのオフセット ポイントをさまざまな 2D ビュー フィーチャに投影します。 その後、3D クエリは投影されたサンプリングされたフィーチャと対話します。このようにして、異なる視点やスケールからのさまざまな特徴が、それらの相対的な重要性を考慮して 3 次元クエリに収束されます。 範囲変調 3D ノイズ除去:異なる距離での 3D クエリには異なる回帰の難しさがあり、これは既存の 2D ノイズ除去方法 (通常は 2D クエリを平等に扱う DN-DETR など) とは異なります。難易度の違いは、クエリの一致密度とエラーの伝播によって生じます。一方、遠くのオブジェクトに対応するクエリの一致度は、近くのオブジェクトに対応するクエリの一致度よりも低くなります。一方、2D 事前確率を 3D 適応クエリに導入すると、2D オブジェクト ボックス内の小さなエラーが増幅され、この効果はオブジェクトの距離とともに増加することは言うまでもありません。したがって、GT ボックスに近い一部のクエリは肯定的なクエリと見なすことができますが、明らかに逸脱しているその他のクエリは否定的なクエリと見なす必要があります。本論文では、これらの正のサンプルを最適化し、負のサンプルを直接破棄することを目的とした 3D ノイズ除去法を提案します。 具体的には、著者らは、正と負の両方のサンプル グループを追加することにより、GT に基づくノイズの多いクエリを構築します。どちらのタイプでも、オブジェクトの位置とサイズに応じてランダムノイズが適用され、長距離知覚におけるノイズ除去学習が容易になります。正式には、正のサンプルは 3D ボックス内のランダムなポイントとして定義され、負のサンプルはグラウンド トゥルースに対してより大きなオフセットを適用し、その範囲はオブジェクトまでの距離に応じて変化します。このアプローチでは、トレーニング プロセス中にノイズの多い候補の陽性サンプルと偽陽性サンプルをシミュレートできます。 実験結果Far3D は、150 メートルの検知範囲で Argoverse 2 で最高のパフォーマンスを実現します。モデルをスケールアップすると、いくつかの LiDAR ベースの方法のパフォーマンスに到達でき、純粋な視覚方法の可能性を実証できます。 一般化パフォーマンスを検証するために、著者らは nuScenes データセットでも実験を行い、検証セットとテストセットの両方で SoTA パフォーマンスが達成されたことを示しました。 アブレーション実験では、3D 適応クエリ、視点を考慮した集約、範囲変調 3D ノイズ除去のそれぞれの利点が実証されています。 紙の思考Q: この記事の目新しい点は何ですか? Q: MV2D と BevFormer v2 の違いは何ですか? Q: クエリ伝播と機能伝播を組み合わせるなど、タイミングを改善することはできますか? Q: 他に改善すべき点はありますか? オリジナルリンク: https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg |
無人運転車による配達に続き、ドローンによる食品配達も現実化に向かって加速している。先日終了した202...
IoT アプリケーションでは、AI はデータ スタックの「最上位」で使用されることが多く、複数のソー...
ロンドン大学ユニバーシティ・カレッジの新しい報告書は、人工知能が犯罪テロに悪用される可能性を指摘して...
映画、ドラマ、テレビ番組、オンライン ビデオなどの配信チャネルのコンテンツ ワーカーの場合、コンテン...
「人工知能」という言葉を聞くと、まず頭に浮かぶのは「スマートデバイス/スマートシステム」です。しか...
米国現地時間の水曜日、マスク氏はソーシャルメディア上で、同社が今週、一部の選ばれた顧客に対して初の「...
なぜ組織は機械学習のガバナンスに苦労するのでしょうか? 組織の機械学習ガバナンスに取り組もうとすると...
[[405206]]時が経つにつれて、技術は変化してきました。自動化に関しては、今年は徐々に成果が...
デジタル化の大きな波の中で、一見些細な失敗が、深い疑問を浮かび上がらせます。それは、企業が業務に人工...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...