この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 論文リンク: https://arxiv.org/pdf/2401.03907.pdf マルチモーダル 3D 検出器は、安全で信頼性の高い自動運転認識システムの研究に特化しています。しかし、クリーンなベンチマーク データセットで最先端 (SOTA) のパフォーマンスを達成しているにもかかわらず、現実世界の環境の複雑さと厳しい条件が無視されることがよくあります。同時に、視覚基本モデル (VFM) の出現により、自動運転におけるマルチモーダル 3D 検出の堅牢性と一般化能力の向上にも機会と課題が伴います。そのため、著者らは、SAM などの VFM を活用して分布外 (OOD) ノイズ シナリオに対処する強力なフレームワークである RoboFusion を提案しています。 まず、オリジナルの SAM を SAM-AD という自動運転シナリオに適用します。SAM または SAMAD をマルチモーダル手法と整合させるために、SAM によって抽出された画像特徴をアップサンプリングする AD-FPN が導入されます。ウェーブレット分解は、深度ガイド画像のノイズを除去して、ノイズと天候による干渉をさらに低減するために使用されます。最後に、自己注意メカニズムを使用して、融合された特徴を適応的に再重み付けし、余分なノイズを抑制しながら有益な特徴を強化します。 RoboFusion は、VFM の一般化と堅牢性を活用してノイズを徐々に削減し、マルチモーダル 3D オブジェクト検出の回復力を強化します。その結果、RoboFusion は、KITTIC および nuScenes-C ベンチマークで実証されているように、ノイズの多いシーンでも最先端のパフォーマンスを実現します。 この論文では、SAM などの VFM を活用して、3D マルチモーダル オブジェクト検出器をクリーンなシーンから OOD ノイズの多いシーンに適応させる堅牢なフレームワーク RoboFusion を提案しています。特にSAMの適応戦略は以下のとおりです。 1) 推論セグメンテーション結果の代わりに SAM から抽出された特徴を使用します。 2) ADシナリオ向けに事前トレーニングされたSAMであるSAM-ADが提案されています。 3) VFM をマルチモーダル 3D 検出器と調整するための特徴アップサンプリング問題を解決するために、新しい AD-FPN が導入されました。 4) ノイズ干渉をさらに低減し、重要な信号特性を維持するために、高周波ノイズと低周波ノイズの両方を効果的に減衰できるディープガイドウェーブレットアテンション (DGWA) モジュールが設計されています。 5) ポイントクラウドの特徴と画像の特徴を融合した後、適応融合を提案し、自己注意を通じて融合された特徴を適応的に再重み付けして、特徴の堅牢性とノイズ耐性をさらに強化します。 RoboFusion ネットワーク構造RoboFusion フレームワークを以下に示します。LIDAR ブランチはベースライン [Chen et al., 2022; Bai et al., 2022] に従って LIDAR フィーチャを生成します。カメラ部門では、まず高度に最適化された SAM-AD を使用して堅牢な画像特徴を抽出し、次に AD-FPN を使用してマルチスケール特徴を取得します。次に、元の点からスパース深度マップ S が生成され、ディープ エンコーダーに入力されて深層特徴が取得され、その後、マルチスケール画像特徴と融合されて深度誘導画像特徴が取得されます。次に、変動アテンションを使用して突然変異ノイズを除去します。最後に、適応型融合は、自己注意メカニズムを介して、ポイント クラウド機能と深度情報を備えた堅牢な画像機能を組み合わせます。 SAM-AD: SAM を AD (自動運転) シナリオにさらに適応させるために、SAM は SAM-AD を取得するように事前トレーニングされます。具体的には、成熟したデータセット(KITTI や nuScenes など)から多数の画像サンプルを収集し、基本的な AD データセットを形成しました。 DMAE の後、SAM は、図 3 に示すように、AD シナリオで SAM-AD を取得するように事前トレーニングされます。 x を AD データセット (KITTI および nuScenes) からのクリーンな画像として表し、η を x に基づいて生成されたノイズの多い画像として表します。騒音の種類と深刻度は、それぞれ 4 つの天候タイプ (雨、雪、霧、晴れ) と 1 から 5 までの 5 つの深刻度レベルからランダムに選択されました。エンコーダーとして SAM と MobileSAM の画像エンコーダーを使用しますが、デコーダーと再構成損失は DMAE と同じです。 AD-FPN。ヒント可能なセグメンテーション モデルとして、SAM は、画像エンコーダー、ヒント エンコーダー、マスク デコーダーの 3 つの部分で構成されます。一般的に、画像エンコーダを一般化して VFM をトレーニングし、次にデコーダをトレーニングする必要があります。言い換えれば、画像エンコーダーは下流モデルに高品質で非常に堅牢な画像埋め込みを提供できますが、マスクデコーダーはセマンティックセグメンテーションのデコードサービスのみを提供するように設計されています。さらに、必要なのは、キュー エンコーダによるキュー情報の処理ではなく、堅牢な画像機能です。そのため、堅牢な画像特徴を抽出には SAM の画像エンコーダを使用します。ただし、SAM は画像エンコーダーとして ViT シリーズを利用しており、マルチスケール機能は除外され、高次元の低解像度機能のみが提供されます。物体検出に必要なマルチスケール特徴を生成するために、[Li et al., 2022a]に触発されて、ViTに基づくマルチスケール特徴を提供するAD-FPNが設計されました。 SAM-AD または SAM は堅牢な画像特徴を抽出できますが、2D ドメインと 3D ドメインの間には依然としてギャップが存在し、破損した環境では幾何学的情報が不足しているカメラによってノイズが増幅され、負の転送問題が発生することがよくあります。この問題を緩和するために、次の 2 つのステップに分けられる Deep Guided Wavelet Attention (DGWA) モジュールを提案します。 1) ディープ ガイド ネットワークは、画像の特徴とポイント クラウドの深度の特徴を組み合わせて、画像の特徴の前にジオメトリを追加するように設計されています。 2) Haar ウェーブレット変換を使用して画像の特徴を 4 つのサブバンドに分解し、アテンション メカニズムによってサブバンド内の有益な特徴のノイズを除去します。 実験比較オリジナルリンク: https://mp.weixin.qq.com/s/78y1KyipHeUSh5sLQZy-ng |
>>: TimePillars: 200メートルを超える小さなターゲットの検出能力の向上
[[320404]]デジタル化は金融サービスからヘルスケアまでほぼすべての業界に混乱をもたらしてお...
海外メディアの報道によると、カリフォルニア大学リバーサイド校のエンジニアらが、ソフトロボットの動きを...
Appleは本日、カリフォルニア州サンノゼで2018年ワールドワイド開発者会議を開催し、4つの主要な...
[[187099]]一人でいるときに少し寂しさを感じたらどうすればいいでしょうか?Microsoft...
[[406246]] PyTorch とは何ですか? PyTorch は、最大限の柔軟性と速度を備え...
旅行のピーク時に都市環境衛生がより大きな圧力に耐えられるか?清掃車両と清掃作業員をより適切に管理する...
今後10年間で、翻訳者、ジャーナリスト、アシスタント、警備員、運転手、販売員、カスタマーサービス、ト...
【51CTO.comオリジナル記事】近年、「人工知能」(AI)という言葉が頻繁に登場し、今日ではこ...
交差対結合 (IoU) は、ターゲット検出で使用される概念です。ターゲット検出アルゴリズムをテストす...
[[392342]] [51CTO.com クイック翻訳]探索的データ分析から自動機械学習 (Aut...
Aisle50 の共同創設者であるクリストファー・シュタイナー氏は、新著の中で、デジタルが優位性を...
序文GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、Open...