RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文リンク: https://arxiv.org/pdf/2401.03907.pdf

マルチモーダル 3D 検出器は、安全で信頼性の高い自動運転認識システムの研究に特化しています。しかし、クリーンなベンチマーク データセットで最先端 (SOTA) のパフォーマンスを達成しているにもかかわらず、現実世界の環境の複雑さと厳しい条件が無視されることがよくあります。同時に、視覚基本モデル (VFM) の出現により、自動運転におけるマルチモーダル 3D 検出の堅牢性と一般化能力の向上にも機会と課題が伴います。そのため、著者らは、SAM などの VFM を活用して分布外 (OOD) ノイズ シナリオに対処する強力なフレームワークである RoboFusion を提案しています。

まず、オリジナルの SAM を SAM-AD という自動運転シナリオに適用します。SAM または SAMAD をマルチモーダル手法と整合させるために、SAM によって抽出された画像特徴をアップサンプリングする AD-FPN が導入されます。ウェーブレット分解は、深度ガイド画像のノイズを除去して、ノイズと天候による干渉をさらに低減するために使用されます。最後に、自己注意メカニズムを使用して、融合された特徴を適応的に再重み付けし、余分なノイズを抑制しながら有益な特徴を強化します。 RoboFusion は、VFM の一般化と堅牢性を活用してノイズを徐々に削減し、マルチモーダル 3D オブジェクト検出の回復力を強化します。その結果、RoboFusion は、KITTIC および nuScenes-C ベンチマークで実証されているように、ノイズの多いシーンでも最先端のパフォーマンスを実現します。

この論文では、SAM などの VFM を活用して、3D マルチモーダル オブジェクト検出器をクリーンなシーンから OOD ノイズの多いシーンに適応させる堅牢なフレームワーク RoboFusion を提案しています。特にSAMの適応戦略は以下のとおりです。

1) 推論セグメンテーション結果の代わりに SAM から抽出された特徴を使用します。

2) ADシナリオ向けに事前トレーニングされたSAMであるSAM-ADが提案されています。

3) VFM をマルチモーダル 3D 検出器と調整するための特徴アップサンプリング問題を解決するために、新しい AD-FPN が導入されました。

4) ノイズ干渉をさらに低減し、重要な信号特性を維持するために、高周波ノイズと低周波ノイズの両方を効果的に減衰できるディープガイドウェーブレットアテンション (DGWA) モジュールが設計されています。

5) ポイントクラウドの特徴と画像の特徴を融合した後、適応融合を提案し、自己注意を通じて融合された特徴を適応的に再重み付けして、特徴の堅牢性とノイズ耐性をさらに強化します。

RoboFusion ネットワーク構造

RoboFusion フレームワークを以下に示します。LIDAR ブランチはベースライン [Chen et al., 2022; Bai et al., 2022] に従って LIDAR フィーチャを生成します。カメラ部門では、まず高度に最適化された SAM-AD を使用して堅牢な画像特徴を抽出し、次に AD-FPN を使用してマルチスケール特徴を取得します。次に、元の点からスパース深度マップ S が生成され、ディープ エンコーダーに入力されて深層特徴が取得され、その後、マルチスケール画像特徴と融合されて深度誘導画像特徴が取得されます。次に、変動アテンションを使用して突然変異ノイズを除去します。最後に、適応型融合は、自己注意メカニズムを介して、ポイント クラウド機能と深度情報を備えた堅牢な画像機能を組み合わせます。

SAM-AD: SAM を AD (自動運転) シナリオにさらに適応させるために、SAM は SAM-AD を取得するように事前トレーニングされます。具体的には、成熟したデータセット(KITTI や nuScenes など)から多数の画像サンプルを収集し、基本的な AD データセットを形成しました。 DMAE の後、SAM は、図 3 に示すように、AD シナリオで SAM-AD を取得するように事前トレーニングされます。 x を AD データセット (KITTI および nuScenes) からのクリーンな画像として表し、η を x に基づいて生成されたノイズの多い画像として表します。騒音の種類と深刻度は、それぞれ 4 つの天候タイプ (雨、雪、霧、晴れ) と 1 から 5 までの 5 つの深刻度レベルからランダムに選択されました。エンコーダーとして SAM と MobileSAM の画像エンコーダーを使用しますが、デコーダーと再構成損失は DMAE と同じです。

AD-FPN。ヒント可能なセグメンテーション モデルとして、SAM は、画像エンコーダー、ヒント エンコーダー、マスク デコーダーの 3 つの部分で構成されます。一般的に、画像エンコーダを一般化して VFM をトレーニングし、次にデコーダをトレーニングする必要があります。言い換えれば、画像エンコーダーは下流モデルに高品質で非常に堅牢な画像埋め込みを提供できますが、マスクデコーダーはセマンティックセグメンテーションのデコードサービスのみを提供するように設計されています。さらに、必要なのは、キュー エンコーダによるキュー情報の処理ではなく、堅牢な画像機能です。そのため、堅牢な画像特徴を抽出には SAM の画像エンコーダを使用します。ただし、SAM は画像エンコーダーとして ViT シリーズを利用しており、マルチスケール機能は除外され、高次元の低解像度機能のみが提供されます。物体検出に必要なマルチスケール特徴を生成するために、[Li et al., 2022a]に触発されて、ViTに基づくマルチスケール特徴を提供するAD-FPNが設計されました。

SAM-AD または SAM は堅牢な画像特徴を抽出できますが、2D ドメインと 3D ドメインの間には依然としてギャップが存在し、破損した環境では幾何学的情報が不足しているカメラによってノイズが増幅され、負の転送問題が発生することがよくあります。この問題を緩和するために、次の 2 つのステップに分けられる Deep Guided Wavelet Attention (DGWA) モジュールを提案します。 1) ディープ ガイド ネットワークは、画像の特徴とポイント クラウドの深度の特徴を組み合わせて、画像の特徴の前にジオメトリを追加するように設計されています。 2) Haar ウェーブレット変換を使用して画像の特徴を 4 つのサブバンドに分解し、アテンション メカニズムによってサブバンド内の有益な特徴のノイズを除去します。

実験比較

オリジナルリンク: https://mp.weixin.qq.com/s/78y1KyipHeUSh5sLQZy-ng

<<: 

>>:  TimePillars: 200メートルを超える小さなターゲットの検出能力の向上

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

プログラミングの達人セスブリングがマリオカートで勝つためのAIソフトウェアを開発

海外のゲームプログラミングの達人、SethBling氏が新しいガジェットをリリースした。同氏は以前、...

機械学習の基本概念30選(手描きイラスト)

01 空間表現深遠な機械学習理論を学ぶ前に、まず機械学習の最も基本的な概念のいくつかを紹介しましょ...

...

...

...

IDC: 2021 年の中国スマート デバイス市場に関するトップ 10 の予測

過去 10 年間、中国のスマート デバイス市場では、一連の技術的変化、エコシステムの変化、ユーザーの...

ファーウェイの石耀宏氏:成都にインテリジェントシティを構築し、スマートで美しい都市を創る

「巴斯」と呼ばれる快適さと「成都」と呼ばれるライフスタイルがあり、中国で最も幸せな都市として、成都は...

機械学習がソーシャルメディアのプロフィールから明らかにする5つの秘密

[51CTO.com クイック翻訳] 現在、大手データ企業は機械学習技術を積極的に活用し、人間社会に...

モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー:計算コストは​​手頃ではない

[[431688]]最近、機械学習モデルは、モデルパラメータが増えながらも一般化性能が良好な大規模モ...

...

人工知能はすでに人間の減量を手助けするのに忙しい

今日はカロリーを消費しましたか?近年、生活水準の向上や生活習慣の変化に伴い、肥満は徐々に多くの人々を...

これほどリアルな効果を生み出すために、原作者を何人食べなければならなかったのですか?文生図はビジュアル「盗作」の疑い

少し前、ニューヨーク・タイムズ紙は、OpenAI が自社のコンテンツを人工知能開発のために違法に使用...

ブラックテクノロジー検出法: 心拍を信号として利用し、偽モデルを「発見」

偽の肖像ビデオ生成技術は、政治宣伝、有名人のなりすまし、証拠の捏造、その他のアイデンティティ関連の操...

英国の消費者団体が警告:AIチャットボットがオンライン詐欺をよりプロフェッショナル化

10月28日、英国の消費者団体Which?が現地時間金曜日に発表した最新の調査結果によると、犯罪者は...