RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文リンク: https://arxiv.org/pdf/2401.03907.pdf

マルチモーダル 3D 検出器は、安全で信頼性の高い自動運転認識システムの研究に特化しています。しかし、クリーンなベンチマーク データセットで最先端 (SOTA) のパフォーマンスを達成しているにもかかわらず、現実世界の環境の複雑さと厳しい条件が無視されることがよくあります。同時に、視覚基本モデル (VFM) の出現により、自動運転におけるマルチモーダル 3D 検出の堅牢性と一般化能力の向上にも機会と課題が伴います。そのため、著者らは、SAM などの VFM を活用して分布外 (OOD) ノイズ シナリオに対処する強力なフレームワークである RoboFusion を提案しています。

まず、オリジナルの SAM を SAM-AD という自動運転シナリオに適用します。SAM または SAMAD をマルチモーダル手法と整合させるために、SAM によって抽出された画像特徴をアップサンプリングする AD-FPN が導入されます。ウェーブレット分解は、深度ガイド画像のノイズを除去して、ノイズと天候による干渉をさらに低減するために使用されます。最後に、自己注意メカニズムを使用して、融合された特徴を適応的に再重み付けし、余分なノイズを抑制しながら有益な特徴を強化します。 RoboFusion は、VFM の一般化と堅牢性を活用してノイズを徐々に削減し、マルチモーダル 3D オブジェクト検出の回復力を強化します。その結果、RoboFusion は、KITTIC および nuScenes-C ベンチマークで実証されているように、ノイズの多いシーンでも最先端のパフォーマンスを実現します。

この論文では、SAM などの VFM を活用して、3D マルチモーダル オブジェクト検出器をクリーンなシーンから OOD ノイズの多いシーンに適応させる堅牢なフレームワーク RoboFusion を提案しています。特にSAMの適応戦略は以下のとおりです。

1) 推論セグメンテーション結果の代わりに SAM から抽出された特徴を使用します。

2) ADシナリオ向けに事前トレーニングされたSAMであるSAM-ADが提案されています。

3) VFM をマルチモーダル 3D 検出器と調整するための特徴アップサンプリング問題を解決するために、新しい AD-FPN が導入されました。

4) ノイズ干渉をさらに低減し、重要な信号特性を維持するために、高周波ノイズと低周波ノイズの両方を効果的に減衰できるディープガイドウェーブレットアテンション (DGWA) モジュールが設計されています。

5) ポイントクラウドの特徴と画像の特徴を融合した後、適応融合を提案し、自己注意を通じて融合された特徴を適応的に再重み付けして、特徴の堅牢性とノイズ耐性をさらに強化します。

RoboFusion ネットワーク構造

RoboFusion フレームワークを以下に示します。LIDAR ブランチはベースライン [Chen et al., 2022; Bai et al., 2022] に従って LIDAR フィーチャを生成します。カメラ部門では、まず高度に最適化された SAM-AD を使用して堅牢な画像特徴を抽出し、次に AD-FPN を使用してマルチスケール特徴を取得します。次に、元の点からスパース深度マップ S が生成され、ディープ エンコーダーに入力されて深層特徴が取得され、その後、マルチスケール画像特徴と融合されて深度誘導画像特徴が取得されます。次に、変動アテンションを使用して突然変異ノイズを除去します。最後に、適応型融合は、自己注意メカニズムを介して、ポイント クラウド機能と深度情報を備えた堅牢な画像機能を組み合わせます。

SAM-AD: SAM を AD (自動運転) シナリオにさらに適応させるために、SAM は SAM-AD を取得するように事前トレーニングされます。具体的には、成熟したデータセット(KITTI や nuScenes など)から多数の画像サンプルを収集し、基本的な AD データセットを形成しました。 DMAE の後、SAM は、図 3 に示すように、AD シナリオで SAM-AD を取得するように事前トレーニングされます。 x を AD データセット (KITTI および nuScenes) からのクリーンな画像として表し、η を x に基づいて生成されたノイズの多い画像として表します。騒音の種類と深刻度は、それぞれ 4 つの天候タイプ (雨、雪、霧、晴れ) と 1 から 5 までの 5 つの深刻度レベルからランダムに選択されました。エンコーダーとして SAM と MobileSAM の画像エンコーダーを使用しますが、デコーダーと再構成損失は DMAE と同じです。

AD-FPN。ヒント可能なセグメンテーション モデルとして、SAM は、画像エンコーダー、ヒント エンコーダー、マスク デコーダーの 3 つの部分で構成されます。一般的に、画像エンコーダを一般化して VFM をトレーニングし、次にデコーダをトレーニングする必要があります。言い換えれば、画像エンコーダーは下流モデルに高品質で非常に堅牢な画像埋め込みを提供できますが、マスクデコーダーはセマンティックセグメンテーションのデコードサービスのみを提供するように設計されています。さらに、必要なのは、キュー エンコーダによるキュー情報の処理ではなく、堅牢な画像機能です。そのため、堅牢な画像特徴を抽出には SAM の画像エンコーダを使用します。ただし、SAM は画像エンコーダーとして ViT シリーズを利用しており、マルチスケール機能は除外され、高次元の低解像度機能のみが提供されます。物体検出に必要なマルチスケール特徴を生成するために、[Li et al., 2022a]に触発されて、ViTに基づくマルチスケール特徴を提供するAD-FPNが設計されました。

SAM-AD または SAM は堅牢な画像特徴を抽出できますが、2D ドメインと 3D ドメインの間には依然としてギャップが存在し、破損した環境では幾何学的情報が不足しているカメラによってノイズが増幅され、負の転送問題が発生することがよくあります。この問題を緩和するために、次の 2 つのステップに分けられる Deep Guided Wavelet Attention (DGWA) モジュールを提案します。 1) ディープ ガイド ネットワークは、画像の特徴とポイント クラウドの深度の特徴を組み合わせて、画像の特徴の前にジオメトリを追加するように設計されています。 2) Haar ウェーブレット変換を使用して画像の特徴を 4 つのサブバンドに分解し、アテンション メカニズムによってサブバンド内の有益な特徴のノイズを除去します。

実験比較

オリジナルリンク: https://mp.weixin.qq.com/s/78y1KyipHeUSh5sLQZy-ng

<<: 

>>:  TimePillars: 200メートルを超える小さなターゲットの検出能力の向上

ブログ    
ブログ    

推薦する

...

ビッグデータと AI は食品・飲料業界の発展にどのように役立つのでしょうか?

[[320404]]デジタル化は金融サービスからヘルスケアまでほぼすべての業界に混乱をもたらしてお...

...

エンジニアがソフトロボットを制御する空気圧式コンピュータメモリを開発

海外メディアの報道によると、カリフォルニア大学リバーサイド校のエンジニアらが、ソフトロボットの動きを...

Apple、新しいGPUアクセラレーションツールCreate MLをリリース

Appleは本日、カリフォルニア州サンノゼで2018年ワールドワイド開発者会議を開催し、4つの主要な...

ロボットはどのようにして深く学習するのでしょうか?論理的判断と感情的な選択は依然として障害となっている

[[187099]]一人でいるときに少し寂しさを感じたらどうすればいいでしょうか?Microsoft...

PyTorchの基本操作の詳細な説明

[[406246]] PyTorch とは何ですか? PyTorch は、最大限の柔軟性と速度を備え...

モノのインターネットはスマートな衛生設備を創り出し、都市環境の衛生を細かく管理します

旅行のピーク時に都市環境衛生がより大きな圧力に耐えられるか?清掃車両と清掃作業員をより適切に管理する...

人工知能とはいったい何でしょうか?たぶん多くの人がこれを知らないでしょう!

今後10年間で、翻訳者、ジャーナリスト、アシスタント、警備員、運転手、販売員、カスタマーサービス、ト...

AI テクノロジーはヘルスケアの変革にどのように役立つのでしょうか?

【51CTO.comオリジナル記事】近年、「人工知能」(AI)という言葉が頻繁に登場し、今日ではこ...

ターゲット検出アルゴリズムにおける正長方形と不規則四辺形 IOU の Python 実装

交差対結合 (IoU) は、ターゲット検出で使用される概念です。ターゲット検出アルゴリズムをテストす...

機械学習/ディープラーニング プロジェクトを始める 8 つの方法

[[392342]] [51CTO.com クイック翻訳]探索的データ分析から自動機械学習 (Aut...

アルゴリズム設計者が新たな人気者になる

Aisle50 の共同創設者であるクリストファー・シュタイナー氏は、新著の中で、デジタルが優位性を...

[GPT-4理論] GPT-4のコア技術を探る

序文GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、Open...