この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と個人的な理解近年、自動運転において視覚中心の 3D 認識が急速に発展しています。 3D 認識モデルは構造と概念において多くの類似点を共有していますが、特徴表現、データ形式、および目的には依然としてギャップが存在し、統一された効率的な 3D 認識フレームワークの設計に課題が生じています。 特に、BEV での検出タスクと占有タスクの場合、共同トレーニングを実行することは依然として非常に困難です。不安定性と制御不能な結果が、多くのアプリケーションで頭痛の種となっています。 UniVision は、視覚中心の 3D 認識における 2 つの主要タスク、つまり占有予測とオブジェクト検出を統合するシンプルで効率的なフレームワークです。核となるのは、補完的な 2D-3D 機能変換のための明示的-暗黙的ビュー変換モジュールです。UniVision は、効率的で適応的なボクセルおよび BEV 機能の抽出、強化、および相互作用のためのローカル-グローバル機能抽出および融合モジュールを提案します。 データ強化の部分では、UniVision は、マルチタスク フレームワーク トレーニングの効率と安定性を向上させるために、共同占有検出データ強化戦略と漸進的損失重み調整戦略も提案しました。シーンフリー LiDAR セグメンテーション、シーンフリー検出、OpenOccupancy、Occ3D を含む 4 つの公開ベンチマークで、さまざまな認識タスクに関する広範な実験が行われます。 UniVision は、各ベンチマークでそれぞれ +1.5 mIoU、+1.8 NDS、+1.5 mIoU、+1.8 mIoU のゲインで SOTA を達成しました。 UniVision フレームワークは、統合された視覚中心の 3D 認識タスクの高性能ベースラインとして機能します。 3D知覚の現状3D 認識は自動運転システムの主なタスクであり、一連のセンサー (LIDAR、レーダー、カメラなど) から取得したデータを使用して、その後の計画と意思決定のために運転シーンを完全に理解することを目的としています。これまで、3D 認識の分野では、点群データからの正確な 3D 情報により、LiDAR ベースのモデルが主流でした。しかし、LIDAR ベースのシステムはコストが高く、悪天候の影響を受けやすく、導入が困難です。対照的に、ビジョンベースのシステムには、低コスト、導入の容易さ、優れたスケーラビリティなど、多くの利点があります。そのため、視覚を中心とした三次元知覚は研究者から幅広い注目を集めています。 最近、ビジョンベースの 3D 検出は、特徴表現変換、時間的融合、監視信号設計を通じて大幅に改善され、LiDAR ベースのモデルとのギャップが継続的に縮まっています。さらに、近年、視覚ベースの占有タスクが急速に発展しています。 3D ボックスを使用して一部のオブジェクトを表す場合とは異なり、占有率は運転シーンのジオメトリとセマンティクスをより包括的に記述でき、オブジェクトの形状とカテゴリによる制限が少なくなります。 検出方法と占有方法は多くの構造的および概念的な類似点を共有していますが、両方のタスクを同時に処理し、それらの相互関係を調査することは十分に研究されていません。占有モデルと検出モデルは通常、異なる特徴表現を抽出します。占有予測タスクでは、さまざまな空間位置での徹底的な意味的および幾何学的判断が必要となるため、きめ細かい 3D 情報を保持するためにボクセル表現が広く使用されています。検出タスクでは、ほとんどのオブジェクトが小さな重なりで同じ水平面上にあるため、BEV 表現が好まれます。 BEV 表現と比較すると、ボクセル表現は詳細ですが、効率は低くなります。さらに、多くの高レベル演算子は主に 2D 機能向けに設計および最適化されているため、3D ボクセル表現との統合はそれほど簡単ではありません。 BEV 表現は時間効率とメモリ効率に優れていますが、高さの次元で構造情報が失われるため、高密度の空間予測には最適ではありません。特徴表現に加えて、さまざまな知覚タスクではデータ形式とターゲットも異なります。したがって、マルチタスク 3D 認識フレームワークのトレーニングの均一性と効率性を確保することは大きな課題です。 UniVision ネットワーク構造図 1 は、UniVision フレームワークの全体的なアーキテクチャを示しています。 N 台の周囲のカメラからのマルチビュー画像を入力として与え、まず画像特徴抽出ネットワークを使用して画像特徴を抽出します。次に、深度ガイドによる明示的な特徴プロモーションとクエリガイドによる暗黙的な特徴サンプリングを組み合わせた Ex-Im ビュー変換モジュールを使用して、2D 画像特徴が 3D ボクセル特徴にプロモーションされます。ボクセル特徴は、ローカル グローバル特徴抽出および融合ブロックに送信され、それぞれローカル コンテキスト認識ボクセル特徴とグローバル コンテキスト認識 BEV 特徴が抽出されます。次に、クロス表現機能相互作用モジュールを使用して、さまざまな下流の認識タスクのためにボクセル機能と BEV 機能間で情報を交換します。トレーニング プロセスでは、Occ-Det データ拡張と漸進的減量体重調整戦略が組み合わされ、UniVision フレームワークの効果的なトレーニングが行われます。 1) Ex-Im ビュー変換深度ガイドによる明示的な特徴ブースティング。ここでは LSS アプローチに従います。 2) クエリガイドによる暗黙的な特徴サンプリング。しかし、3D 情報の表現にはいくつかの欠陥があります。の精度は、推定された深度分布の精度と高い相関関係にあります。さらに、LSS によって生成されるポイントは均等に分散されません。ポイントはカメラの近くでは密集し、遠くでは疎らになります。したがって、上記の欠点を補うために、クエリガイドによる特徴サンプリングをさらに使用します。 LSS から生成されたポイントと比較すると、ボクセル クエリは 3D 空間に均一に分散され、LSS で使用される深度事前情報とは無関係に、すべてのトレーニング サンプルの統計特性から学習されます。したがって、と は互いに補完し合い、ビュー変換モジュールの出力機能として連結されます。 2) ローカルおよびグローバルな特徴抽出と融合入力ボクセル特徴が与えられると、特徴はまず Z 軸上に積み重ねられ、畳み込み層を使用してチャネルが削減され、BEV 特徴が得られます。 次に、モデルは特徴抽出と強化のために 2 つの並列ブランチに分割されます。ローカル特徴抽出 + グローバル特徴抽出、そして最後にクロス表現特徴相互作用!図1(b)に示すように。 3) 損失関数と検出ヘッド漸進的な減量体重調整戦略。実際には、上記の損失を直接組み合わせると、トレーニング プロセスが失敗し、ネットワークが収束しなくなることがよくあります。トレーニングの初期段階では、ボクセル特徴 Fvoxel はランダムに分散されており、占有ヘッドと検出ヘッドでの監視は、収束における他の損失よりも寄与が少なくなります。同時に、検出タスクにおける分類損失 Lcls などの損失項目は非常に大きく、トレーニング プロセスの大部分を占めるため、モデルの最適化が困難になります。この問題を克服するために、減少重量を動的に調整する漸進的減少重量調整戦略が提案されています。具体的には、制御パラメータ δ が非画像レベルの損失 (占有損失と検出損失) に追加され、異なるトレーニング サイクルで損失の重みが調整されます。制御重み δ は最初は小さな値 Vmin に設定され、N 回のトレーニング エポックにわたって徐々に Vmax まで増加します。 4) Occ-Det空間データの共同強化3D 検出タスクでは、一般的な画像レベルのデータ拡張に加えて、空間レベルのデータ拡張もモデルのパフォーマンスの向上に効果的です。しかし、占有タスクに空間レベルの拡張を適用するのは簡単ではありません。ランダムなスケーリングや回転などのデータ拡張を離散占有ラベルに適用すると、結果として得られるボクセルのセマンティクスを決定することが困難になります。したがって、既存の方法では、占有タスクにおけるランダムな反転などの単純な空間拡張のみが適用されます。 この問題に対処するために、UniVision は、フレームワーク内で 3D 検出タスクと占有タスクを同時に強化できるようにする共同 Occ-Det 空間データ拡張を提案しました。 3D ボックス ラベルは連続値であり、強化された 3D ボックスはトレーニング用に直接計算できるため、検出には BEVDet の強化方法が使用されます。占有ラベルは離散的であり、操作が困難ですが、ボクセル機能は連続的なものとして扱うことができ、サンプリングや補間などの操作を通じて処理できます。したがって、データ拡張のために占有ラベルを直接操作するのではなく、ボクセル機能を変換することが提案されています。 具体的には、まず空間データ拡張をサンプリングし、対応する 3D 変換行列を計算します。占有ラベルとそのボクセルインデックス 3D座標を計算しました。次に、これを適用して正規化し、強化されたボクセル特徴のボクセルインデックスを取得します。 : 実験結果の比較検証には、NuScenes LiDAR Segmentation、NuScenes 3D Object Detection、OpenOccupancy、Occ3D など複数のデータセットが使用されました。 NuScenes LiDAR セグメンテーション: 最新の OccFormer と TPVFormer に基づいて、カメラ画像は LiDAR セグメンテーション タスクの入力として使用され、LiDAR データは出力フィーチャを照会するための 3D 位置を提供するためにのみ使用されます。評価指標としてmIoUを使用します。 NuScenes 3D オブジェクト検出: 検出タスクでは、nuScenes の公式メトリックである nuScene 検出スコア (NDS) を使用します。これは、平均 mAP と、平均変換誤差 (ATE)、平均スケール誤差 (ASE)、平均方向誤差 (AOE)、平均速度誤差 (AVE)、平均属性誤差 (AAE) などのいくつかのメトリックの加重合計です。 OpenOccupancy: OpenOccupancy ベンチマークは nuScenes データセットに基づいており、512×512×40 の解像度でセマンティック占有ラベルを提供します。ラベル付けされたクラスは、評価メトリックとして mIoU を使用する LiDAR セグメンテーション タスクと同じです。 Occ3D: Occ3D ベンチマークは nuScenes データセットに基づいており、200×200×16 の解像度でセマンティック占有ラベルを提供します。 Occ3D はさらに、トレーニングと評価のための可視性マスクも提供します。ラベル付けされたクラスは、評価メトリックとして mIoU を使用する LiDAR セグメンテーション タスクと同じです。 1) Nuscenes LiDARセグメンテーション表 1 は、nuScenes LiDAR セグメンテーション ベンチマークの結果を示しています。 UniVision は、最先端のビジョンベースの方法である OccFormer を 1.5% mIoU で大幅に上回り、リーダーボード上のビジョンベースのモデルの新記録を樹立しました。注目すべきことに、UniVision は PolarNet や DB-UNet などの一部の LIDAR ベースのモデルよりも優れた性能を発揮します。 2) NuScenes 3Dオブジェクト検出タスク表 2 に示すように、公平な比較のために同じトレーニング設定を使用した場合、UniVision は他の方法よりも優れていることが示されています。 512×1408 の画像解像度で BEVDepth と比較すると、UniVision は mAP と NDS でそれぞれ 2.4% と 1.1% の向上を達成します。モデルを拡大し、UniVision を時間入力と組み合わせると、SOTA ベースの時間検出器よりも大幅に優れたパフォーマンスを発揮します。 UniVision は、より小さな入力解像度でこれを実現し、CBGS は使用しません。 3) OpenOccupancyの結果比較OpenOccupancy ベンチマークの結果を表 3 に示します。 UniVision は、MonoScene、TPVFormer、C-CONet などの最近のビジョンベースの占有方法よりも、mIoU でそれぞれ 7.3%、6.5%、1.5% 大幅に優れています。さらに、UniVision は、LMSCNet や JS3C-Net などの一部の LIDAR ベースの方法を上回っています。 4) Occ3D実験結果表 4 に Occ3D ベンチマークの結果を示します。 UniVision は、さまざまな入力画像解像度において、mIoU の点で最近のビジョンベースの方法よりもそれぞれ 2.7% 以上、1.8% 以上大幅に優れています。 BEVFormer と BEVDet-stereo は事前トレーニング済みの重みをロードし、推論で時間入力を使用するのに対し、UniVision はそれらを使用せず、それでもより優れたパフォーマンスを実現することに注目すべきです。 5) 検出タスクにおけるコンポーネントの有効性表5に検出タスクに関するアブレーション研究を示します。 BEV ベースのグローバル特徴抽出ブランチをベースライン モデルに挿入すると、パフォーマンスが 1.7% mAP と 3.0% NDS 向上します。ボクセルベースの占有タスクが補助タスクとして検出器に追加されると、モデルは 1.6% の mAP ゲインを達成します。ボクセル単位の特徴から相互表現の相互作用が明示的に導入されると、モデルは最高のパフォーマンスを達成し、ベースラインと比較して mAP と NDS がそれぞれ 3.5% と 4.2% 向上しました。 6) 職業課題における構成要素の有効性占有課題に関するアブレーション研究を表6に示す。ボクセルベースのローカル特徴抽出ネットワークにより、ベースライン モデルと比較して 1.96% の mIoU ゲインが向上します。検出タスクを補助的な監視信号として導入すると、モデルのパフォーマンスが 0.4% mIoU 向上します。 7) その他表 5 と 6 は、UniVision フレームワークでは、検出タスクと占有タスクの両方が相互に補完していることを示しています。検出タスクでは、占有監視によって mAP と mATE の両方のメトリックを改善できます。これは、ボクセル意味学習によって検出器のオブジェクト形状 (中心とスケール) の認識が効果的に改善されることを示しています。占有タスクの場合、検出監視によりフォアグラウンド クラス (つまり、検出されたクラス) のパフォーマンスが大幅に向上し、全体的な改善につながります。 表 7 は、Occ-Det 空間拡張、Ex-Im ビュー変換モジュール、および漸進的損失重み調整戦略の共同効果を示しています。提案された空間拡張と提案されたビュー変換モジュールにより、mIoU、mAP、NDS メトリックに関して、検出タスクと占有タスクの両方で大幅な改善が示されます。減量調整戦略は、マルチタスク フレームワークを効果的にトレーニングできます。これがないと、統合フレームワークのトレーニングが収束せず、パフォーマンスが低下します。 参照する論文リンク: https://arxiv.org/pdf/2401.06994.pdf 論文タイトル: UniVision: 視覚中心の 3D 認識のための統合フレームワーク |
<<: AI搭載のレンガ積みロボットが建設業界に革命を起こす
>>: 誰もがエンドツーエンドに取り組んでいますが、エンドツーエンドの自動運転の基礎は何でしょうか?
先月、個人情報保護のため、「ヘルメットをかぶって家を眺める」男性の短い動画がネット上で拡散され、ネッ...
米国のピュー・リサーチ・センターは2008年に、主に以下のような2020年のライフスタイルを予測しま...
この記事では、上位 5 つのフレームワークとライブラリを実際のアプリケーションとともに紹介したいと思...
機械学習は今日ではよく知られた革新的な技術となっています。ある調査によると、現在人々が使用しているデ...
2023年のコンピュータービジョンの分野では、「 Segment Anything Model」が大...
自動化された機械学習はどれほど優れたものになるのでしょうか?たとえば、MobileNet1.0 バッ...
自然言語処理タスクで目覚ましい成功を収めた大規模言語モデル (LLM) は、優れたパフォーマンスを示...
11月15日、OpenAIは突然、ChatGPT Plusの新規ユーザー登録を停止すると発表しました...
クルーズ社の自動運転意思決定計画および制御部門の責任者であるブランドン・バッソ氏は、コロンビア大学で...
9月10日、テンセントクラウドは9月7日に開催された2023テンセントグローバルデジタルエコシステム...
[[158318]]ほぼすべてのトップクラスのインターネット企業やソフトウェア企業は、ソフトウェアエ...
ディープラーニングに取り組む過程で、著者が最も興味を持ったのは、オブジェクトを分類するためのいくつか...
モノのインターネットは急速に「あらゆるもののインターネット」になりつつあります。ガートナーは、202...