Horizonの最新作！ Sparse4D v3: エンドツーエンドの 3D 検出および追跡タスクのさらなる改善 (SOTA が 2 倍!)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

個人的な理解&&前に書かれた

自動運転認識システムでは、3D 検出と追跡が 2 つの基本的なタスクです。バージョン v3 では、Sparse4D に基づいてこの分野でより詳細な調査が行われます。主に 2 つの補助トレーニングタスク (時間インスタンスのノイズ除去と品質推定) を導入し、構造的な改善を行うために分離された注意を提案し、検出パフォーマンスを大幅に向上させます。さらに、検出器をトラッカーに拡張する簡単な方法が使用され、推論中にインスタンス ID が割り当てられ、クエリベースのアルゴリズムの利点がさらに強調されます。この段落の途中から、推論プロセス中にインスタンス ID を直接割り当てることで追跡を実現するように方法を変更できます。既存のエンドツーエンドの追跡方法 (motr シリーズなど) と比較して、sparse4d v3 では追跡のためのトレーニング戦略が不要になり、スパースインスタンスベースのタイミングアルゴリズムの利点がさらに強調されます。 nuScenes では、ResNet50 をバックボーンとして、mAP、NDS、AMOTA がそれぞれ 3.0%、2.2%、7.6% 改善され、46.9%、56.1%、49.0% に達します。ベストモデルは、nuScenes テストセットで 71.9% の NDS と 67.7% の AMOTA を達成しました。

一言でまとめると、Sparse4D-v3 には、時間インスタンスのノイズ除去、品質推定、分離した注意という 3 つの効果的な戦略が含まれています。これは、Sparse4D をエンドツーエンドの追跡モデルに拡張する試みでもあります。検出タスクと追跡タスクの両方で SOTA を達成しました!

Sparse4D フレームワークのレビュー

時間的マルチビュー知覚研究の分野では、スパースベースのアルゴリズムが大きな進歩を遂げ、密な BEV ベースのアルゴリズムに匹敵する知覚パフォーマンスを達成しながら、いくつかの利点をもたらしています。

1) ビュー変更モジュールは必要ありません。これらのスパースメソッドでは、画像空間を 3D ベクトル空間に変換するモジュールが不要になります。
2) 検出距離や画像解像度に関係なく、検出ヘッドの計算負荷は一定です。
3) 下流のタスクをエンドツーエンドで統合することが容易になります。

ここでは、改良されたベースラインアルゴリズムとして、スパースアルゴリズム Sparse4Dv2 が選択されています。アルゴリズムの全体的な構造を図 1 に示します。画像エンコーダーはマルチビュー画像をマルチスケールの特徴マップに変換し、デコーダーはこれらの画像特徴を使用してインスタンスを改良し、知覚結果を生成します。

密ベースのアルゴリズムと比較すると、疎ベースのアルゴリズムは収束においてより大きな課題に直面し、それが最終的なパフォーマンスに影響します。この問題は、主に 1 対 1 の正例マッチングの使用により、2D 検出の分野で集中的に研究されてきました。このマッチング方法はトレーニングの初期段階では不安定であり、1対多のマッチングに比べて陽性サンプルの数が大幅に減少し、デコーダーのトレーニングの効率が低下します。

さらに、Sparse4D はグローバルクロスアテンションの代わりにスパースフィーチャサンプリングを使用するため、ポジティブサンプルのスパースフィーチャサンプリングポイントが原因でエンコーダーの収束がさらに妨げられます。 Sparse4Dv2 では、画像エンコーダが直面するこれらの収束問題をある程度軽減するために、高密度のディープスーパービジョンが導入されています。 v3 の主な目的は、デコーダーのトレーニングの安定性に重点を置くことでモデルのパフォーマンスを向上させることです。ノイズ除去タスクは補助的な監視として使用され、ノイズ除去技術は 2D 単一フレーム検出から 3D 時系列検出に拡張されます。安定した陽性サンプルのマッチングを保証するだけでなく、陽性サンプルの数も大幅に増加します。さらに、監督を支援するタスクとして品質評価が導入されています。これにより、出力の信頼性がより合理的になり、検出結果のランキングの精度が向上し、評価指標が高くなります。さらに、Sparse4D のインスタンス自己注意モジュールと時間的クロス注意モジュールの構造を改善し、注意重み計算プロセスにおける特徴干渉を減らすために分離された注意メカニズムを提案しました。

図 3 に示すように、アンカー埋め込みとインスタンス機能が注意計算への入力として追加されると、結果の注意重みに外れ値のインスタンスが発生します。これでは、ターゲット機能間の相互相関を正確に反映できず、正しい機能を集約できなくなります。特徴量の追加を特徴量の連結に置き換えることで、このエラー現象の発生が大幅に減少します。この改善は条件付き DETR に似ています。ただし、重要な違いは、クエリと画像機能間の相互注意に重点を置く条件付き DETR とは対照的に、ここではクエリ間の注意に重点が置かれていることです。

現在の経歴

DETR は、Transformer アーキテクチャと 1 対 1 のマッチングトレーニングメソッドを採用し、NMS の必要性を排除してエンドツーエンドの検出を実現します。 DETR はその後一連の改善をもたらしました。変形可能な DETR は、参照ポイントに基づいてグローバルアテンションをローカルアテンションに変換し、モデルのトレーニング検索スペースを大幅に削減し、収束速度を向上させます。また、注意の計算の複雑さを軽減し、DETR フレームワーク内で高解像度の入力とマルチスケール機能の使用を容易にします。条件付き DETR は、条件付きクロスアテンションを導入して、クエリ内のコンテンツと空間情報を分離し、ドット積を通じてアテンションの重みを個別に計算することで、モデルの収束を加速します。条件付き DETR に基づいて、アンカー DETR は参照ポイントを明示的に初期化し、それをアンカーとして使用します。 DAB-DETR では、アンカーの初期化と空間クエリのエンコードに境界ボックスの次元も組み込まれています。さらに、多くの手法は、トレーニングマッチングの観点から、DETR の収束安定性と検出性能の向上を目指しています。 DN-DETR は追加されたノイズを使用して真の値をデコーダーのクエリとしてエンコードし、補助的な監視のためにノイズ除去タスクを採用します。 DINO は DN-DETR に基づいて、ノイズの多い負のサンプルを導入し、クエリの初期化にハイブリッドクエリ選択を使用することを提案します。これにより、DETR フレームワークのパフォーマンスがさらに向上します。グループ DETR は、トレーニング中にクエリを複数のグループにコピーし、より多くのトレーニングサンプルを提供します。 Co-DETR はトレーニング中に高密度ヘッドを組み込みます。これには 2 つの効果があります。バックボーンのより包括的なトレーニングが可能になり、高密度ヘッド出力をクエリとして使用することでデコーダーのトレーニングも強化されます。

DETR3D は、変形可能な注意をマルチビュー 3D 検出に適用し、空間特徴融合を通じてエンドツーエンドの 3D 検出を実現します。 PETR シリーズは 3D 位置エンコーディングを導入し、直接的なマルチビュー機能融合にグローバルアテンションを使用し、時間的最適化を実行します。 Sparse4D シリーズは、インスタンス機能の分離、マルチポイント機能のサンプリング、および時間的融合の観点から DETR3D を強化し、知覚パフォーマンスを向上させます。

ほとんどのマルチオブジェクト追跡 (MOT) 方法では、検出 + 追跡フレームワークが使用されます。データの関連付けや軌跡のフィルタリングなどの後処理タスクを実行するために検出器の出力に依存しているため、調整が必要なハイパーパラメータが多数ある複雑なパイプラインが生成されます。これらの方法では、ニューラルネットワークの機能を十分に活用できません。追跡機能を検出器に直接統合するために、GCNet、TransTrack、および TrackFormer は DETR フレームワークを活用します。検出されたターゲットは、トラッククエリに基づいてフレーム間で送信されるため、後処理への依存が大幅に軽減され、MOTR は追跡を完全なエンドツーエンドのプロセスに進化させます。 MOTRv3 は、MOTR の検出クエリトレーニングの制限に対処し、追跡パフォーマンスを大幅に向上させます。 MUTR3D は、このクエリベースの追跡フレームワークを 3D マルチオブジェクト追跡の分野に適用します。これらのエンドツーエンドの追跡方法には、いくつかの共通の特徴があります。

（１）トレーニングプロセス中、追跡クエリIDは追跡ターゲット制約に従ってマッチングされ、検出クエリは新しいターゲットのみにマッチングされます。

（２）高い閾値を使用して時間的特徴を転送し、信頼性の高いクエリのみを次のフレームに渡します。

v3 アプローチは、検出器のトレーニングや推論戦略を変更する必要がなく、ID を追跡するためのグラウンドトゥルースも必要としない点で、既存の方法とは異なります。

方法の紹介

ネットワーク構造と推論フレームワークを図 1 に示します。 Sparse4Dv2 のネットワーク構造と推論パイプラインを紹介します。ここでは、まず、時系列インスタンスのノイズ除去と品質推定という 2 つの補助タスクを紹介し、次に分離アテンションと呼ばれるアテンションモジュールの強化について説明し、最後に Sparse4D で 3D MOT を実装する方法の概要を説明します。

1) 時間的インスタンスのノイズ除去

2D 検出では、ノイズ除去タスクを導入することが、モデルの収束安定性と検出パフォーマンスを向上させる効果的な方法であることが示されています。 v3 では、基本的な 2D 単一フレームのノイズ除去が 3D 時間的ノイズ除去に拡張されます。 Sparse4D では、インスタンス (クエリとも呼ばれます) は暗黙的なインスタンス機能と明示的なアンカーに分離され、トレーニング中に 2 セットのアンカーが初期化されます。 1 セットは、検出空間に均一に分散され、k-means 法を使用して初期化されたアンカーで構成され、これらのアンカーは学習可能なパラメーターとして使用されます。 GT にノイズを追加することで、別のアンカーセットが生成されます。 3D検出タスクの場合、ノイズアンカーは式（1、2）に示すように生成される。

さらに、上記の単一フレームのノイズの例は、スパース再帰トレーニングプロセスとよりよく一致するように、時間伝播によって拡張されます。各フレームのトレーニング中に、ノイズの多いインスタンスから M′ グループがランダムに選択され、次のフレームに投影されます。時間的伝播戦略は、ノイズのないインスタンスの戦略と一致しています。アンカーは、自車両の姿勢と速度を補正するために使用され、インスタンス機能は、後続のフレーム機能の初期化として直接使用されます。

ここで各インスタンスグループの独立性が維持され、ノイズインスタンスと通常のインスタンスの間で特徴の相互作用が発生しないことに注意してください。これは、図4(b)に示すように、DN-DETRとは異なります。このアプローチにより、各グループで GT が最大 1 つの正の例と一致することが保証され、潜在的な曖昧さが効果的に回避されます。

2) 品質評価

既存のスパースベースの方法は、主に、GT との一貫性を測定するために、陽性サンプルと陰性サンプルの分類信頼性を推定します。最適化の目標は、すべての陽性サンプルの分類信頼性を最大化することです。ただし、一致品質はさまざまな正のサンプル間で大きく異なるため、分類の信頼性は予測された境界ボックスの品質を評価するための理想的な指標ではありません。ネットワークが正のサンプルの品質を理解しやすくし、一方では収束を高速化し、他方では予測ランキングを合理化するために、ここでは予測品質推定のタスクが導入されています。 3D 検出タスクでは、中心性とヨーネスという 2 つの品質指標が定義されており、その式は次のとおりです。

ネットワークは分類の信頼性を出力すると同時に、中心性とヨーネスも推定します。それぞれの損失関数は、次の式に示すように、クロスエントロピー損失と焦点損失です。

3) 分離された注意

v3 では、Sparse4Dv2 のアンカーエンコーダー、自己注意、および時間的クロス注意に簡単な改善が加えられています。アーキテクチャを図 5 に示します。設計原則は、加算を使用するのではなく、スプライシング方式で異なるモードの機能を組み合わせることです。 Conditional DETR と比較すると、いくつかの違いがあります。まず、クエリと画像機能間の交差注意の代わりに、クエリ間の注意が改善されます。交差注意では、Sparse4D の変形可能な集約が引き続き活用されます。さらに、位置埋め込みとクエリ機能をシングルヘッドアテンションレベルで連結するのではなく、マルチヘッドアテンションレベルで外部的に変更することで、ニューラルネットワークの柔軟性が向上します。

4) 追跡セクションに展開する

Sparse4Dv2 フレームワークでは、時間モデリングは再帰形式を採用し、前のフレームのインスタンスを入力として現在のフレームに投影します。時間インスタンスは、クエリベースのトラッカーのトラッククエリに似ていますが、トラッククエリはより高いしきい値によって制約され、非常に信頼性の高い検出結果を示す点が異なります。対照的に、V3 には多くの時間インスタンスがあり、そのほとんどは以前のフレームで検出されたオブジェクトを正確に表していない可能性があります。

Sparse4Dv2 フレームワーク内で検出からマルチオブジェクト追跡に拡張するために、検出境界ボックスからトラックへのインスタンスを直接再定式化します。トラックは、各フレームの ID と境界ボックスで構成されます。多数の冗長インスタンスが設定されているため、多くのインスタンスが正確なターゲットに関連付けられず、明確な ID が割り当てられない可能性があります。それでも、次のフレームに伝播する可能性があります。インスタンスの検出信頼度がしきい値 T を超えると、そのインスタンスはターゲットにロックされているとみなされ、ID が割り当てられます。この ID は、時間伝播プロセス全体を通じて変更されません。したがって、マルチターゲット追跡を実現するのは、出力認識結果に ID 割り当てプロセスを適用するのと同じくらい簡単です。追跡プロセス中のライフサイクル管理は、追加の変更なしに Sparse4Dv2 の top-k 戦略によってシームレスに処理されます。詳細については、アルゴリズム 1 を参照してください。トレーニングされたタイミングモデルは、追跡制約を使用した微調整を必要とせずに、すでに優れた追跡特性を示していることがわかります。

実験分析と比較

Sparse4Dv3 の有効性を検証するために、ここでは 1000 シーンを含むデータセットである nuScenes ベンチマークを使用します。トレーニング、検証、テストにはそれぞれ 700、150、150 のシーンが含まれます。各シーンは、2 フレーム/秒 (FPS) の 20 秒のビデオクリップで構成され、6 つのビューイメージが含まれます。データセットは、3D ボックスラベルに加えて、車両の動作状態とカメラパラメーターに関するデータも提供します。検出性能評価では、包括的な方法では、mAP、mATE、mASE、mAE、mAOE、mAVE、mAAE、NDS などの指標を考慮します。ここで、NDS は他の指標の加重平均を表します。追跡モデルの評価では、主要なメトリックとして AMOTA、AMOTP、リコール、ID スイッチ (IDS) などがあります。

nuScenes 検証データセットでの 3D 検出結果:

nuScenes テストデータセットでの 3D 検出結果:

nuscenes でのマルチターゲット追跡パフォーマンス:

その他のアブレーション実験: