DetZero: Waymo の 3D 検出リストで 1 位、手動ラベル付けに匹敵!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

この論文では、オフライン 3D オブジェクト検出アルゴリズムフレームワーク DetZero を提案します。Waymo パブリックデータセットの包括的な調査と評価を通じて、DetZero は連続的で完全な一連のオブジェクト軌跡を生成し、長期的なポイントクラウド機能を最大限に活用して、認識結果の品質を大幅に向上させることができます。同時に、WOD 3D物体検出ランキングでも85.15mAPH(L2)の性能で1位を獲得しました。さらに、DetZero はオンラインモデルトレーニング用の高品質の自動ラベルを提供でき、その結果は手動ラベルのレベルに達しているか、それを上回っています。

論文: https://arxiv.org/abs/2306.06023

コード: https://github.com/PJLab-ADG/DetZero

ホームページ: https://superkoma.github.io/detzero-page

1 はじめに

既存の自動運転認識モデルの開発は、データ駆動型の反復モデルに依存しています。しかし、データの注釈付けにかかるコストが高く、後処理の効率もさまざまであるため、より効率的なソリューションを模索する必要が生じています。以前、Waymoはデータ注釈プロセスにおけるリソースと人件費を軽減するために、オフライン3Dオブジェクト検出方法3DAL[]を提案しました。これは主に4つのモジュールに分かれています。

オブジェクト検出：少量の連続した点群フレームデータを入力し、各フレームの 3D オブジェクトの境界ボックスとカテゴリ情報を出力します。
マルチターゲット追跡: 各フレームで検出されたオブジェクトを関連付けてオブジェクトシーケンスを形成し、一意のオブジェクト ID を割り当てます。
動作分類: 物体の軌道特性に基づいて物体の動作状態 (静止または移動) を判断します。
オブジェクト中心の改良: 前のモジュールによって予測された動きの状態に応じて、静的オブジェクトと移動オブジェクトの時間的なポイントクラウドの特徴が個別に抽出され、正確な境界ボックスを予測します。最後に、最適化された 3D 境界ボックスは、ポーズマトリックスを通じてオブジェクトが配置されている各フレームの座標系に転送されます。

しかし、多くの主流のオンライン 3D オブジェクト検出方法は、ポイントクラウドの時間的コンテキスト機能を利用することで、既存のオフライン 3D 検出方法よりも優れた結果を達成しています。長いシーケンスポイントクラウドの特性を効果的に活用できていないことがわかりました。

現在のターゲット検出および追跡アルゴリズムは、主にボックスレベルのパフォーマンス指標に重点を置いています。TTA およびマルチモデル融合後のオンライン 3D 検出アルゴリズムによって生成された多数の冗長ボックスが、追跡アルゴリズムの入力として使用されます。これにより、通常、軌道の分割、ID の切り替え、誤った関連付けなどの深刻な問題が簡単に発生します。連続的で完全なオブジェクトシーケンスの生成を保証することは不可能であり、その結果、オブジェクトに対応する長期的なポイントクラウド機能の使用が妨げられます。下の図に示すように、オブジェクトの元の軌跡が複数のサブシーケンス (T1、T2、T3) に分割され、より多くの情報を含む T1 セグメントの特徴が T2 および T3 と共有できなくなり、T4 セグメントの最適化されたボックスは失われたセグメントを思い出せなくなり、T5 セグメントの最適化されたボックスは、元々 FP であった位置に移動された後も FP のままになります。

オブジェクトシーケンスの品質は下流の最適化モデルに大きな影響を与えます。

動作状態分類に基づく最適化モデルでは、オブジェクトの時間的特性を十分に活用できません。たとえば、剛体の物体のサイズは時間が経っても一定のままであり、さまざまな角度からデータを取得することで、より正確なサイズの推定が可能になります。物体の移動軌道は、特定の運動学的制約に従う必要があり、これは軌道の滑らかさとして現れます。次の図 (a) に示すように、動的オブジェクトの場合、スライディングウィンドウベースの最適化メカニズムはオブジェクトの幾何学的形状の一貫性を考慮せず、隣接する複数のフレームの時間的なポイントクラウド情報を通じて境界ボックスを更新するだけなので、予測される幾何学的寸法に偏差が生じます。 (b)の例では、物体のすべての点群を集約することで、密な時間的点群特徴が得られ、各フレームの境界ボックスの正確な幾何学的サイズを予測することができます。

運動状態に基づく最適化モデルは物体の大きさを予測し（a）、幾何学的最適化モデルはさまざまな視点からのすべての点群を集約して物体の大きさを予測する（b）

2つの方法

本論文では、新しいオフライン 3D オブジェクト検出アルゴリズムフレームワーク DetZero を提案します。(1) マルチフレーム 3D 検出器とオフライントラッカーを上流モジュールとして使用し、十分に正確で完全なオブジェクト追跡を提供し、主にオブジェクトシーケンスの高トラックレベルのリコールを重視します。(2) 下流モジュールには、注意メカニズムに基づく最適化モデルが含まれており、長期的なポイントクラウド機能を使用して、幾何学的サイズの調整、移動軌跡の位置の平滑化、信頼スコアの更新など、オブジェクトのさまざまな属性を個別に学習および予測します。

2.1 完全なオブジェクトシーケンスの生成

基本検出器には、公開されているCenterPoint[]を選択しました。できるだけ多くの検出候補ボックスを提供するために、次の3つの側面を強化しました。(1)異なるフレームのポイントクラウドの組み合わせを入力として使用し、パフォーマンスを低下させることなくパフォーマンスを最大化します。(2)ポイントクラウド密度情報を使用して元のポイントクラウド機能とボクセル機能を融合し、第1段階の境界結果を事前に最適化する2段階モジュールを使用します。(3)推論段階データ拡張(TTA)とマルチモデル結果融合(Ensemble)などのテクノロジーを使用して、複雑な環境へのモデルの適応性を向上させます。

オフライントラッキングモジュールでは、誤った一致を減らすために 2 段階の関連付け戦略が導入されています。ボックスは、信頼度に応じて、高信頼度グループと低信頼度グループに分けられます。高信頼度グループは既存の軌跡に関連付けられ、更新されていない軌跡は低信頼度グループに関連付けられます。同時に、オブジェクトの軌跡の長さはシーケンスが終了するまで継続できるため、ID 切り替えの問題を回避できます。さらに、追跡アルゴリズムを逆に実行して別の軌跡セットを生成し、それらを位置の類似性によって関連付け、最後に WBF 戦略を使用して、一致に成功した軌跡を融合し、シーケンスの開始と終了の整合性をさらに向上させます。最後に、識別されたオブジェクトシーケンスについて、各フレームの対応するポイントクラウドが抽出され、保存されます。更新されていない冗長フレームといくつかの短いシーケンスは、下流の最適化を必要とせずに最終出力に直接マージされます。

2.2 属性予測に基づくオブジェクト最適化モジュール

これまでのオブジェクト中心の最適化モデルでは、幾何学的形状の一貫性や隣接する瞬間のオブジェクトの動きの状態の一貫性など、異なる動きの状態にあるオブジェクト間の相関関係は無視されていました。これらの観察に基づいて、従来の境界ボックス回帰タスクを、オブジェクトの形状、位置、および信頼属性をそれぞれ予測する 3 つのモジュールに分解します。

マルチビュー幾何学的インタラクション: 複数の視点からのオブジェクトのポイントクラウドをつなぎ合わせることで、オブジェクトの外観と形状を完成させることができます。まず、ローカル座標変換を実行して、オブジェクトポイントクラウドをさまざまな位置のローカルボックスに位置合わせし、バウンディングボックスの6つの表面への各ポイントの投影距離を計算して、バウンディングボックスの情報表現を強化します。次に、異なるフレームのすべてのポイントクラウドをマルチビュー幾何学的特徴のキーと値として直接マージし、オブジェクトシーケンスからtサンプルをランダムに選択して、シングルビュー幾何学的特徴のクエリとして使用します。ジオメトリクエリは、自己注意レイヤーに送られて互いの違いをチェックし、次にクロス注意レイヤーに送られて必要なビューの機能を補足し、正確なジオメトリサイズを予測します。
ローカル位置とグローバル位置の相互作用: オブジェクトシーケンス内の任意のボックスを原点としてランダムに選択し、他のすべてのボックスと対応するオブジェクトポイントクラウドをこの座標系に転送し、各ポイントからそれぞれの境界ボックスの中心点と 8 つのコーナーポイントまでの距離を、グローバル位置機能のキーと値として計算します。オブジェクトシーケンス内の各サンプルは位置クエリとして使用され、自己注意レイヤーに送信されて、現在の位置と他の位置の相対距離が決定されます。次に、クロス注意レイヤーに入力されて、ローカル位置からグローバル位置までのコンテキスト関係がシミュレートされ、この座標系での各初期中心点と真の中心点間のオフセット、および方向角度の差が予測されます。
信頼性の最適化: 分類ブランチは、オブジェクトが TP か FP かを分類するために使用され、IoU 回帰ブランチは、幾何学モデルと位置モデルによって最適化された後、オブジェクトと真の値ボックス間の IoU サイズを予測します。最終的な信頼スコアは、これら 2 つのブランチの幾何平均です。

3つの実験

3.1 主なパフォーマンス

下の表に示すように、当社の方法は Waymo 3D 検出リーダーボードで 85.15 mAPH (L2) という最高の結果を達成しています。DetZero は、長い時間点群を処理する方法や、最先端のマルチモーダル融合 3D 検出器に比べて、パフォーマンス面で大きな優位性があります。

Waymo 3D 検出ランキング結果。すべての結果には TTA またはアンサンブルテクノロジーが使用されています。† はオフラインモデル、‡ はポイントクラウド画像融合モデル、* は匿名の送信結果を示します。

同様に、検出ボックスの精度とオブジェクト追跡シーケンスの完全性のおかげで、Waymo 3D 追跡リーダーボードで 75.05 MOTA (L2) という最高のパフォーマンスを達成しました。

Waymo 3Dトラッキングリーダーボード、*は匿名の提出結果を示します

3.2 アブレーション実験

私たちが提案した各モジュールの役割をより適切に検証するために、Waymo 検証セットでアブレーション実験を実施し、より厳しい IoU しきい値を使用して測定を行いました。

Waymo 検証セットでは、車両と歩行者はそれぞれ標準 IoU しきい値 (0.7 と 0.5) と厳密な IoU しきい値 (0.8 と 0.6) でテストされました。

同時に、同じ検出結果セットに対して、3DAL と DetZero のトラッカーと最適化モデルを選択し、クロス組み合わせ検証を行いました。その結果、DetZero のトラッカーとオプティマイザーの方がパフォーマンスが優れており、この 2 つを組み合わせるとより大きな利点があることが証明されました。

さまざまな上流モジュールと下流モジュールの組み合わせのクロス検証実験。下付き文字 1 と 2 はそれぞれ 3DAL と DetZero を表します。インジケーターは 3D APH です。

当社のオフライントラッカーは、オブジェクトシーケンスの整合性を重視しています。両者の MOTA パフォーマンスの差は非常に小さいですが、Recall@track のパフォーマンスが、最終的な最適化されたパフォーマンスの大きな差の理由の 1 つです。

オフライントラッカー（Trk2）と3DALトラッカー（Trk1）のパフォーマンス比較、パフォーマンスはMOTAとRecall@track

さらに、他の SOTA トラッカーと比較することでも確認できます。

Recall@track は追跡アルゴリズムによる処理後のシーケンスリコールであり、3D APH は同じ最適化モデルによる処理後の最終パフォーマンスです。

3.3 汎化性能

最適化モデルが特定の上流結果セットに固定的に適合しているかどうかを確認するために、異なるパフォーマンスを持つ上流検出および追跡結果を入力として選択し、非常に明らかなパフォーマンスの向上を達成しました。これは、上流モジュールがより多くの完全なオブジェクトシーケンスを思い出すことができる限り、私たちのオプティマイザーがその時間的ポイントクラウドの特性を効果的な最適化に使用できることをさらに証明しています。

Waymo検証セットでの一般化パフォーマンス検証、指標は3D APH

3.4 人間の注釈機能との比較

3DAL の実験設定に従って、指定された 5 つのシーケンスでの DetZero の AP パフォーマンスを報告します。人間のパフォーマンスは、単一フレームに基づく再アノテーション結果と元の真のアノテーション結果との一貫性によって測定されます。 3DAL や人間と比較すると、DetZero はさまざまなパフォーマンス指標で優位性を示しています。

車両カテゴリーの異なる IoU しきい値における 3D AP と BEV AP のパフォーマンス比較

高品質の自動ラベリング結果がオンラインモデルトレーニングの手動ラベリング結果を置き換えることができるかどうかをさらに検証するために、Waymo 検証セットで半教師あり学習の結果を検証しました。トレーニング中は、データの 10% をランダムに選択して教師モデル (DetZero) をトレーニングし、残りの 90% のトレーニングデータに対して推論を実行して、自動ラベル付け結果を学生モデルのトレーニングに使用するラベルとして取得します。学生モデルとして、単一フレームの CenterPoint を選択します。車両カテゴリでは、90% 自動ラベル + 10% 真値ラベルを使用したトレーニングの結果は、100% 真値ラベルを使用した結果に非常に近いものとなっています。歩行者カテゴリでは、自動ラベルでトレーニングされたモデルの結果が元の結果よりも優れています。この結果は、自動ラベルがオンラインモデルをトレーニングできることを示しています。

Waymo検証セットにおける半教師あり実験の結果