この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 この論文では、オフライン 3D オブジェクト検出アルゴリズム フレームワーク DetZero を提案します。Waymo パブリック データセットの包括的な調査と評価を通じて、DetZero は連続的で完全な一連のオブジェクト軌跡を生成し、長期的なポイント クラウド機能を最大限に活用して、認識結果の品質を大幅に向上させることができます。同時に、WOD 3D物体検出ランキングでも85.15mAPH(L2)の性能で1位を獲得しました。さらに、DetZero はオンライン モデル トレーニング用の高品質の自動ラベルを提供でき、その結果は手動ラベルのレベルに達しているか、それを上回っています。 論文: https://arxiv.org/abs/2306.06023 コード: https://github.com/PJLab-ADG/DetZero ホームページ: https://superkoma.github.io/detzero-page 1 はじめに既存の自動運転認識モデルの開発は、データ駆動型の反復モデルに依存しています。しかし、データの注釈付けにかかるコストが高く、後処理の効率もさまざまであるため、より効率的なソリューションを模索する必要が生じています。以前、Waymoはデータ注釈プロセスにおけるリソースと人件費を軽減するために、オフライン3Dオブジェクト検出方法3DAL[]を提案しました。これは主に4つのモジュールに分かれています。
しかし、多くの主流のオンライン 3D オブジェクト検出方法は、ポイント クラウドの時間的コンテキスト機能を利用することで、既存のオフライン 3D 検出方法よりも優れた結果を達成しています。長いシーケンスポイントクラウドの特性を効果的に活用できていないことがわかりました。 1. 現在のターゲット検出および追跡アルゴリズムは、主にボックスレベルのパフォーマンス指標に重点を置いています。TTA およびマルチモデル融合後のオンライン 3D 検出アルゴリズムによって生成された多数の冗長ボックスが、追跡アルゴリズムの入力として使用されます。これにより、通常、軌道の分割、ID の切り替え、誤った関連付けなどの深刻な問題が簡単に発生します。連続的で完全なオブジェクト シーケンスの生成を保証することは不可能であり、オブジェクトに対応する長期的なポイント クラウド機能の使用を妨げます。下の図に示すように、オブジェクトの元の軌跡が複数のサブシーケンス (T1、T2、T3) に分割され、より多くの情報を含む T1 セグメントの特徴が T2 および T3 と共有できなくなり、T4 セグメントの最適化されたボックスは失われたセグメントを思い出せなくなり、T5 セグメントの最適化されたボックスは、元々 FP であった位置に移動された後も FP のままになります。 オブジェクトシーケンスの品質は下流の最適化モデルに大きな影響を与えます。 2. 動作状態分類に基づく最適化モデルは、物体の時間的特性を十分に活用していません。たとえば、剛体の物体のサイズは時間が経っても一定のままであり、さまざまな角度からデータを取得することで、より正確なサイズの推定が可能になります。物体の移動軌道は、特定の運動学的制約に従う必要があり、これは軌道の滑らかさとして現れます。次の図 (a) に示すように、動的オブジェクトの場合、スライディング ウィンドウ ベースの最適化メカニズムはオブジェクトの幾何学的形状の一貫性を考慮せず、隣接する複数のフレームの時間的なポイント クラウド情報を通じて境界ボックスを更新するだけなので、予測される幾何学的寸法に偏差が生じます。 (b)の例では、物体のすべての点群を集約することで、密な時間的点群特徴が得られ、各フレームの境界ボックスの正確な幾何学的サイズを予測することができます。 運動状態に基づく最適化モデルは物体の大きさを予測し(a)、幾何学的最適化モデルはさまざまな視点からのすべての点群を集約して物体の大きさを予測する(b) 2つの方法本論文では、新しいオフライン 3D オブジェクト検出アルゴリズム フレームワーク DetZero を提案します。(1) マルチフレーム 3D 検出器とオフライン トラッカーを上流モジュールとして使用し、十分に正確で完全なオブジェクト追跡を提供し、主にオブジェクト シーケンスの高トラック レベルのリコールを重視します。(2) 下流モジュールには、注意メカニズムに基づく最適化モデルが含まれており、長期的なポイント クラウド機能を使用して、幾何学的サイズの調整、移動軌跡の位置の平滑化、信頼スコアの更新など、オブジェクトのさまざまな属性を個別に学習および予測します。 2.1 完全なオブジェクトシーケンスの生成基本検出器には、公開されているCenterPoint[]を選択しました。できるだけ多くの検出候補ボックスを提供するために、次の3つの側面を強化しました。(1)異なるフレームのポイントクラウドの組み合わせを入力として使用し、パフォーマンスを低下させることなくパフォーマンスを最大化します。(2)ポイントクラウド密度情報を使用して元のポイントクラウド機能とボクセル機能を融合し、第1段階の境界結果を事前に最適化する2段階モジュールを使用します。(3)推論段階データ拡張(TTA)とマルチモデル結果融合(Ensemble)などのテクノロジーを使用して、複雑な環境へのモデルの適応性を向上させます。 オフライン トラッキング モジュールでは、誤った一致を減らすために 2 段階の関連付け戦略が導入されています。ボックスは、信頼度に応じて、高信頼度グループと低信頼度グループに分けられます。高信頼度グループは既存の軌跡に関連付けられ、更新されていない軌跡は低信頼度グループに関連付けられます。同時に、オブジェクトの軌跡の長さはシーケンスが終了するまで継続できるため、ID 切り替えの問題を回避できます。さらに、追跡アルゴリズムを逆に実行して別の軌跡セットを生成し、それらを位置の類似性によって関連付け、最後に WBF 戦略を使用して、一致に成功した軌跡を融合し、シーケンスの開始と終了の整合性をさらに向上させます。最後に、識別されたオブジェクト シーケンスについて、各フレームの対応するポイント クラウドが抽出され、保存されます。更新されていない冗長フレームといくつかの短いシーケンスは、下流の最適化を必要とせずに最終出力に直接マージされます。 2.2 属性予測に基づくオブジェクト最適化モジュールこれまでのオブジェクト中心の最適化モデルでは、幾何学的形状の一貫性や隣接する瞬間のオブジェクトの動きの状態の一貫性など、異なる動きの状態にあるオブジェクト間の相関関係は無視されていました。これらの観察に基づいて、従来の境界ボックス回帰タスクを、オブジェクトの形状、位置、および信頼属性をそれぞれ予測する 3 つのモジュールに分解します。
3つの実験3.1 主なパフォーマンス下の表に示すように、当社の方法は Waymo 3D 検出リーダーボードで 85.15 mAPH (L2) という最高の結果を達成しています。DetZero は、長い時間点群を処理する方法や、最先端のマルチモーダル融合 3D 検出器に比べて、パフォーマンス面で大きな優位性があります。 Waymo 3D 検出ランキング結果。すべての結果には TTA またはアンサンブル テクノロジーが使用されています。† はオフライン モデル、‡ はポイント クラウド画像融合モデル、* は匿名の送信結果を示します。 同様に、検出ボックスの精度とオブジェクト追跡シーケンスの完全性のおかげで、Waymo 3D 追跡リーダーボードで 75.05 MOTA (L2) という最高のパフォーマンスを達成しました。 Waymo 3Dトラッキングリーダーボード、*は匿名の提出結果を示します 3.2 アブレーション実験私たちが提案した各モジュールの役割をより適切に検証するために、Waymo 検証セットでアブレーション実験を実施し、より厳しい IoU しきい値を使用して測定を行いました。 Waymo 検証セットでは、車両と歩行者はそれぞれ標準 IoU しきい値 (0.7 と 0.5) と厳密な IoU しきい値 (0.8 と 0.6) でテストされました。 同時に、同じ検出結果セットに対して、3DAL と DetZero のトラッカーと最適化モデルを選択し、クロス組み合わせ検証を行いました。その結果、DetZero のトラッカーとオプティマイザーの方がパフォーマンスが優れており、この 2 つを組み合わせるとより大きな利点があることが証明されました。 さまざまな上流モジュールと下流モジュールの組み合わせのクロス検証実験。下付き文字 1 と 2 はそれぞれ 3DAL と DetZero を表します。インジケーターは 3D APH です。 当社のオフライン トラッカーは、オブジェクト シーケンスの整合性を重視しています。両者の MOTA パフォーマンスの差は非常に小さいですが、Recall@track のパフォーマンスが、最終的な最適化されたパフォーマンスの大きな差の理由の 1 つです。 オフライントラッカー(Trk2)と3DALトラッカー(Trk1)のパフォーマンス比較、パフォーマンスはMOTAとRecall@track さらに、他の SOTA トラッカーと比較することでも確認できます。 Recall@track は追跡アルゴリズムによる処理後のシーケンスリコールであり、3D APH は同じ最適化モデルによる処理後の最終パフォーマンスです。 3.3 汎化性能最適化モデルが特定の上流結果セットに固定的に適合しているかどうかを確認するために、異なるパフォーマンスを持つ上流検出および追跡結果を入力として選択し、非常に明らかなパフォーマンスの向上を達成しました。これは、上流モジュールがより多くの完全なオブジェクトシーケンスを思い出すことができる限り、私たちのオプティマイザーがその時間的ポイントクラウドの特性を効果的な最適化に使用できることをさらに証明しています。 Waymo検証セットでの一般化パフォーマンス検証、指標は3D APH 3.4 人間の注釈機能との比較3DAL の実験設定に従って、指定された 5 つのシーケンスでの DetZero の AP パフォーマンスを報告します。人間のパフォーマンスは、単一フレームに基づく再アノテーション結果と元の真のアノテーション結果との一貫性によって測定されます。 3DAL や人間と比較すると、DetZero はさまざまなパフォーマンス指標で優位性を示しています。 車両カテゴリーの異なる IoU しきい値における 3D AP と BEV AP のパフォーマンス比較 高品質の自動ラベリング結果がオンラインモデルトレーニングの手動ラベリング結果を置き換えることができるかどうかをさらに検証するために、Waymo 検証セットで半教師あり学習の結果を検証しました。トレーニング中は、データの 10% をランダムに選択して教師モデル (DetZero) をトレーニングし、残りの 90% のトレーニング データに対して推論を実行して、自動ラベル付け結果を学生モデルのトレーニングに使用するラベルとして取得します。学生モデルとして、単一フレームの CenterPoint を選択します。車両カテゴリでは、90% 自動ラベル + 10% 真値ラベルを使用したトレーニングの結果は、100% 真値ラベルを使用した結果に非常に近いものとなっています。歩行者カテゴリでは、自動ラベルでトレーニングされたモデルの結果が元の結果よりも優れています。この結果は、自動ラベルがオンライン モデルをトレーニングできることを示しています。 Waymo検証セットにおける半教師あり実験の結果 3.5 可視化結果赤いボックスは上流の入力結果を表し、青いボックスは最適化モデルの出力結果を表します。 1 行目は上流の入力結果を表し、2 行目は最適化モデルの出力結果を表します。点線内のオブジェクトは、最適化前後の違いが明らかな場所を表します。 自動運転ハート公式アカウント 出典: https://mp.weixin.qq.com/s/aEBIds0Vui69YTtNrEpXrg |
Jenkins のアクセス制御は、セキュリティ ドメイン (認証) と承認戦略に分かれています。その...
人工知能 (AI) は、今後最も期待されるテクノロジーの 1 つです。テクノロジーがビジネスに与える...
[[432637]]銀行ガバナンスリーダーシップネットワーク(BGLN)は最近、銀行が人工知能(AI...
3月2日のニュースによると、数秒以内にニュース記事を生成することは、メディア業界にとって確かに非常に...
AI がダブル 11 の生産と製造をスピードアップします。 10月29日、記者は、アリババのAIア...
海外メディアの報道によると、グーグルは10月7日、先日開催された「Made by Google 20...
IT Homeは11月7日、マイクロソフトがInworld AIと協力し、開発者がAIベースのキャ...
人工知能は進歩し続け、企業の運営方法や私たち自身の日常の経験を変えています。実際、AI はほぼすべて...
2021年8月29日、カブールの空に大きな爆発音が響き、米軍の無人機が7人の子供を含む10人の罪のな...
機械学習技術の発展により、企業内のさまざまな構造化コンテンツや非構造化コンテンツから、より多くの情報...