QTNet: 最新のタイミング融合ソリューション!ポイントクラウド、画像、マルチモーダル検出器はすべて適用可能 (NeurIPS 2023)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と個人的な理解

時間的融合は、自動運転における 3D ターゲット検出の認識能力を効果的に向上させることができます。ただし、現在の時間的融合方法は、コストの問題により、実際の自動運転シナリオに適用することは困難です。 NeurIPS 2023の最新の研究論文「3Dオブジェクト検出のための明示的な動きによるクエリベースの時間的融合」では、DETRのスパースクエリを時間的融合の対象とし、明示的な動き情報を使用して、大規模なポイントクラウドの特性に基づいた時間的注意マトリックスの生成をガイドします。華中科技大学と百度の研究者らは、この論文で、クエリと明示的な動きに基づいた 3D オブジェクト検出のための時間的融合手法である QTNet を提案しました。実験結果によると、QTNet は、わずかなコストで、ポイントクラウド、画像、マルチモーダル検出器に一貫したパフォーマンスの向上をもたらすことができます。

論文リンク: https://openreview.net/pdf?id=gySmwdmVDF
コードリンク: https://github.com/AlmoonYsl/QTNet

背景

現実世界の時間的連続性のおかげで、時間次元の情報により知覚情報がより完全なものとなり、ターゲット検出の精度と堅牢性が向上します。たとえば、タイミング情報は、ターゲット検出における遮蔽問題の解決に役立ち、ターゲットの動きの状態と速度の情報を提供し、ターゲットの連続性と一貫性の情報を提供します。そのため、タイミング情報をいかに効率的に活用するかが自動運転の認知において重要な課題となります。既存の時系列融合方法は、主に 2 つのカテゴリに分けられます。 1 つは時間的融合のための高密度 BEV 特徴に基づいており (ポイントクラウドと画像の両方の時間的融合に適用可能)、もう 1 つは時間的融合のための 3D 提案特徴に基づいています (主にポイントクラウドの時間的融合方法用)。 BEV 特徴に基づく時間的融合の場合、BEV 上の点の 90% 以上が背景であるため、このタイプの方法では前景オブジェクトに十分な注意が払われず、多くの不要な計算オーバーヘッドと最適ではないパフォーマンスにつながります。 3D Proposal に基づく時間的融合アルゴリズムでは、時間のかかる 3D RoI プーリングを通じて 3D Proposal 機能を生成します。特に、ターゲットが多く、ポイントクラウドの数が多い場合、3D RoI プーリングによってもたらされるオーバーヘッドは、実際のアプリケーションでは受け入れられないことがよくあります。さらに、3D 提案機能は提案の品質に大きく依存しており、複雑なシーンでは制限されることがよくあります。したがって、現在の方法では、非常に低いオーバーヘッドで時間的融合を効率的に導入して 3D オブジェクト検出のパフォーマンスを向上させることは困難です。

効率的な時系列融合を実現するにはどうすればよいでしょうか?

DETR は優れたターゲット検出パラダイムです。提案されたクエリ設計とセット予測のアイデアにより、後処理なしでエレガントな検出パラダイムが効果的に実現されます。 DETR では、各クエリはオブジェクトを表し、クエリは密な機能に比べて非常にスパースです (通常、クエリの数は比較的小さな固定数に設定されます)。 Quey をタイミング融合の対象として使用すると、計算オーバーヘッドの問題は自然に低いレベルにまで軽減されます。したがって、DETR のクエリパラダイムは、時系列融合に自然に適したパラダイムです。時間的融合では、時間的コンテキスト情報の統合を実現するために、複数のフレーム間でオブジェクトの関連付けを構築する必要があります。次に、主な問題は、クエリベースの時間的融合パイプラインを構築し、2 つのフレームのクエリ間の関連付けを確立する方法です。

実際のシーンでは車両が移動することが多いため、2 つのフレームのポイントクラウド/画像は座標系で位置が揃っていないことがよくあります。実際のアプリケーションでは、位置が揃っているポイントクラウド/画像の特徴を抽出するために、現在のフレームのすべての履歴フレームのネットワークを再転送することは不可能です。そのため、本論文では、メモリバンク方式を採用し、履歴フレームから取得したクエリ特徴とそれに対応する検出結果のみを保存して、繰り返し計算を回避します。
ポイントクラウドと画像はターゲットの特徴を記述する上で大きく異なるため、特徴レベルで統一された時間的融合方法を構築することは現実的ではありません。ただし、3 次元空間では、ポイントクラウドと画像モダリティの両方で、ターゲットの幾何学的位置/動き情報の関係を通じて、隣接するフレーム間の相関関係を特徴付けることができます。そのため、本論文では、物体の幾何学的位置とそれに対応する動きの情報を用いて、2 つのフレーム間の物体の注目行列を誘導します。

方法の紹介

QTNet の中心的なアイデアは、メモリバンクを使用して、クエリ機能と履歴フレームで取得された対応する検出結果を保存し、履歴フレームの繰り返し計算オーバーヘッドを回避することです。 2 つのクエリフレーム間の関係については、モーションガイド付き注意マトリックスを使用して関係をモデル化します。

全体的な枠組み

フレームワーク図に示されているように、QTNet には、3D DETR 構造 (LiDAR、カメラ、マルチモーダル) を備えた 3D ターゲット検出器、メモリバンク、および時間的融合のためのモーションガイド付き時間的モデリングモジュール (MTM) が含まれています。 QTNet は、DETR 構造の 3D オブジェクト検出器を介して対応するフレームのクエリ特徴と検出結果を取得し、取得したクエリ特徴と検出結果を先入れ先出しキュー (FIFO) 方式でメモリバンクに送信します。メモリバンクの数は、タイミングフュージョンに必要なフレームの数に設定されます。時系列融合の場合、QTNet は最も遠い瞬間からメモリバンクからデータを読み取り、MTM モジュールから反復します。フレームにフレームは MemoryBank 内のすべての機能を融合して現在のフレームのクエリ機能を強化し、強化されたクエリ機能に基づいて対応する現在のフレームの検出結果を改良します。

具体的には、QTNet フレームフュージョンそしてフレームのクエリ機能そして、強化されたフレームのクエリ機能。そしてQTNetはそしてフレームのクエリ機能が融合されます。このようにして、私たちは継続的に統合しますフレーム。ここで注意すべきことはフレームにフレームで使用されるすべての MTM はパラメータを共有します。

モーションガイド付き注意モジュール

MTMはオブジェクトの中心点の位置を使用して明示的に生成しますフレームクエリとフレームクエリの注目マトリックス。自我姿勢行列が与えられるとそして、オブジェクトの中心点、速度。まず、MTM は自我の姿勢とオブジェクトの予測速度情報を使用して、オブジェクトを前のフレームから次のフレームに移動し、2 つのフレームの座標系を揃えます。

そして、フレームオブジェクトの中心とユークリッドコスト行列は、フレームの修正された中心点から構築されます。。さらに、不一致の可能性を避けるため、本論文では、距離閾値注意マスクの構築 :

最後に、コスト行列はアテンション行列に変換されます。

注意マトリックス効果フレームのクエリ機能の強化時系列の特徴を集約して強化するフレームのクエリ機能:

最終的に強化されたフレームのクエリ機能単純な FFN を使用して対応する検出結果を改良し、検出パフォーマンスを向上させます。

分離されたタイミング融合構造

この論文では、時系列融合の分類と回帰学習に不均衡の問題があることを指摘しています。 1 つの解決策は、分類と回帰の時系列融合ブランチを別々に設計することです。ただし、この分離アプローチでは計算コストとレイテンシが増加し、ほとんどの方法では受け入れられません。対照的に、効率的な時間的融合設計のおかげで、QTNet の計算コストとレイテンシは、3D 検出ネットワーク全体と比較してごくわずかです。したがって、図に示すように、本論文では、時間的融合における分類と回帰の分岐を分離し、無視できるコストでより優れた検出性能を実現します。

実験結果

QTNetはポイントクラウド/画像/マルチモダリティの一貫した増加を達成

この論文では、nuScenes データセットで結果を検証しています。将来の情報、TTA、モデル統合を使用せずに、QTNet は nuScenes ベンチマークで 68.4 mAP と 72.2 NDS の SOTA パフォーマンスを達成しました。未来情報を使用する MGTANet と比較すると、3 フレームの時間的融合の場合、QTNet は MGTANet より 3.0 mAP と 1.0 NDS 優れています。

さらに、この論文では、マルチモーダルおよびリングビューベースの方法も検証しています。nuScenes 検証セットでの実験結果は、さまざまなモダリティでの QTNet の有効性を実証しています。

タイミング融合のコストは、実際のアプリケーションにとって非常に重要です。この論文では、計算の複雑さ、レイテンシ、およびパラメータ量の観点から QTNet の分析実験を行います。さまざまなベースラインの QTNet によってもたらされる計算オーバーヘッド、時間遅延、およびパラメータの数は、ネットワーク全体と比較して無視できるほど小さく、特に計算量は 0.1G FLOP (LiDAR ベースライン) しか使用しないことがわかります。

異なる時間融合パラダイムの比較

本論文で提案するクエリベースの時系列融合パラダイムの優位性を検証するために、本論文ではさまざまな代表的な最先端の時系列融合方法を比較対象として選択します。実験結果は、クエリパラダイムに基づく時系列融合アルゴリズムが、他の BEV ベースおよび提案ベースのパラダイムよりも効率的であることを示しています。 QTNet は 0.1G FLOP と 4.5ms のオーバーヘッドで優れたパフォーマンスを実現し、パラメータの総数はわずか 0.3M です。

アブレーション実験

この論文では、3 フレームの時間的融合を使用して、nuScenes 検証セットで LiDAR ベースラインに基づくアブレーション実験を実施します。アブレーション実験を通じて、単に Cross Attention を使用して時間的関係をモデル化しても明らかな効果はないことがわかりました。しかし、MTM を使用した後は、検出パフォーマンスが大幅に向上することが確認されており、大規模なポイントクラウドにおける明示的なモーションガイダンスの重要性が示されています。さらに、フレーム数のアブレーション実験を通じて、QTNet の全体的な設計が非常に軽量かつ効率的であることがわかります。時系列融合に 4 フレームのデータを使用した後、QTNet によってもたらされる計算能力はわずか 0.24G FLOP で、遅延はわずか 6.5 ミリ秒です。

MTMの可視化

MTM が Cross Attention よりも優れている理由を探るために、この論文では、2 つのフレーム間のオブジェクトの注意マトリックスを視覚化します。ここで、同じ ID は 2 つのフレーム間で同じオブジェクトを表します。 MTM によって生成された注意行列 (b) は、Cross Attention によって生成された注意行列 (a) よりも識別力が高く、特に小さなオブジェクト間の注意行列においてその識別力が高いことがわかります。これは、明示的な動きによって誘導される注意マトリックスにより、モデルが物理モデリングを通じて 2 つのフレーム間のオブジェクト間の関連付けを確立しやすくなることを示唆しています。この記事では、時系列融合において物理的な方法で時系列の関連付けを確立する問題について、予備的にのみ検討します。時系列の関連付けをより適切に構築する方法を検討する価値はまだあります。

テスト結果の視覚化

本稿では、シーンシーケンスに基づく検出結果の視覚的分析を行います。左下隅にある小さな物体はフレームは自車両から急速に離れ始め、ベースラインはフレームはオブジェクトを逃したが、QTNet オブジェクトはフレーム内で依然として検出可能であり、これは時間的融合における QTNet の有効性を証明しています。

結論

この論文では、現在の 3D オブジェクト検出タスク向けに、より効率的なクエリベースの時間的融合方法 QTNet を提案します。主なポイントは 2 つあります。1 つは、スパースクエリを時系列融合の対象として使用し、メモリバンクを介して履歴情報を保存して、繰り返し計算を回避することです。もう 1 つは、明示的なモーションモデリングを使用して、時系列クエリ間の注意行列の生成をガイドし、時系列関係モデリングを実現することです。これら 2 つの重要なアイデアにより、QTNet は LiDAR、カメラ、マルチモダリティに適用できる時間的融合を効率的に実現し、わずかなコストオーバーヘッドで 3D ターゲット検出のパフォーマンスを一貫して向上させることができます。

オリジナルリンク: https://mp.weixin.qq.com/s/s9tkF_rAP2yUEkn6tp9eUQ

<<: 今後の展望：自動運転におけるビッグモデル技術の応用と影響

>>: