QTNet: 最新のタイミング融合ソリューション!ポイントクラウド、画像、マルチモーダル検出器はすべて適用可能 (NeurIPS 2023)

QTNet: 最新のタイミング融合ソリューション!ポイントクラウド、画像、マルチモーダル検出器はすべて適用可能 (NeurIPS 2023)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と個人的な理解

時間的融合は、自動運転における 3D ターゲット検出の認識能力を効果的に向上させることができます。ただし、現在の時間的融合方法は、コストの問題により、実際の自動運転シナリオに適用することは困難です。 NeurIPS 2023の最新の研究論文「3Dオブジェクト検出のための明示的な動きによるクエリベースの時間的融合」では、DETRのスパースクエリを時間的融合の対象とし、明示的な動き情報を使用して、大規模なポイントクラウドの特性に基づいた時間的注意マトリックスの生成をガイドします。華中科技大学と百度の研究者らは、この論文で、クエリと明示的な動きに基づいた 3D オブジェクト検出のための時間的融合手法である QTNet を提案しました。実験結果によると、QTNet は、わずかなコストで、ポイント クラウド、画像、マルチモーダル検出器に一貫したパフォーマンスの向上をもたらすことができます。

  • 論文リンク: https://openreview.net/pdf?id=gySmwdmVDF
  • コードリンク: https://github.com/AlmoonYsl/QTNet

背景

現実世界の時間的連続性のおかげで、時間次元の情報により知覚情報がより完全なものとなり、ターゲット検出の精度と堅牢性が向上します。たとえば、タイミング情報は、ターゲット検出における遮蔽問題の解決に役立ち、ターゲットの動きの状態と速度の情報を提供し、ターゲットの連続性と一貫性の情報を提供します。そのため、タイミング情報をいかに効率的に活用するかが自動運転の認知において重要な課題となります。既存の時系列融合方法は、主に 2 つのカテゴリに分けられます。 1 つは時間的融合のための高密度 BEV 特徴に基づいており (ポイント クラウドと画像の両方の時間的融合に適用可能)、もう 1 つは時間的融合のための 3D 提案特徴に基づいています (主にポイント クラウドの時間的融合方法用)。 BEV 特徴に基づく時間的融合の場合、BEV 上の点の 90% 以上が背景であるため、このタイプの方法では前景オブジェクトに十分な注意が払われず、多くの不要な計算オーバーヘッドと最適ではないパフォーマンスにつながります。 3D Proposal に基づく時間的融合アルゴリズムでは、時間のかかる 3D RoI プーリングを通じて 3D Proposal 機能を生成します。特に、ターゲットが多く、ポイント クラウドの数が多い場合、3D RoI プーリングによってもたらされるオーバーヘッドは、実際のアプリケーションでは受け入れられないことがよくあります。さらに、3D 提案機能は提案の品質に大きく依存しており、複雑なシーンでは制限されることがよくあります。したがって、現在の方法では、非常に低いオーバーヘッドで時間的融合を効率的に導入して 3D オブジェクト検出のパフォーマンスを向上させることは困難です。

効率的な時系列融合を実現するにはどうすればよいでしょうか?

DETR は優れたターゲット検出パラダイムです。提案されたクエリ設計とセット予測のアイデアにより、後処理なしでエレガントな検出パラダイムが効果的に実現されます。 DETR では、各クエリはオブジェクトを表し、クエリは密な機能に比べて非常にスパースです (通常、クエリの数は比較的小さな固定数に設定されます)。 Quey をタイミング融合の対象として使用すると、計算オーバーヘッドの問題は自然に低いレベルにまで軽減されます。したがって、DETR のクエリ パラダイムは、時系列融合に自然に適したパラダイムです。時間的融合では、時間的コンテキスト情報の統合を実現するために、複数のフレーム間でオブジェクトの関連付けを構築する必要があります。次に、主な問題は、クエリベースの時間的融合パイプラインを構築し、2 つのフレームのクエリ間の関連付けを確立する方法です。

  • 実際のシーンでは車両が移動することが多いため、2 つのフレームのポイント クラウド/画像は座標系で位置が揃っていないことがよくあります。実際のアプリケーションでは、位置が揃っているポイント クラウド/画像の特徴を抽出するために、現在のフレームのすべての履歴フレームのネットワークを再転送することは不可能です。そのため、本論文では、メモリバンク方式を採用し、履歴フレームから取得したクエリ特徴とそれに対応する検出結果のみを保存して、繰り返し計算を回避します。
  • ポイントクラウドと画像はターゲットの特徴を記述する上で大きく異なるため、特徴レベルで統一された時間的融合方法を構築することは現実的ではありません。ただし、3 次元空間では、ポイント クラウドと画像モダリティの両方で、ターゲットの幾何学的位置/動き情報の関係を通じて、隣接するフレーム間の相関関係を特徴付けることができます。そのため、本論文では、物体の幾何学的位置とそれに対応する動きの情報を用いて、2 つのフレーム間の物体の注目行列を誘導します。
方法の紹介

QTNet の中心的なアイデアは、メモリ バンクを使用して、クエリ機能と履歴フレームで取得された対応する検出結果を保存し、履歴フレームの繰り返し計算オーバーヘッドを回避することです。 2 つのクエリ フレーム間の関係については、モーション ガイド付き注意マトリックスを使用して関係をモデル化します。

全体的な枠組み

フレームワーク図に示されているように、QTNet には、3D DETR 構造 (LiDAR、カメラ、マルチモーダル) を備えた 3D ターゲット検出器、メモリ バンク、および時間的融合のためのモーション ガイド付き時間的モデリング モジュール (MTM) が含まれています。 QTNet は、DETR 構造の 3D オブジェクト検出器を介して対応するフレームのクエリ特徴と検出結果を取得し、取得したクエリ特徴と検出結果を先入れ先出しキュー (FIFO) 方式でメモリ バンクに送信します。メモリ バンクの数は、タイミング フュージョンに必要なフレームの数に設定されます。時系列融合の場合、QTNet は最も遠い瞬間からメモリ バンクからデータを読み取り、MTM モジュールから反復します。   フレームに  フレームは MemoryBank 内のすべての機能を融合して現在のフレームのクエリ機能を強化し、強化されたクエリ機能に基づいて対応する現在のフレームの検出結果を改良します。

具体的には、QTNet   フレームフュージョン  そして  フレームのクエリ機能  そして  、強化された フレームのクエリ機能  。そしてQTNetは  そして  フレームのクエリ機能が融合されます。このようにして、私たちは継続的に統合します  フレーム。ここで注意すべきことは  フレームに  フレームで使用されるすべての MTM はパラメータを共有します。

モーションガイド付き注意モジュール

MTMはオブジェクトの中心点の位置を使用して明示的に生成します  フレームクエリと  フレームクエリの注目マトリックス。自我姿勢行列が与えられると  そして  、オブジェクトの中心点、速度。まず、MTM は自我の姿勢とオブジェクトの予測速度情報を使用して、オブジェクトを前のフレームから次のフレームに移動し、2 つのフレームの座標系を揃えます。

そして、   フレームオブジェクトの中心と  ユークリッドコスト行列は、フレームの修正された中心点から構築されます。   。さらに、不一致の可能性を避けるため、本論文では、   距離閾値  注意マスクの構築  :

最後に、コスト行列はアテンション行列に変換されます。

注意マトリックス  効果  フレームのクエリ機能の強化  時系列の特徴を集約して強化する  フレームのクエリ機能:

最終的に強化された  フレームのクエリ機能  単純な FFN を使用して対応する検出結果を改良し、検出パフォーマンスを向上させます。

分離されたタイミング融合構造

この論文では、時系列融合の分類と回帰学習に不均衡の問題があることを指摘しています。 1 つの解決策は、分類と回帰の時系列融合ブランチを別々に設計することです。ただし、この分離アプローチでは計算コストとレイテンシが増加し、ほとんどの方法では受け入れられません。対照的に、効率的な時間的融合設計のおかげで、QTNet の計算コストとレイテンシは、3D 検出ネットワーク全体と比較してごくわずかです。したがって、図に示すように、本論文では、時間的融合における分類と回帰の分岐を分離し、無視できるコストでより優れた検出性能を実現します。

実験結果

QTNetはポイントクラウド/画像/マルチモダリティの一貫した増加を達成

この論文では、nuScenes データセットで結果を検証しています。将来の情報、TTA、モデル統合を使用せずに、QTNet は nuScenes ベンチマークで 68.4 mAP と 72.2 NDS の SOTA パフォーマンスを達成しました。未来情報を使用する MGTANet と比較すると、3 フレームの時間的融合の場合、QTNet は MGTANet より 3.0 mAP と 1.0 NDS 優れています。

さらに、この論文では、マルチモーダルおよびリングビューベースの方法も検証しています。nuScenes 検証セットでの実験結果は、さまざまなモダリティでの QTNet の有効性を実証しています。

タイミング融合のコストは、実際のアプリケーションにとって非常に重要です。この論文では、計算の複雑さ、レイテンシ、およびパラメータ量の観点から QTNet の分析実験を行います。さまざまなベースラインの QTNet によってもたらされる計算オーバーヘッド、時間遅延、およびパラメータの数は、ネットワーク全体と比較して無視できるほど小さく、特に計算量は 0.1G FLOP (LiDAR ベースライン) しか使用しないことがわかります。

異なる時間融合パラダイムの比較

本論文で提案するクエリベースの時系列融合パラダイムの優位性を検証するために、本論文ではさまざまな代表的な最先端の時系列融合方法を比較対象として選択します。実験結果は、クエリ パラダイムに基づく時系列融合アルゴリズムが、他の BEV ベースおよび提案ベースのパラダイムよりも効率的であることを示しています。 QTNet は 0.1G FLOP と 4.5ms のオーバーヘッドで優れたパフォーマンスを実現し、パラメータの総数はわずか 0.3M です。

アブレーション実験

この論文では、3 フレームの時間的融合を使用して、nuScenes 検証セットで LiDAR ベースラインに基づくアブレーション実験を実施します。アブレーション実験を通じて、単に Cross Attention を使用して時間的関係をモデル化しても明らかな効果はないことがわかりました。しかし、MTM を使用した後は、検出パフォーマンスが大幅に向上することが確認されており、大規模なポイント クラウドにおける明示的なモーション ガイダンスの重要性が示されています。さらに、フレーム数のアブレーション実験を通じて、QTNet の全体的な設計が非常に軽量かつ効率的であることがわかります。時系列融合に 4 フレームのデータを使用した後、QTNet によってもたらされる計算能力はわずか 0.24G FLOP で、遅延はわずか 6.5 ミリ秒です。

MTMの可視化

MTM が Cross Attention よりも優れている理由を探るために、この論文では、2 つのフレーム間のオブジェクトの注意マトリックスを視覚化します。ここで、同じ ID は 2 つのフレーム間で同じオブジェクトを表します。 MTM によって生成された注意行列 (b) は、Cross Attention によって生成された注意行列 (a) よりも識別力が高く、特に小さなオブジェクト間の注意行列においてその識別力が高いことがわかります。これは、明示的な動きによって誘導される注意マトリックスにより、モデルが物理モデリングを通じて 2 つのフレーム間のオブジェクト間の関連付けを確立しやすくなることを示唆しています。この記事では、時系列融合において物理的な方法で時系列の関連付けを確立する問題について、予備的にのみ検討します。時系列の関連付けをより適切に構築する方法を検討する価値はまだあります。

テスト結果の視覚化

本稿では、シーンシーケンスに基づく検出結果の視覚的分析を行います。左下隅にある小さな物体は  フレームは自車両から急速に離れ始め、ベースラインは  フレームはオブジェクトを逃したが、QTNet   オブジェクトはフレーム内で依然として検出可能であり、これは時間的融合における QTNet の有効性を証明しています。

結論

この論文では、現在の 3D オブジェクト検出タスク向けに、より効率的なクエリベースの時間的融合方法 QTNet を提案します。主なポイントは 2 つあります。1 つは、スパース クエリを時系列融合の対象として使用し、メモリ バンクを介して履歴情報を保存して、繰り返し計算を回避することです。もう 1 つは、明示的なモーション モデリングを使用して、時系列クエリ間の注意行列の生成をガイドし、時系列関係モデリングを実現することです。これら 2 つの重要なアイデアにより、QTNet は LiDAR、カメラ、マルチモダリティに適用できる時間的融合を効率的に実現し、わずかなコストオーバーヘッドで 3D ターゲット検出のパフォーマンスを一貫して向上させることができます。

オリジナルリンク: https://mp.weixin.qq.com/s/s9tkF_rAP2yUEkn6tp9eUQ

<<:  今後の展望:自動運転におけるビッグモデル技術の応用と影響

>>: 

ブログ    

推薦する

...

リモートワークにおけるAIの活用事例

世界中の組織がリモートワークに移行する必要に迫られ、業務を維持するために技術的な対策が必要になりまし...

インテリジェントな意思決定の新時代: AutoGen による財務データの分析

著者 | 崔昊レビュー | ChonglouまとめAutoGenはAIをベースにしている 人間の意思...

プログラミング能力はGPT-4を超え、アルパカコード版「スーパーカップ」が登場、ザッカーバーグ氏も自らLlama3をネタバレ

アルパカファミリーの「最強のオープンソースコードモデル」が「スーパーカップ」を発売しました——今朝、...

...

2023年に出現するサイバー脅威、AI、量子コンピューティング、データ汚染まで

ハッカーや詐欺師が新しいテクノロジーを入手したり、古い脆弱性を悪用する新しい方法を考え出したりするに...

インターネット業界における顔認識機能の認知に関する調査報告書

[51CTO.comからのオリジナル記事] 高速かつ高性能なコンピュータの登場により、顔画像技術は大...

AI を活用した検索と推奨はどれほど強力でしょうか?

著者 | ユン・チャオユーザーと情報の間には、検索か推奨のいずれかが存在します。百度の執行副社長であ...

人工知能の6つの主要概念とAIプロジェクトを実装するための7つの考慮事項を1つの記事で理解する

AI はすべての問題を解決できるわけではありませんが、正しく適用すれば短期間で大きな変化をもたらすこ...

位相データ解析を使用して畳み込みニューラルネットワークモデルの動作プロセスを理解する

1. はじめにニューラル ネットワークは、画像、テキスト、時系列などのさまざまなデータの処理において...

ベルギー国会議員は、携帯電話を使用しているとAIによって公に名指しされたため、議会で「気を散らされる」ことはできなくなった。

[[410932]]会議中にこっそりと携帯電話を見ている時間がバックグラウンド システムによって記...

...

画像をデジタル化して特徴を抽出するための、事前トレーニング済みのディープラーニングモデル6つ

[51CTO.com クイック翻訳] ユビキタスセンサーは毎日大量の画像を収集しており、人工知能技術...

データサイエンスがソーシャルメディアマーケティング戦略をどう変えるか

人工知能の広範な応用は今日よく知られていますが、人工知能は具体的にどのように企業のソーシャル メディ...