リアルタイムでネットワークを占拠しますか? OccupancyDETR: 占有ネットワークをオブジェクト検出と同じくらい簡単にします。

論文リンク: https://arxiv.org/pdf/2309.08504.pdf

コードリンク: https://github.com/jypjypjypjyp/OccupancyDETR

ビジョンベースの 3D セマンティック占有認識 (3D セマンティックシーン補完とも呼ばれる) は、自動運転などのロボットアプリケーション向けの新しい認識パラダイムです。 BEV の認識と比較して、垂直方向の次元が拡張され、ロボットの周囲を認識する能力が大幅に向上します。しかし、この理由から、現在の 3D セマンティック占有検知方法の計算要件は、BEV 検知方法や 2D 検知方法の計算要件を上回ることがよくあります。私たちは、DETR のようなオブジェクト検出モジュールと 3D 占有デコーダーモジュールで構成される、新しい 3D セマンティック占有認識方法 OccupancyDETR を提案します。オブジェクト検出の統合により、アーキテクチャ的にアプローチが簡素化されます。各ボクセルのセマンティクスを予測する代わりに、シーン内のオブジェクトとそれぞれの 3D 占有グリッドを識別します。これにより、アプローチが高速化され、必要なリソースが削減され、オブジェクト検出アルゴリズムが活用され、小さなオブジェクトに対しても優れたパフォーマンスが得られます。提案された方法の有効性は SemanticKITTI データセットで実証されており、23% の mIoU と 6 フレーム/秒の処理速度を示しており、リアルタイムの 3D セマンティックシーン補完のための有望なソリューションを提供します。

現在主流となっている解決策

3D 意味認識はロボットの基本的な機能です。現在普及しているアプローチは、LIDAR とカメラを組み合わせたマルチセンサー融合を採用していますが、このアプローチではコストが高く、携帯性に欠けるなどの問題が発生します。近年、パフォーマンスを損なうことなく比較的低コストで実現できることから、純粋な視覚ベースの 3D セマンティック認識方式への関心が高まっています。最初に、BEV 認識が導入され、自動運転シナリオにおける認識機能が大幅に強化されました。その後、3D 意味的占有知覚が登場し、BEV 知覚が垂直次元に拡張され、さまざまなシナリオでより広い適用性を実現しました。この目的のために、私たちは、このタスクに対するより直接的で効率的なアプローチを開発することを目標に、視覚ベースの 3D 意味的占有認識に焦点を当てています。

科学者は、人間の視覚に関する研究の中で、高レベルの視覚処理では、気づかれない背景情報を考慮しながら、シーン内の前景のオブジェクトを優先する傾向があることに気づきました。これに触発されて、3D セマンティック占有知覚では、人間の視覚知覚のメカニズムを模倣し、DETR のようなオブジェクト検出モジュールを導入して、3D セマンティック占有グリッドの予測を導きます。検出されたオブジェクトの境界ボックスを位置の事前情報として使用し、オブジェクトの隠れた特徴をコンテキスト情報として使用し、空間トランスフォーマーデコーダーを使用して各オブジェクトの 3D 占有グリッドを抽出します。

ここで言う「ターゲット」は、厳密には単一のターゲットを指すのではなく、木の群れや建物のグループなど、同じ意味を持つターゲットの集まりを指します。このように、3D セマンティック占有認識のタスクは、シーン内のさまざまなオブジェクトを識別し、それぞれの 3D 占有グリッドを抽出することに分解されます。初期のYOLOから最近のDeformable DETRやその他の方法に至るまで、物体検出アルゴリズムは長年にわたって開発されており、複雑なシーンでも優れたパフォーマンスを実現しています。さらに、その複雑さのレベルは、3D 意味的占有認識の複雑さのレベルよりも大幅に低くなります。私たちは、成熟した物体検出アルゴリズムを統合することで 3D 意味的占有認識方法を簡素化し、3D 意味的占有認識を物体検出と同じくらい簡単にし、これらのタスクを単一のニューラルネットワークに統合することを目指しています。最後に、提案された方法は SemanticKITTI データセットで検証され、より小さなオブジェクト、より高速、より少ないリソース要件で優れたパフォーマンスを発揮することが実証されました。

私たちの主な貢献は次のとおりです。

1) 物体検出を組み合わせた新しい3Dセマンティック占有予測法を提案します。この方法はシンプルで効率的であり、特に小さなオブジェクトの処理に優れており、SemanticKITTI データセットで優れたパフォーマンスを達成しています。

2) Detrlikeアルゴリズムの収束が遅い問題に対処するために、早期マッチング事前トレーニング法が提案されている。この事前トレーニングにより、トレーニングの確実性が高まり、収束が加速されます。

3) 2 種類の 3D 占有デコーダーが設計されています。1 つは標高付き BEV クエリを使用し、もう 1 つは 3D ボックスクエリを使用します。実験的な比較を通じて、異なるカテゴリのオブジェクトに対するこれら 2 つの方法のパフォーマンスが検査されました。

我々が提案する方法

モデルの全体的な構造を図 2 に示します。これは、オブジェクト検出モジュールと 3D 占有デコーダーの 2 つの部分で構成されています。入力画像の場合、ResNet50 バックボーンを使用して特徴を抽出し、これらのマルチスケール特徴は変形可能なエンコーダーに渡されてさらにエンコードされます。 2 番目のステップでは、固定数のクエリが変形可能な DETR デコーダーによってデコードされ、分類ヘッド、2D ボックスヘッド、3D ボックスヘッドの 3 つのヘッドに渡されます。分類ヘッドと 2D ボックスヘッドの結果は、オブジェクト検出における従来の結果であり、分類ヘッドの出力に基づいて信頼性の高いオブジェクトが選択されます。 3 番目のステップでは、これらの高信頼オブジェクトの 3D ボックスが、3D 占有デコーダー内の各オブジェクトの位置の事前分布として使用され、位置の埋め込みが提供されます。変形可能な DETR デコーダーから取得された特徴は、コンテキスト情報として使用されます。次に、3D 占有デコーダーは、変形可能な DETR エンコーダーによってエンコードされたマルチスケール特徴に基づいて、各オブジェクトの 3D 占有グリッドを予測します。

1) 物体検出モジュール

3D セマンティック占有予測にオブジェクト検出を導入し、3D セマンティック占有の予測を簡素化および支援することを目指します。したがって、識別された「ターゲット」は、従来のターゲット検出における「ターゲット」とは異なります。注釈データを生成する際、セマンティックオブジェクトは、各オブジェクトを正確に区別せずに、まず距離に基づいてボクセルグリッドからクラスタ化されます。次に、クラスター化された各オブジェクトが 2D 画像に投影され、投影プロセス中にオクルージョンを考慮しながら、これらの投影されたポイントに基づいて 2D 境界ボックスが計算されます。完全に遮蔽された観測不可能なオブジェクトがモデルの学習に影響を与えないようにするため、それらを除外します。ただし、モデルにシーン完成機能を持たせるために、部分的に遮蔽されたオブジェクトは保持されます。

このモデルは、図 3 に示すように、2 段階の変形可能な DETR に基づいて改良されています。最初のエンドツーエンドのトランスフォーマーベースの方法として、DETR は手動で設計された方法に依存しないため、多くの学者によってオブジェクト検出の新しい方向性であると考えられています。しかし、DETR におけるあいまいなクエリと二部マッチングによって生じる不確実性により、トレーニング中の収束が非常に遅くなります。 DETR の長期トレーニング中、二部マッチングはほとんどの場合不安定なままであることがわかりました。これは、モデルがデータセット全体に適したクエリを見つけるために多数の試行を実行する必要があり、トレーニング時間の大部分が費やされたためだと考えられます。そのため、オブジェクト検出モジュールでは、2 段階の変形可能な DETR を採用し、クエリ選択プロセスのための早期マッチング事前トレーニングを設計します。従来のトレーニング段階では、エンコーダから出力される各マルチスケール機能に、クエリ選択プロセス中に事前設定された ROI が割り当てられます。これらの特徴は分類ヘッドによって計算され、スコアが最も高い上位 k 個の特徴がクエリのコンテキスト情報として選択され、対応する ROI がクエリの場所として使用されます。変形可能なデコーダーを通過した後、GT と照合されます。早期マッチングの事前トレーニングでは、事前に設定された ROI とグラウンドトゥルースとの間の事前の二部マッチングによって決定論が保証され、適切なクエリを検索する長いプロセスが回避されるため、その後の通常のトレーニングが高速化されます。オブジェクト検出の最終段階では、変形可能な detr デコーダーによって処理されるクエリにはすでにあいまいな 3D 空間情報が含まれています。分類ヘッドと 2D 境界ボックスヘッドに加えて、追加の 3D 境界ボックスヘッドも追加します。これは、カメラ座標でオブジェクトの 3D 境界ボックスを予測するために使用されます。次に、カメラの外部パラメータに従って占有グリッド座標系に変換され、後続の 3D 占有デコーダーに事前位置が提供されます。

2) 3D占有デコーダー

オブジェクト検出段階の後、信頼性の高い結果が選択され、その特徴は占有グリッド座標系で予測された 3D ボックスとともに 3D 占有デコーダーモジュールに渡されます。 3D ボックスの予測結果を完全に信頼していないことを考慮して、すべての 3D ボックスは適度に拡大されます。図 4 に示すように、2 つのクエリ構築モードが採用されています。標高モードの BEV クエリでは、3D 直方体の中間層で 32×32 ポイントが均一にサンプリングされます。一方、3D 直方体クエリモードでは、3D 直方体空間全体で 16×16×4 の点が均一にサンプリングされます。これらのポイントは 3D 参照ポイントと呼ばれ、2D 画像に投影されると 2D 参照ポイントと呼ばれます。これらの 3D 参照ポイントの位置埋め込みとコンテキストが組み合わされて、3D クエリとして使用されます。

3D 占有デコーダーには、N 個の空間デコーダーレイヤーが含まれます。各空間デコーダー層は、3D 変形可能自己注意とマルチスケール変形可能クロス注意で構成されています。3D 変形可能自己注意のプロセスは、次のように定式化できます。

最後に、線形レイヤーを使用して、標高を含む BEV クエリを 3D 占有グリッドに直接持ち上げます。あるいは、アップサンプリングと 3D 畳み込みを組み合わせて、3D ボックスクエリを同じサイズの 3D 占有グリッドに拡張することもできます。

3) トレーニング戦略

トレーニングプロセス全体は 4 つのステップに分かれています。複数の段階があるにもかかわらず、注釈データは常に同じであるため、プロセスが過度に複雑になることはありません。最初のステップでは、2 段階の変形可能な DETR の収束を加速するために、早期マッチングによる事前トレーニングを行います。 2 番目のステップでは、2 段階の変形可能な detr を定期的にトレーニングし、十分にトレーニングされたオブジェクト検出モデルを作成します。 3 番目のステップでは、オブジェクト検出モデルの重みが固定され、その結果を使用して 3D 占有デコーダーをトレーニングします。 4 番目で最後のステップでは、オブジェクト検出モデルの重みが固定されなくなり、より小さな学習率を使用してモデル全体が微調整されます。

損失関数は次のとおりです。

実験比較

1) 実験データセットと設定

SemanticKITTI データセットは、KITTI Odometry データセットに基づいて構築されており、LIDAR ポイントと前方カメラを使用したシーンの意味理解を重視しています。 OccupancyDETR は、左前方ビューカメラのみを入力として使用する単眼 3D セマンティック占有認識です。このデータセットでは、注釈付きセマンティック占有率は、256×256×32 の形状のボクセルグリッドとして表されます。各ボクセルのサイズは 0.2m×0.2m×0.2m で、21 個の意味カテゴリ (意味カテゴリ 19 個、自由カテゴリ 1 個、不明カテゴリ 1 個) がラベル付けされています。このデータセットのセマンティックボクセルグリッドは、LIDAR ポイントクラウドと画像のマルチフレームステッチから生成されるため、遠方または遮蔽された領域にギャップがあり、オブジェクトのクラスタリングと抽出が妨げられます。したがって、この問題は、セマンティックボクセルグリッド内の欠落したセルを補間して埋めることで修正されます。オブジェクト抽出後に取得されたデータセットの 2D ラベルと 3D ラベルを図 6 に示します。

モデルのトレーニングは Nvidia RTX 3090 GPU (24G) で実行され、評価は Nvidia RTX3080 GPU (16G) で実行されました。トレーニングプロセスは、50 エポック、10 エポック、50 エポック、10 エポックの 4 つの段階に分かれています。各ステージの初期学習率はそれぞれ 1e-4、2e-5、1e-4、2e-5 に設定され、その後 0 まで線形に減少します。重み減衰が 0.01 の AdamW がオプティマイザーとして使用されます。 ResNet50 バックボーンは、timm が提供する事前トレーニング済みモデルを使用して初期化されます。私たちの実験目標は、この新しいフレームワークの実現可能性と特性を検証することです。そのため、ここではデータ拡張は使用されません。

2) 実験結果

表Iに示すように、意味的シーン補完（SSC）タスクのmIoU比較は次のとおりです。

ここでは、私たちの方法を他の単眼 3D 意味占有知覚方法と比較し、結果を分析します。私たちの方法は、小さな物体に対しては他の方法よりも大幅に優れていることがわかります。これは物体検出タスクによるものです。しかし、道路や歩道などのカテゴリでは、私たちの方法は他の方法よりも遅れており、これをさらに分析します。分析された代表的なケースを図 5 に示します。

①は、小さな物体のカテゴリーにおける当社の手法のパフォーマンスを示しており、遠くにいる自転車を検出できます。 ②と③は、「道路」と「歩道」のカテゴリーで私たちのアプローチのパフォーマンスが低かった理由を明らかにしています。これは、私たちの方法が最初にオブジェクトを検出し、次に各オブジェクトの 3D 占有グリッドを予測するという事実によるものだと考えています。しかし、3D 空間内の異なるオブジェクト間の関係に関する特徴を抽出する能力は比較的弱いため、モデルは画像に基づいて近くの交差点を直接検出できるものの、他の 3D オブジェクトに基づいて遠くの交差点を間接的に完了することができないという現象が発生します。

それでも、速度とリソース要件の点で私たちのアプローチの利点は大きく、推論時間とパラメータ数は表 II に示されています。私たちの方法の平均推論時間は 174 ミリ秒 (Nvidia RTX 3080 の場合) であり、すでにリアルタイムのパフォーマンスを実現しています。次に、BEV クエリの 2 つのモード (標高クエリと 3D ボックスクエリ) を比較します。ほとんどのカテゴリでは、標高モードを使用した BEV クエリのパフォーマンスが優れていることがわかりました。特に、4 つのカテゴリ間に大きな違いがある道路、歩道、地形、植生の 4 つのカテゴリではその傾向が顕著です。このデータセットではこれら 4 つのカテゴリは概ね平坦であることを考慮すると、標高パターンを含む BEV クエリに適しています。これは、異なる形状のオブジェクトに対する 2 つのモダリティ間のパフォーマンスの大きな違いを示しています。

早期マッチング事前トレーニングが DETR のような物体検出モデルに与えるプラスの影響を検証するために、同じ実験条件下で DINO と 2 段階変形可能 DETR の比較研究を実施します。私たちの実験では、初期学習率は 1e-4 に設定され、100 エポック以内にゼロまで直線的に減少します。図 7 は、トレーニング中の検証セットにおける 3 つの方法の mAP 曲線を示しており、早期マッチングの事前トレーニングの方が収束が速いことを示しています。さらに、2 段階の変形可能な DETR ベースのアプローチである DINO のパフォーマンスを分析します。 DINO は収束を高速化するためのいくつかの改善を提案しましたが、その 1 つがハイブリッドクエリ選択です。このプロセスでは、学習可能な埋め込みを静的コンテンツクエリとして使用し、クエリ選択を通じてアンカーを動的アンカーとして選択します。ただし、静的コンテンツクエリと動的アンカーの順序に不整合の問題があり、この違いが DINO のパフォーマンスが期待どおりに向上しない理由であると考えられます。

オリジナルリンク: https://mp.weixin.qq.com/s/b6Y_5d5t7jqkJQL22_hYBA

<<:

>>: Microsoft と Meta が提携し、Bing 検索を Meta AI チャットボットに統合