カメラか LiDAR か?堅牢な 3D オブジェクト検出を実現するにはどうすればよいでしょうか?最新レビュー！

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

0. 序文 && 個人的な理解

自動運転システムは、さまざまなセンサー (カメラ、LIDAR、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用してリアルタイムの分析と意思決定を行う、高度な認識、意思決定、制御技術に依存しています。これにより、道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などにより、車両は安全に運行し、複雑な交通環境に適応できるようになります。この技術は現在広く注目を集めており、交通の将来における重要な開発分野の一つと考えられています。しかし、自動運転を難しくしているのは、車に周囲で何が起こっているかを理解させる方法を見つけることです。これには、自動運転システムの 3D オブジェクト検出アルゴリズムが、周囲の環境内のオブジェクトの位置、形状、サイズ、カテゴリなどを正確に認識して説明できることが必要です。この包括的な環境認識により、自動運転システムは運転環境をよりよく理解し、より正確な判断を下すことができます。

自動運転のための 3D 物体検出アルゴリズムの堅牢性を総合的に評価します。検出の堅牢性を評価するための 3 つの重要な要素として、環境変動、センサーノイズ、および位置ずれが特定されています。これらの要素は、現実世界の変化する状況下での検出アルゴリズムのパフォーマンスに影響を与えるため、非常に重要です。

環境の変動:この記事では、検出アルゴリズムは照明、天候、季節の変化など、さまざまな環境条件に適応する必要があることを強調しています。
センサーノイズ:アルゴリズムは、カメラのモーションブラーなどの問題を含む可能性のあるセンサーノイズを効果的に処理する必要があります。
ミスアライメント:キャリブレーションエラーやその他の要因によって発生するミスアライメントについては、アルゴリズムでは、外部要因 (路面の凹凸など) か内部要因 (システムクロックのミスアライメントなど) かに関係なく、これらの要因を考慮する必要があります。

また、パフォーマンス評価の 3 つの主要領域である精度、レイテンシ、堅牢性についても詳しく説明します。

精度:研究では精度が主要なパフォーマンス指標としてよく使用されますが、複雑で極端な条件下でのパフォーマンスには、現実世界の信頼性を確保するためのより深い理解が必要です。
レイテンシ:自動運転ではリアルタイム機能が重要です。検出方法の遅延は、特に緊急事態において、システムがタイムリーな意思決定を行う能力に影響を与えます。
堅牢性:現在の評価の多くは現実世界のシナリオの多様性を十分に考慮していない可能性があるため、さまざまな条件下でのシステムの安定性のより包括的な評価が必要です。

この論文の分析では、セキュリティ認識におけるマルチモーダル 3D 検出方法の大きな利点を指摘しています。これらの方法は、さまざまなセンサーからのデータを組み合わせて、より豊かで多様な認識機能を自動運転システムに提供します。

1. データセット

この記事では、自動運転システムにおける 3D オブジェクト検出に使用されるデータセットの概要を示し、さまざまなセンサーモードの長所と限界、および公開データセットの特性を評価することに重点を置いています。

まず、表には、カメラ、ポイントクラウド、マルチモーダル (カメラと LiDAR) の 3 種類のセンサーが示されています。各タイプについて、ハードウェアのコスト、利点、制限事項がリストされています。たとえば、カメラデータには豊富な色とテクスチャ情報を提供できるという利点がありますが、深度情報が不足しているため制限があり、照明や天候の影響を受けやすくなります。 LiDAR は正確な深度情報を提供しますが、高価であり、色情報がありません。

次に、別の表に、KITTI、nuScenes、Waymo など、自動運転における 3D オブジェクト検出用の複数の公開データセットの詳細を示します。これらのデータセットには、さまざまな年にリリースされたデータ、使用されたセンサーの種類、データの規模 (フレーム数や注釈の数を含む)、シーンの多様性 (シーン数やカテゴリの数を含む)、シーンの種類 (昼間、晴れ、夜間、雨など) が含まれます。

さらに、「クリーンな」自動運転データセットに関する研究についても言及され、ノイズの多いシナリオにおけるモデルの堅牢性を評価することの重要性が強調されました。いくつかの研究は、厳しい条件下でのカメラのユニモーダルアプローチに焦点を当てていますが、他のマルチモーダルデータセットはノイズの問題に焦点を当てています。たとえば、GROUNDED データセットは、さまざまな気象条件での地中探査レーダーの位置特定に重点を置いていますが、ApolloScape オープンデータセットには、さまざまな気象条件や照明条件をカバーする LIDAR、カメラ、GPS データが含まれています。

現実世界で大規模なノイズの多いデータを収集するのはコストがかかりすぎるため、多くの研究では合成データセットの使用に切り替えています。たとえば、ImageNet-C は、画像分類モデルにおける敵対的共通摂動に関するベンチマーク研究です。この研究の方向性はその後、自動運転における 3D オブジェクト検出向けにカスタマイズされた堅牢なデータセットにまで拡張されました。

2. 視覚ベースの3D物体検出

2.1 単眼3D物体検出

この部分では、単眼 3D オブジェクト検出の概念と、事前ベースの単眼 3D オブジェクト検出、カメラのみの単眼 3D オブジェクト検出、深度支援単眼 3D オブジェクト検出という 3 つの主なアプローチについて説明します。

事前ガイド付き単眼3D物体検出

このアプローチは、画像内に隠されたオブジェクトの形状とシーンのジオメトリに関する事前の知識を活用して、単眼 3D オブジェクト検出の課題に対処します。事前にトレーニングされたサブネットワークまたは補助タスクを導入することで、事前の知識によって追加の情報や制約が提供され、3D オブジェクトを正確に特定し、検出の精度と堅牢性を高めることができます。共通の事前知識には、オブジェクトの形状、幾何学的一貫性、時間的制約、セグメンテーション情報が含まれます。たとえば、Mono3D アルゴリズムは、まず 3D オブジェクトが固定された地面の上にあると想定し、次にオブジェクトの以前の 3D 形状を使用して 3D 空間に境界ボックスを再構築します。

カメラのみによる単眼3D物体検出

このアプローチでは、単一のカメラで撮影した画像のみを使用して 3D オブジェクトを検出し、位置を特定します。畳み込みニューラルネットワーク (CNN) を使用して、3D 境界ボックスパラメータを画像から直接回帰し、3D 空間内のオブジェクトのサイズとポーズを推定します。この直接回帰アプローチはエンドツーエンドでトレーニングできるため、3D オブジェクトの全体的な学習と推論が容易になります。たとえば、Smoke アルゴリズムは 2D 境界ボックスの回帰を放棄し、単一のキーポイントの推定と 3D 変数の回帰を組み合わせて、検出された各オブジェクトの 3D ボックスを予測します。

深度支援単眼3Dオブジェクト検出

深度推定は、深度支援単眼 3D オブジェクト検出において重要な役割を果たします。より正確な単眼検出結果を得るために、多くの研究では事前にトレーニングされた補助的な深度推定ネットワークが利用されてきました。このプロセスでは、まず、MonoDepth などの事前トレーニング済みの深度推定器を使用して、単眼画像を深度画像に変換します。次に、深度画像と単眼画像を処理するために 2 つの主なアプローチが採用されます。たとえば、疑似 LiDAR 検出器は、事前トレーニング済みの深度推定ネットワークを使用して疑似 LiDAR 表現を生成しますが、画像から LiDAR への生成におけるエラーにより、疑似 LiDAR ベースの検出器と LiDAR ベースの検出器の間には大きなパフォーマンスのギャップがあります。

これらの方法の探求と応用を通じて、単眼 3D オブジェクト検出はコンピュータービジョンとインテリジェントシステムの分野で大きな進歩を遂げ、これらの分野にブレークスルーと機会をもたらしました。

2.2 ステレオベースの3D物体検出

この部分では、ステレオビジョンに基づく 3D オブジェクト検出技術について説明します。立体 3D オブジェクト検出では、一対のステレオ画像を使用して 3D オブジェクトを識別し、位置を特定します。これらの方法は、ステレオカメラで撮影した二重のビューを活用することで、ステレオマッチングとキャリブレーションを通じて高精度の奥行き情報を取得することに優れており、これが単眼カメラのセットアップと比較した際立った特徴です。これらの利点にもかかわらず、ステレオビジョン方式は、LiDAR ベースの方法と比較して、依然としてかなりのパフォーマンスのギャップを抱えています。さらに、ステレオ画像からの 3D オブジェクト検出の領域は比較的研究が進んでおらず、この領域に特化した研究作業は限られています。

2D 検出ベースの方法: 従来の 2D オブジェクト検出フレームワークを変更して、ステレオ検出の問題を解決できます。例えば、ステレオR-CNN[13]は画像ベースの2D検出器を使用して2D提案を予測し、対応する左画像と右画像の左と右の関心領域（RoI）を生成します。次に、第 2 段階では、以前に生成された RoI に基づいて 3D オブジェクトパラメータを直接推定します。このパラダイムはその後の研究で広く採用されました。
疑似 LiDAR ベースの方法: ステレオ画像から予測された視差マップを深度マップに変換し、さらに疑似 LiDAR ポイントに変換できます。したがって、単眼検出方法と同様に、疑似 LiDAR 表現は、ステレオビジョンベースの 3D オブジェクト検出方法でも使用できます。これらの方法は、ステレオマッチングにおける視差推定を強化して、より正確な深度予測を実現することを目的としています。たとえば、Wang らは疑似 LiDAR 表現を導入した先駆者でした。この表現は深度マップを含む画像から生成され、検出を支援するためにモデルが深度推定タスクを実行する必要があります。その後の研究はこのパラダイムを踏襲し、疑似ポイントクラウド、補助タスク（インスタンスセグメンテーション、前景と背景のセグメンテーション、ドメイン適応など）、座標変換スキームを強化するための追加の色情報を導入することで改善されました。 Ma らが提案した PatchNet は、単眼 3D オブジェクト検出に疑似 LiDAR 表現を使用するという従来の概念に挑戦していることは注目に値します。各ピクセルの 3D 座標をエンコードすることにより、PatchNet は疑似 LiDAR 表現なしで同等の単眼検出結果を実現できます。この観察は、疑似 LiDAR 表現の威力が、ポイントクラウド表現自体ではなく、座標変換から得られることを示唆しています。

2.3 マルチビュー3Dオブジェクト検出

最近、マルチビュー 3D オブジェクト検出は、前述の単眼およびステレオ 3D オブジェクト検出方法よりも精度と堅牢性の点で優れていることが示されています。 LiDAR ベースの 3D オブジェクト検出とは異なり、最新の鳥瞰図 (BEV) 方式では高精度のマップが不要になり、2D から 3D への検出が向上します。この進歩により、マルチビュー 3D オブジェクト検出が大きく進歩しました。マルチカメラ 3D オブジェクト検出における主な課題は、異なる画像内の同じオブジェクトを識別し、マルチビュー入力からオブジェクトの特徴を集約することです。現在のアプローチでは、複数のビューを鳥瞰図 (BEV) 空間に均一にマッピングすることが一般的です。

深度ベースのマルチビュー方式:

2D から BEV 空間への直接変換は大きな課題となります。 LSS は、3D 空間を仲介として使用する最初の深度ベースの方法です。このアプローチでは、まず 2D 特徴のグリッド深度分布を予測し、次にこれらの特徴をボクセル空間に持ち上げます。このアプローチは、2D から BEV 空間へのより効率的な変換への期待をもたらします。 LSS に続いて、CaDDN も同様の深層表現方式を採用しています。ボクセル空間の特徴を BEV 空間に圧縮することで、最終的な 3D 検出を実行します。 CaDDN はマルチビュー 3D オブジェクト検出の一部ではなく、シングルビュー 3D オブジェクト検出の一部であり、その後の詳細な研究に影響を与えたことは注目に値します。 LSS と CaDDN の主な違いは、CaDDN が実際のグラウンドトゥルース深度値を使用して分類された深度分布の予測を監視し、2D 空間から 3D 情報をより正確に抽出できる優れたディープネットワークを作成することです。

クエリベースのマルチビュー方式

Transformer テクノロジーの影響を受けたクエリベースのマルチビューアプローチは、3D 空間から 2D 空間機能を取得します。 DETR3D は、マルチビューフィーチャの集約の問題を解決するために 3D オブジェクトクエリを導入します。さまざまな視点から画像の特徴を切り取り、学習した 3D 参照ポイントを使用して 2D 空間に投影することで、鳥瞰図 (BEV) 空間で画像の特徴を取得します。深度ベースのマルチビュー方式とは異なり、クエリベースのマルチビュー方式では、逆クエリ技術を使用してスパース BEV 機能を取得し、その後のクエリベースの開発に根本的な影響を与えます。しかし、明示的な 3D 参照ポイントに関連する潜在的な不正確さのため、PETR は BEV 空間を構築するために暗黙的な位置エンコード方式を採用し、その後の作業に影響を与えました。

2.4 分析: 精度、レイテンシ、堅牢性

現在、鳥瞰図（BEV）認識に基づく 3D オブジェクト検出ソリューションが急速に発展しています。多くのレビュー記事が存在するにもかかわらず、この分野の包括的なレビューはまだ不足しています。上海AIラボとセンスタイム研究所は、BEVソリューションの技術ロードマップの詳細なレビューを提供しました。ただし、既存のレビューとは異なり、自動運転の安全性認識などの重要な側面を考慮します。カメラベースのソリューションの技術ロードマップと現在の開発状況を分析した後、「精度、遅延、堅牢性」という基本原則に基づいて議論するつもりです。安全認識の観点を統合し、自動運転における安全認識の実用化を導きます。

正確性: ほとんどの研究記事やレビューでは正確性に重点が置かれており、それは確かに非常に重要です。精度は AP (平均精度) によって反映されますが、異なるパラダイムにより異なる方法に大きな違いが現れる可能性があるため、AP のみを考慮すると包括的な視点が得られない可能性があります。図に示すように、比較のために代表的な 10 の方法を選択しましたが、その結果、単眼 3D オブジェクト検出とステレオビジョン 3D オブジェクト検出の間には大きな測定基準の違いがあることがわかりました。現状では、単眼 3D オブジェクト検出の精度は、立体 3D オブジェクト検出の精度よりもはるかに低いことが示されています。立体 3D オブジェクト検出では、同じシーンの 2 つの異なる視点からキャプチャされた画像を利用して深度情報を取得します。カメラ間のベースラインが大きいほど、キャプチャされる深度情報の範囲が広くなります。時間の経過とともに、マルチビュー（鳥瞰図対応）3D オブジェクト検出が徐々に単眼方式に取って代わり、mAP が大幅に改善されました。センサー数の増加は mAP に大きな影響を与えます。
レイテンシ: 自動運転の世界では、レイテンシは非常に重要です。これは、センサーデータの取得からシステムの意思決定およびアクションの実行まで、システムが入力信号に反応するまでにかかる時間を指します。自動運転では、いかなる形の遅延も深刻な結果につながる可能性があるため、遅延に対する要件は非常に厳格です。自動運転におけるレイテンシの重要性は、リアルタイムの応答性、安全性、ユーザーエクスペリエンス、インタラクティブ性、緊急対応などの側面にあります。 3D オブジェクト検出の分野では、レイテンシ (フレーム/秒、FPS) と精度がアルゴリズムのパフォーマンスを評価するための重要な指標となります。図に示すように、単眼およびステレオ 3D オブジェクト検出のグラフは、KITTI データセットの中程度の難易度における平均精度 (AP) と FPS の関係を示しています。自動運転を実現するには、3D オブジェクト検出アルゴリズムで遅延と精度のバランスをとる必要があります。単眼検出は高速ですが、精度に欠けます。逆に、ステレオおよびマルチビュー方式は正確ですが、速度が遅くなります。今後の研究では、高精度を維持するだけでなく、自動運転におけるリアルタイム応答性と安全性という2つの要件を満たすために、FPSの向上と遅延の削減にさらに注意を払う必要があります。
堅牢性: 堅牢性は、自動運転の安全性認識における重要な要素であり、これまで包括的なレビューでは無視されてきた重要なトピックです。この側面は、KITTI、nuScenes、Waymo などの現在の適切に設計されたクリーンなデータセットやベンチマークでは通常対処されていません。現在、RoboBEV や Robo3D などの研究では、センサーの欠損要因などの堅牢性の考慮事項が 3D オブジェクトの検出に組み込まれています。彼らは、堅牢性を評価するために、3D オブジェクト検出に関連するデータセットに摂動を導入する方法を採用しました。これには、気象条件の変化、センサーの故障、動作の乱れ、物体関連の摂動など、さまざまな種類のノイズを導入することが含まれ、さまざまなノイズ源がモデルに及ぼすさまざまな影響を明らかにすることを目的としています。通常、堅牢性を研究するほとんどの論文では、KITTI、nuScenes、Waymo などのクリーンなデータセットの検証セットにノイズを導入して評価します。さらに、文献[5]の調査結果を強調します。そこでは、KITTI-CとnuScenes-Cがカメラのみの3Dオブジェクト検出方法の例として強調されています。表は全体的な比較を示しており、全体的に、カメラのみの方法は、LIDAR のみの方法やマルチモデル融合の方法よりも堅牢性が低いことを示しています。さまざまな種類のノイズに非常に敏感です。 KITTI-C では、SMOKE、PGD、ImVoxelNet という 3 つの代表的な研究で、全体的なパフォーマンスとノイズ低減に対する堅牢性が一貫して低いことが示されています。 nuScenes-C では、DETR3D や BEVFormer などの注目すべき手法が FCOS3D や PGD に比べて堅牢性が高く、センサーの数が増えるにつれて全体的な堅牢性が向上することがわかります。要約すると、将来のカメラのみのアプローチでは、コスト要因と精度指標 (mAP、NDS など) だけでなく、安全性の認識と堅牢性に関連する要因も考慮する必要があります。私たちの分析は、将来の自動運転システムの安全性に関する貴重な洞察を提供することを目的としています。

3. LiDARに基づく3D物体検出

ボクセルベースの 3D オブジェクト検出方法では、スパースポイントクラウドをセグメント化して通常のボクセルに割り当て、高密度のデータ表現を形成することを提案します。このプロセスはボクセル化と呼ばれます。ビューベースの方法と比較して、ボクセルベースの方法は空間畳み込みを利用して 3D 空間情報を効果的に認識し、自動運転における安全な認識に不可欠な高い検出精度を実現します。ただし、これらの方法には依然として次のような課題があります。

計算の複雑性が高い: ボクセルベースの方法では、3D 空間を表すために膨大な数のボクセルが使用されるため、カメラベースの方法に比べて大量のメモリと計算リソースが必要になります。
空間情報の損失: ボクセルの離散的な性質により、ボクセル化プロセス中に詳細と形状情報が失われたりぼやけたりする可能性があり、ボクセルの解像度が限られているため、小さなオブジェクトを正確に検出することが困難になります。
スケールと密度の不一致: ボクセルベースの方法では通常、異なるスケールと密度のボクセルグリッドで検出を実行する必要がありますが、異なるシーンのオブジェクトのスケールと密度は大きく異なるため、さまざまなオブジェクトに対応するために適切なスケールと密度を選択することが課題になります。

これらの課題を克服するには、データ表現の制限に対処し、ネットワーク機能とターゲットの位置特定精度を向上させ、複雑なシナリオに対するアルゴリズムの理解を強化する必要があります。最適化戦略はさまざまですが、一般的にはデータ表現とモデル構造を最適化することを目的としています。

3.1 ボクセルベースの3D物体検出

ディープラーニングにおける PC の繁栄の恩恵を受けて、ポイントベースの 3D オブジェクト検出は多くのフレームワークを継承し、前処理なしで生のポイントから直接 3D オブジェクトを検出することを提案しています。ボクセルベースの方法と比較して、元のポイントクラウドは最大量の元の情報を保持するため、きめ細かい特徴の取得に役立ち、高い精度が得られます。同時に、PointNet に関する一連の研究は、当然のことながら、ポイントベースの方法論に強力な基盤を提供します。ポイントベースの 3D オブジェクト検出器には、ポイントクラウドサンプリングと特徴学習という 2 つの基本コンポーネントがあります。現在まで、ポイントベースの方法のパフォーマンスは、コンテキストポイントの数と特徴学習で採用されたコンテキスト半径という 2 つの要因によって影響を受けています。たとえば、コンテキストポイントの数を増やすと、より詳細な 3D 情報を取得できますが、モデルの推論時間が大幅に長くなります。同様に、コンテキスト半径を小さくすることでも同じ効果が得られます。したがって、これら 2 つの要素に適切な値を選択すると、モデルの精度と速度のバランスが取れます。さらに、ポイントクラウド内のすべてのポイントに対して計算を実行する必要があるため、ポイントクラウドサンプリングプロセスがポイントベースメソッドのリアルタイム操作を制限する主な要因となります。具体的には、上記の問題を解決するために、既存の方法のほとんどは、ポイントベースの3Dオブジェクト検出器の2つの基本コンポーネントを最適化することに重点を置いています。1)ポイントサンプリング2)特徴学習

3.2 ポイントベースの3Dオブジェクト検出

ポイントベースの 3D オブジェクト検出方法は、多くのディープラーニングフレームワークを継承し、前処理なしで生のポイントクラウドから直接 3D オブジェクトを検出することを提案します。ボクセルベースの方法と比較して、元のポイントクラウドは元の情報を最大限に保持するため、きめ細かい特徴の取得に役立ち、高い精度を実現します。同時に、PointNet シリーズの作業は、ポイントベースの方法の強力な基盤を提供します。ただし、現在のところ、ポイントベースの方法のパフォーマンスは、コンテキストポイントの数と特徴学習で使用されるコンテキスト半径という 2 つの要因によって影響を受けています。たとえば、コンテキストポイントの数を増やすと、より詳細な 3D 情報を取得できますが、モデルの推論時間が大幅に長くなります。同様に、コンテキスト半径を小さくすることでも同じ効果が得られます。したがって、これら 2 つの要素に適切な値を選択すると、モデルは精度と速度のバランスを実現できるようになります。さらに、ポイントクラウドのサンプリングプロセスは、ポイントクラウド内の各ポイントに対して計算を実行する必要があるため、ポイントベースメソッドのリアルタイム操作を制限する主な要因となります。これらの問題に対処するために、既存の方法では主に、ポイントベースの 3D オブジェクト検出器の 2 つの基本コンポーネント (1) ポイントクラウドサンプリング、2) 特徴学習を最適化します。

最遠点サンプリング (FPS) は PointNet++ に由来し、ポイントベースの方法で広く使用されているポイントクラウドサンプリング方法です。その目的は、元のポイントクラウドから代表的なポイントのセットを選択し、それらの間の距離が最大化されるようにして、ポイントクラウド全体の空間分布を最適にカバーすることです。 PointRCNN は、PointNet++ をバックボーンネットワークとして使用する、ポイントベースメソッドにおける画期的な 2 段階検出器です。最初の段階では、ポイントクラウドからボトムアップ方式で 3D 提案を生成します。第 2 段階では、意味的特徴とローカル空間的特徴を組み合わせて提案を洗練させます。しかし、既存の FPS ベースの方法には、まだいくつかの問題があります。1) 検出に関係のないポイントもサンプリングプロセスに含まれるため、追加の計算負荷が発生します。2) ポイントがオブジェクトのさまざまな部分に不均一に分散されているため、サンプリング戦略が最適ではありません。これらの問題に対処するために、その後の研究では FPS に似た設計パラダイムを採用し、セグメンテーションガイド付き背景ポイントフィルタリング、ランダムサンプリング、特徴空間サンプリング、ボクセルベースのサンプリング、レイグループ化ベースのサンプリングなどの改善を加えました。

ポイントベースの 3D オブジェクト検出方法の特徴学習段階では、スパースポイントクラウドデータから識別的な特徴表現を抽出することを目的としています。特徴学習段階で使用されるニューラルネットワークには、次の特性が必要です。1) 不変性。ポイントクラウドバックボーンネットワークは、入力ポイントクラウドの順序に影響されない必要があります。2) ローカル認識能力。ローカル領域を認識してモデル化し、ローカルの特徴を抽出できます。3) コンテキスト情報を統合する機能。グローバルおよびローカルのコンテキスト情報から特徴を抽出できます。上記の特性に基づいて、生のポイントクラウドを処理するための検出器が多数設計されています。ほとんどの方法は、使用されるコア演算子に応じて、次のカテゴリに分類できます。1) PointNet ベースの方法、2) グラフニューラルネットワークベースの方法、3) トランスフォーマーベースの方法。

PointNetベースの方法

PointNet ベースの方法は、主にセット抽象化を利用して、元のポイントをダウンサンプリングし、ローカル情報を集約し、元のポイントの対称不変性を維持しながらコンテキスト情報を統合します。 Point-RCNN はポイントベースの手法の中では初めての 2 段階の作業であり、優れたパフォーマンスを実現していますが、依然として計算コストが高いという問題に直面しています。その後の研究では、検出プロセスに追加のセマンティックセグメンテーションタスクを導入し、検出に最も寄与しない背景ポイントを除外することでこの問題を解決しました。

グラフニューラルネットワークに基づく手法

グラフニューラルネットワーク (GNN) には、適応構造、動的な近傍、ローカルおよびグローバルなコンテキスト関係を構築する機能、不規則なサンプリングに対する堅牢性が備わっています。 Point-GNN は、自動登録メカニズム、マージ、スコアリング操作を通じてオブジェクトのカテゴリと形状を予測する単一ステージのグラフニューラルネットワークを設計する先駆的な研究であり、3D オブジェクト検出の新しい方法としてグラフニューラルネットワークを使用する可能性を示しています。

トランスフォーマーベースの方法

近年、Transformer はポイントクラウド分析で研究され、多くのタスクで優れたパフォーマンスを発揮しています。例えば、Pointformer[21]は3Dポイントクラウドを処理するためにローカルおよびグローバルアテンションモジュールを導入し、ローカルTransformerモジュールはローカルエリア内のポイント間の相互作用をモデル化するために使用され、グローバルTransformerはシーンレベルのコンテキスト認識表現を学習するように設計されました。グループフリーは、ポイントクラウド内のすべてのポイントを直接利用して各オブジェクト候補の特徴を計算します。各ポイントの寄与は、自動的に学習されたアテンションモジュールによって決定されます。これらの方法は、構造化されていない、順序付けられていない生のポイントクラウドを処理する際の Transformer ベースの方法の可能性を示しています。

3.3 ポイントボクセルベースの3Dオブジェクト検出

ポイントクラウドベースの 3D オブジェクト検出方法は、高解像度を提供し、元のデータの空間構造を保持しますが、スパースデータを処理する場合、計算の複雑さが高く、効率が低いという問題があります。対照的に、ボクセルベースの方法は構造化されたデータ表現を提供し、計算効率を向上させ、従来の畳み込みニューラルネットワーク技術の適用を容易にします。ただし、通常は離散化プロセスにより微妙な空間詳細が失われます。これらの問題に対処するために、ポイントボクセル (PV) ベースの方法が開発されました。ポイントボクセル法は、ポイントベース法のきめ細かい情報取得機能とボクセルベース法の計算効率を活用することを目的としています。これらの方法を統合することで、ポイントボクセルベースのアプローチは、グローバル構造と微細幾何学的詳細の両方をキャプチャしながら、ポイントクラウドデータをより詳細に処理できるようになります。自動運転システムの意思決定精度は高精度の検出結果に依存するため、これは自動運転における安全な認識にとって非常に重要です。

ポイントからボクセルへの変換法の主な目的は、ポイントからボクセルまたはボクセルからポイントへの変換を通じて、ボクセルとポイント間の特徴の相互作用を実現することです。多くの研究で、バックボーンネットワークでポイントとボクセルの特徴の融合を活用するというアイデアが検討されてきました。これらの方法は、1) 早期融合、2) 後期融合の 2 つのカテゴリに分けられます。

a)初期の融合: いくつかの方法では、新しい畳み込み演算子を使用してボクセルとポイントの特徴を融合することが検討されており、PVCNN はこの方向での最初の研究である可能性があります。この方法では、ボクセルベースのブランチは最初にポイントを低解像度のボクセルグリッドに変換し、畳み込みによって隣接するボクセルの特徴を集約します。次に、ボクセルレベルの特徴は、デボクセル化と呼ばれるプロセスを通じてポイントレベルの特徴に戻され、ポイントベースのブランチによって取得された特徴と融合されます。ポイントベースのブランチは、個々のポイントごとに特徴を抽出します。この方法は、隣接する情報を集約しないため、より高速に実行できます。その後、SPVCNN は PVCNN に基づく物体検出の分野に拡張されました。他の方法では、補助タスクやマルチスケール機能の融合など、さまざまな観点から改善を試みます。

b)後期融合: この一連の方法は、主に 2 段階の検出フレームワークを採用しています。まず、ボクセルベースのアプローチを使用して予備的なオブジェクト提案が生成されます。次に、ポイントレベルの特徴を使用して検出ボックスを正確に分割します。 Shi らによって提案された PV-RCNN は、ポイントボクセルベースの方法におけるマイルストーンです。これは、第 1 段階の検出器として SECOND を使用し、キーポイント機能の融合のために RoI グリッドプーリングを使用した第 2 段階の改良段階を提案します。その後の作業は主に上記のパラダイムに従い、検出の第 2 フェーズの進行に焦点を当てています。注目すべき開発には、アテンションメカニズム、スケールを考慮したプーリング、ポイント密度を考慮した改良モジュールなどがあります。

ポイントボクセルベースの方法は、ボクセルベースの方法の計算効率と、ポイントベースの方法のきめ細かい情報を取得する能力の両方を備えています。ただし、ポイント対ボクセルまたはボクセル対ポイントの関係を構築したり、ボクセルとポイントの特徴を融合したりすると、追加の計算オーバーヘッドが発生します。したがって、ボクセルベースの方法と比較して、ポイントボクセルベースの

提案された方法は、より高い検出精度を達成できますが、推論時間が長くなるという欠点があります。

4. マルチモーダル3Dオブジェクト検出

4.1 投影ベースの3D物体検出

投影ベースの 3D オブジェクト検出方法では、特徴融合段階で投影マトリックスを使用して、ポイントクラウドと画像の特徴を統合します。ここで重要なのは、データ拡張などの融合段階における他の投影プロセスではなく、特徴融合中の投影に焦点を当てることです。融合段階で使用されるさまざまなタイプの投影に応じて、投影ベースの 3D オブジェクト検出方法はさらに次のカテゴリに分類できます。

ポイント投影に基づく 3D オブジェクト検出: このタイプの方法は、画像の特徴を元のポイントクラウドに投影することにより、元のポイントクラウドデータの表現能力を強化します。これらの方法の最初のステップは、キャリブレーションマトリックスを使用して、LIDAR ポイントと画像ピクセル間の強い相関関係を確立することです。次に、追加データを追加することにより、ポイントクラウド機能が強化されます。この拡張には2つの形式があります。1つはセグメンテーションスコア（ポイントペインティングなど）を組み込むことで、もう1つは相関ピクセル（MVPなど）のCNN機能を使用することです。ポイントパインティングは、セグメンテーションスコアを追加することによりLIDARポイントを強化しますが、画像の色とテクスチャの詳細を効果的にキャプチャするには制限があります。これらの問題に対処するために、FusionPaintingなどのより洗練された方法が開発されています。
特徴に基づく3Dオブジェクト検出：ポイント投影ベースの方法とは異なり、このタイプの方法は、主にポイントクラウド機能とポイントクラウド機能抽出段階の画像機能を融合することに焦点を当てています。このプロセスでは、ボクセルの3D座標系は、キャリブレーションマトリックスを適用することにより、画像のピクセル座標系に変換され、点クラウドと画像のモダリティを効果的にマージします。たとえば、contfuse [23]は、連続畳み込みを通じてマルチスケールの畳み込み機能マップを融合します。
自動投影ベースの3Dオブジェクト検出：多くの研究は、直接投影を介して融合を行いますが、投影エラーの問題に対処しません。一部の作品（AutoAlignv2など）は、オフセットや近隣の予測を学習することにより、これらのエラーを軽減します。たとえば、HMFI、GraphAlign、およびGraphAlign ++は、画像投影とローカルグラフモデリングのための予測キャリブレーションマトリックスの事前知識を活用します。
決定プロジェクションベースの3Dオブジェクト検出：このタイプのメソッドは、プロジェクションマトリックスを使用して、関心のある領域（ROI）または特定の結果に特徴を整列させます。たとえば、Graph-RCNNはカメラ画像の位置にグラフノードをプロジェクトし、双線形補間を介してカメラ画像のそのピクセルの特徴ベクトルを収集します。 F-PointNetは、2D画像検出を介してオブジェクトのカテゴリと位置を決定し、校正されたセンサーパラメーターと3D空間の変換マトリックスを介して、対応する3D空間のポイントクラウドを取得します。

これらの方法は、投影技術を使用してマルチモーダル3Dオブジェクト検出の特徴融合を実現する方法を示していますが、異なるモダリティと精度の間の相互作用に対処する際に特定の制限があります。

4.2非プロジェクションベースの3Dオブジェクト検出

非プロジェクト3Dオブジェクト検出方法は、機能アライメントに依存しないことで融合を実現し、堅牢な特徴表現を生成します。カメラからライダーへの投影の制限を回避します。これは、通常、カメラ機能の意味密度を低下させ、Focals ConvやPointpaintingなどの技術の有効性に影響します。非投影法は通常、クロスアテンションメカニズムを採用するか、直接的な特徴投影における固有の不整合の問題に対処するための統一スペースを構築します。これらの方法は、主に2つのカテゴリに分けることができます。（1）クエリ学習ベースの方法と（2）統一された機能ベースの方法。クエリ学習ベースの方法は、融合プロセス中のアライメントの必要性を完全に回避します。対照的に、統一された特徴ベースの方法は、統一された機能空間を構築しますが、通常、単一のモダリティコンテキストで発生することはありません。たとえば、BevFusionはカメラからベフへの投影にLSSを利用します。このプロセスは、融合の前に発生し、機能が誤っているシナリオでは非常に堅牢であることが示されています。

クエリ学習ベースの3Dオブジェクト検出：トランスフュージョン、ディープフュージョン、ディープインタラクション、オートアリグイン、キャットデット、混合灌流などのクエリ学習ベースの3Dオブジェクト検出方法は、特徴融合プロセスの投影の必要性を避けます。代わりに、彼らは特徴融合を実行する前に、Criss-Crossの注意メカニズムを介して特徴のアライメントを実現します。ポイントクラウド機能は通常クエリとして使用されますが、画像機能はキーと値として使用され、グローバル機能クエリを通じて非常に堅牢なマルチモーダル機能を取得します。さらに、DeepInteractionはマルチモーダルの相互作用を導入します。この相互作用では、ポイントクラウドと画像機能がさまざまなクエリとして使用され、さらなる機能の相互作用を実現します。ポイントクラウド機能のみをクエリとして使用する場合と比較して、画像機能の包括的な統合は、より堅牢なマルチモーダル機能の取得につながります。一般に、クエリ学習ベースの3Dオブジェクト検出方法を使用して、トランスベースの構造を使用して機能クエリを実行して機能アライメントを実現します。最後に、マルチモーダル機能は、CenterPointなどのLIDARベースのパイプラインに統合されています。
基于统一特征的三维物体检测：基于统一特征的三维物体检测方法，如EA-BEV、BEVFusion、cai2023bevfusion4d、FocalFormer3D、FUTR3D、UniTR、Uni3D、virconv、MSMDFusion、sfd、cmt、UVTR、sparsefusion等，通常在特征融合前通过投影实现异构模态的预融合统一。 BEV Fusionシリーズでは、LSSは深度推定に使用され、フロントビュー機能はBEV機能に変換され、BEV画像とBEVポイントクラウド機能が融合されます。一方、CMTとUnitrはトランスを使用して点雲と画像をトークン化し、変圧器エンコードを介して暗黙の統一された空間を構築します。 CMTは、エンコード中に投影を使用しますが、機能学習レベルでの投影への依存を完全に回避します。 focalformer3d、futr3d、およびuvtrは、トランスのクエリを利用して、detr3dと同様のスキームを実装し、クエリを通じて統一されたスパースBEV機能空間を構築し、それによって直接投影によって引き起こされる不安定性を緩和します。

Virconv、MSMDFusion、およびSFDは、擬似点雲を介して統一された空間を構築し、機能学習前に投影が行われます。直接投影によって導入される問題は、その後の機能学習を通じて解決されます。要約すると、統一された機能ベースの3Dオブジェクト検出方法は現在、非常に正確で堅牢なソリューションを表しています。投影マトリックスが含まれていますが、この投影はマルチモーダル融合の間では発生しないため、非プロジェクト3Dオブジェクト検出方法と見なされます。自動投影ベースの3Dオブジェクト検出方法とは異なり、投影エラーの問題を直接解決するわけではありませんが、統一されたスペースを構築し、マルチモーダル3Dオブジェクト検出の複数の寸法を検討して、非常に堅牢なマルチモーダル機能を取得することを選択します。

5. 結論

3Dオブジェクト検出は、自律的な駆動知覚において重要な役割を果たします。近年、この分野は急速に発展し、多数の研究論文を作成しました。センサーによって生成される多様なデータフォームに基づいて、これらのメソッドは、主に画像ベース、ポイントクラウドベース、マルチモーダルの3つのタイプに分割できます。これらの方法の主な評価メトリックは、高精度と低遅延です。多くのレビューは、これらのアプローチを要約し、主に「高精度と低レイテンシ」の中核原則に焦点を当て、技術的な軌跡を説明しています。

ただし、ブレークスルーから自律運転技術の実用的なアプリケーションにシフトする過程で、既存のレビューは安全性の認識を焦点とすることはなく、安全性認識に関連する現在の技術的経路をカバーできません。たとえば、最近のマルチモーダル融合法は、実験段階で堅牢性テストを行うことがよくあります。これは、現在のレビューでは完全には考慮されていない側面です。

したがって、3Dオブジェクト検出アルゴリズムの再審査は、重要な側面として「精度、遅延、堅牢性」に焦点を当てています。私たちは、セキュリティ認識の観点からそれらを再生することに特に重点を置いて、以前のレビューを再分類しました。うまくいけば、この作業が、単に高精度を探ることの制限を超えて、3Dオブジェクト検出に関する将来の研究に関する新しい洞察を提供することを願っています。

<<: アルトマン氏の地位は再び危険にさらされているのか？！ OpenAIの取締役会が競合他社の参加を呼びかけ、Google Geminiの幹部を引き抜いた

>>: