自動運転システム向けBEV 3D検出改善戦略の総合分析

AV カメラは他のセンサーと比較して最も密度の高い情報を持っていることはよく知られており、自動運転車において情報を抽出するのが最も難しいセンサーの 1 つとなっていますが、最も有用なセンサーでもあります。これを数学的に理解するには、まず下の図に示すように、視覚化ごとのデータポイントの数を確認する必要があります。実際には、これらのデータポイント (浮動小数点数) が、360° の視野をカバーし、AV の意思決定を行うセンサーを備えた認識アルゴリズムへの入力として使用されます。

視覚ベースの 3D 検出タスクは、自動運転システムの基本的な認識タスクであり、自動運転に関する現在の研究でも注目されているトピックです。しかし、単眼カメラからの 2D センサー入力データを使用して 3D BEV (鳥瞰図) パフォーマンスを実現するのは簡単なことではありません。本稿では、自動運転のための 3D ビジョン検出ベースの方法に焦点を当てます。さまざまな視覚的 BEV アルゴリズム検出に基づいて詳細な分析が実行され、共通の傾向を理解しやすくするためにさまざまなサブグループに分割されました。さらに、業界動向の観点から、3D検出タスクをサラウンドビュー画像に基づく方法に移行する方法を分析し、これらのサラウンドビュー方法を自動運転や自動駐車に適用できる特殊なシナリオを紹介します。最後に、現在の方法の欠点と協調知覚などの最先端の研究方向に基づいて、3D ビジョン技術に関する将来の研究についての考えを提案します。

3D BEV オブジェクト検出タスクを理解するために必要な基本事項を網羅するために、自律走行車 (AV) のセンサー設定、頻繁に使用されるデータセット、自律走行車検出タスクの一般的な評価メトリック、そして鳥瞰図 (BEV) が AV カメラ認識にとって重要な理由という 4 つの側面について説明します。

したがって、本論文では、サラウンドビジョンに基づく 3D オブジェクト検出に関する包括的な調査を実施し、最近のディープラーニングベースの方法とアーキテクチャの包括的なレビューを提供します。まず、カメラを使用した 3D オブジェクト検出のタスクのためのサラウンドビュー検出器の研究を促進するために、単一ビュー検出器ベースラインに基づく詳細な分析が行われます。次に、コンピュータービジョンコミュニティで現在開発されているサラウンドビュー検出器の主な傾向をさらに分析して分類します。最後に、残っている問題の詳細な分析が提示され、BEV 3D 画像オブジェクト検出器のいくつかの潜在的な研究方向が紹介され、将来の検出研究への可能性が開かれます。

AV システムは、さまざまな視点からの知覚ビューの特徴を活用して、自律走行車の周囲のシーンの全体的な表現を理解します。複数のカメラを組み合わせる場合は、固定センサーの設置とその調整に関連する事前のインフラストラクチャ作業が必要です。カメラのキャリブレーションとは、単に 2 台のカメラ間の外部変換行列を抽出することを意味します。このカメラマトリックスを使用すると、1 つのカメラのピクセルを別のカメラのピクセルに 1 対 1 でマッピングし、複数のカメラ間の関係を作成して、それらの間の推論が可能になります。自動運転車は、近距離での死角を最小限に抑えるために、長距離でこの高い視野の重複を維持する必要があります。各オブジェクトの深度を回帰するか、地表平面の高さを推定するヒューリスティックベースの方法 (逆遠近法マッピング) を使用することで、遠近法の検出を BEV 空間に効果的に引き上げることができます。

3D オブジェクト検出器は、精度と再現率という複数のメトリックを使用して検出器のパフォーマンスを測定します。精度は、テスト対象のケースのうち取得される関連インスタンスの割合であり、再現率は、取得される関連インスタンスの割合です。次の式:

精度許容値=TP/(TP + FP) (1)

想起 = TP / (TP + FN) (2)

ただし、平均精度 (mAP) が最も一般的な評価指標です。各カテゴリの平均精度は上記の式に従って計算できます。異なる検出器間のパフォーマンス (mAP) を比較するため。各カテゴリのグラウンドトゥルースの数に基づいて加重平均を計算する必要があります。交差和 (IoU) は、予測ボックスと実際のボックスの重なり領域と和領域の比率です。IoU しきい値 (通常は 0.5) は、予測ボックスが特定の実際のボックスと一致するかどうかを判断するために使用されます。 IoU がしきい値より大きい場合、予測は真陽性 (TP) と見なされ、そうでない場合は偽陽性 (FP) と見なされます。予測ボックスで検出できない実際のオブジェクトは、偽陰性 (FN) と見なされます。

さらに、次の式に示す F1 スコアは、2 番目に一般的な検出メトリックとして定義され、精度と再現率の加重平均として表されます。モデルをさまざまな構成で展開する場合、AP 検出器の性能が高いほどパフォーマンスが向上します。ただし、既知の固定された最適信頼しきい値を使用してモデルを展開する場合は、より高い最大 F1 スコア検出器が使用されます。

F1=2∗適合率∗再現率/(適合率+再現率) (3) さらに、データセット固有の指標として、KITTIによって導入された平均方向類似度(AOS)があり、これは地面上のボックスの方向推定の品質を評価します。 mAP メトリックはオブジェクトの 3D 位置のみを考慮し、サイズと方向の影響は無視します。これに関連して、nuScenes では TP メトリック、つまり平均変換誤差 (ATE)、平均スケール誤差 (ASE)、平均方向誤差 (AOE) が導入されています。 WOD は、評価システムに方位/方向情報を組み込んで、方位で加重された平均精度 (APH) を主な指標として導入します。カメラなどの 2D センサーの深度混乱を考慮して、WOD では予測において縦方向の誤差よりも横方向の誤差を重視する Longitudinal Error Tolerant 3D Average Precision (LET-3D-AP) を導入しています。

AV でサラウンドビューテクノロジを使用してマルチカメラ検出ビューアルゴリズムを構築するのはなぜですか?多くの場合、物体全体を 1 つのフレームに収めて正確に検出および分類することは困難であり、これは特に長い車両のカテゴリでよく見られる問題です。マルチカメラ検出の利点は、次の図に示すように直感的に理解できます。

3D物体検出における周辺視野画像の利用

上図に示すように、上部は構築された BEV 全体のビューを表し、下部は右前方、右後方、右後方のカメラの周囲ビュー画像を表します。 1 台または 2 台のカメラのみを使用すると仮定すると、オブジェクトを車として分類できますが、追跡の最終目的は黒いリムジンに正確な境界ボックスを合わせることであるため、3 枚の画像すべてがなければ、その姿勢と動きを完全に特定することはできません。そのため、3D 座標系で複数の V によって構成される鳥瞰図が非常に必要になります。さらに、鳥瞰図での 3D エージェントの表現は、自動運転にとってより実用的です。

1. センサーフュージョン

まず、BEV エージェントの表現により、すべての AV 車両関連のフルシーン認識センサー (カメラ、LiDAR、レーダーなど) の融合がより自然になります。たとえば、LIDAR 自体も BEV 空間で動作できます。

2. 時間の一貫性

第二に、処理アルゴリズムがすべて BEV 内で実行されると、動的シーンの時間的一貫性をより適切にモデル化できます。 BEV エージェントにおけるモーション補正 (つまり、平行移動と回転のモデリング) は、パースペクティブ (カメラビュー) に比べてはるかに簡単です。たとえば、BEV ビューでは、ポーズの変化は被写体の動きにのみ依存しますが、パースペクティブビューでは、ポーズの変化は被写体の動きだけでなく深度にも依存します。

3. 空間の一貫性

知覚されるオブジェクトのスケールは BEV 空間では一貫していますが、遠近法では一貫性が低くなります。遠近法の描画では、物体は物体に近づくほど大きく見えます。したがって、BEV 空間を使用すると、範囲に依存しないスケール特徴を学習しやすくなります。自動運転では、認識後の下流タスク（動作予測や動作計画など）も BEV 空間上で実行できます。したがって、車両ドメイン制御プラットフォーム上のすべてのソフトウェアスタックは、計算と変換に BEV のユニバーサル座標ビューを当然使用します。

4. 協調的認識

単一の V 画像に基づく物体検出は、主に 2 段階、単一段階、およびアンサンブルベースの検出器の 3 種類の方法に基づいています。このうち、2段検出器は2段に分かれています。最初の段階では、任意の数のオブジェクト提案を予測し、2 番目の段階では、これらのオブジェクト提案を分類およびローカライズして予測ボックスを生成します。しかし、これらの提案には、推論時間が遅い、グローバルコンテキストが欠如している（単一の画像内であっても）、アーキテクチャが複雑であるなどの固有の問題があります。したがって、複数の V イメージを持つ BEV エージェントアーキテクチャで構成される 2 段階のアプローチは、上記の問題を適切に解決できます。

最近の革新的な研究分野である「協調センシング」でも、BEV 形式を利用して、すべてのエージェントを共通の座標系で表現しています。これらの協調認識における視覚アルゴリズムは、主に R-CNN 作業ラインに基づいており、地域完全畳み込みネットワーク (R-FCN)、特徴ピラミッドネットワーク (FPN)、およびマスク R-CNN を構築します。さらに、レーザーアルゴリズムを使用した疑似 LiDAR に関する並列ワークフローがあり、最初の段階で密な深度を予測してピクセルを疑似ポイントクラウドに変換し、次に LiDAR のような検出ヘッドを適用して 3D ポイントピラーでのオブジェクト検出を完了します。

周辺視線検出は、ジオメトリベースのビュートランスフォーマーとクロスアテンションベースの視覚トランスフォーマーの 2 つのサブグループに大まかに分けられます。このプロセスでは、各画像を個別に BEV フィーチャフラスタムに持ち上げ、すべてのフラスタムをラスタライズされた BEV グリッドに配置します。それぞれ外部パラメータ行列 Ek ∈ R3x4 と内部パラメータ行列 Ik ∈ R3x3 を持つ n 枚の画像 Xk ∈ R3xHxWn が与えられた場合、特徴のラスタライズされた BEV マップは、BEV 座標系で y ∈ RCxXxY として見つかります。ここで、C、X、Y は、BEV マップのチャネルの深さ、高さ、幅です。外部行列と内部行列を組み合わせることで、各カメラの参照座標 (x、y、z) からローカルピクセル座標 (h、w、d) へのマッピングが定義されます。このアプローチでは、トレーニング中またはテスト中に深度センサーにアクセスする必要はなく、3D ボックス注釈のみで十分です。下の図に示すアーキテクチャでは、前処理と後処理の両方の技術が改善されています。

リフト・スプラット・シュート（LSS）アーキテクチャ

上の図に示すように、上の図で表される BEV アルゴリズム全体の改善手順は次のとおりです。

各画像錐台のピクセルはコンテキストベクトルを定義し、BEV 座標空間に投影されて離散深度を生成します。ベースマップは n 個の画像を取り込み、BEV セマンティックマップを返します。

単一フレームのビジョンベースの検出器は、通常、レーダーベースのセンサーなどのセンサーと比較して速度誤差が大きくなります。これは、LiDAR 検出器が通常、ポイントクラウドに埋め込まれた時間情報を含む複数のスキャンデータを使用するのに対し、RADAR の固有のポイントクラウドにはドップラー効果を使用した速度属性が含まれているためです。これに基づいて、視覚検出器に時間枠を追加すると、道路上の動的エージェントの時間的な手がかりを学習できます。最新の BEVDet4D ネットワークアーキテクチャは、ネットワークアーキテクチャ全体に時間次元を追加し、BEV 問題を 4 次元問題にアップグレードします。このアプローチは、ビジョンベースの検出器に固有の高速エラーの問題に対処しようとします。

さらなる拡張として、BEVDepth メソッドはカメラ対応の深度推定モジュールを追加し、オブジェクトの深度予測機能の実現に役立ちます。全体的な仮説は、深度の向上が nuScenes ベンチマークでの高性能カメラ 3D 検出の鍵となるということです。3D 検出のために、LSS の通常のセグメンテーションヘッドを CenterPoint ヘッドに置き換えます。補助深部ヘッドベースラインでは、検出損失の監視のみが使用されます。しかし、単眼による奥行き推定は難しいため、検出損失だけでは奥行きモジュールを監視するには十分ではありません。したがって、カメラ変換マトリックスポイントクラウドは、キャリブレーションされたLiDARデータを使用して画像上に投影され、2.5D画像座標P imgi(u, v, d)を形成します。ここで、uとvは画像座標内の座標を表し、dは対応するLiDARポイントクラウドの深度を表し、これにより単一カメラ検出深度の欠陥損失が実現されます。

もちろん、メモリ使用量を削減するために、さらに開発された M2BEV は学習可能なパラメータを大幅に削減し、推論速度とメモリ使用量の点で効率を向上させることができます。最適化された検出器は、次の 4 つのコンポーネントで構成されます。

1. 透視画像から画像の特徴を抽出するために使用される画像エンコーダー。

2. 深度とコンテキストを生成し、それらの外積を実行してポイントフィーチャを取得するディープモジュール。

3. パースペクティブビューを BEV ビューに変換するビューコンバーター。

4. 3D 検出ヘッドが最終的な 3D 境界ボックスを提案します。

5. BEV 3D 再構成モジュールは、計算コストの予算内で深度予測を強化するために動的な時間ステレオ法を導入します。

Vision Transformer (ViT) は、Transformer デコーダー内のクエリ (オブジェクト提案) の粒度に応じて、スパースクエリベースの方法と密なクエリベースの方法に分類できます。スパースクエリベースの ViT では、テストデータオブジェクトがトレーニングデータオブジェクトの代表であると想定しています。その処理プロセスでは、代表的なトレーニングデータからシーン内で検索するオブジェクト提案を学習し、学習したオブジェクト提案を使用してテスト時にクエリを実行します。

単一画像（透視図）DETRは、DETR3Dを介してBEV空間のサラウンドビュー画像に拡張されます。ここでは、n 個のサラウンドビュー画像 I ∈ RH'×W'×3 が与えられ、バックボーンネットワーク BackBone と特徴抽出ネットワーク FPN を通過し、Transformers エンコーダーによって n 個のエンコードされた画像特徴 F ∈ RHxWxd が生成されます。ここで、d は特徴の次元、H'、W'、H、W はそれぞれ画像と特徴の空間サイズを表します。これらのn個のエンコードされた特徴と少数のオブジェクトクエリQ∈RNxdがTransformerデコーダーに送られ、検出結果が生成されます。ここで、N はオブジェクトクエリの数であり、BEV マップ上のさまざまな場所にある潜在的なオブジェクトを表します。通常、360° シーン全体で 300 〜 900 個のクエリオブジェクトになります。メタデータとして、カメラ変換行列も入力として使用されます。これらのマトリックスは、2D 座標空間にマッピングされた 3D 参照ポイントを作成し、各クエリの対応する 2D 機能をサンプリングするために必要です。

Transformers デコーダーでは、オブジェクトクエリは、自己注意モジュール、交差注意モジュール、フィードフォワードネットワーク (FFN) によって順番に処理され、最後に多層パーセプトロン (MLP) によって 3D BEV 検出の最終出力が生成されます。ここでの自己注意モジュールは、異なるオブジェクトクエリ間でメッセージの受け渡しを実行します。クロス注意モジュールでは、オブジェクトクエリは最初に一致する対応する領域/ビューを検索し、次に一致した領域から関連する特徴を抽出して、その後の予測を行います。

また、ここではトランスフォーマーベースのエンコーダーはオプションのアドオンですが、これらの検出器の中核部分はトランスフォーマーベースのデコーダーであることにも注目する価値があります。このアプローチのワークフローは、次の図に示すように簡単に理解できます。

DETR3D は、重複領域にある 2 つの隣接するビューの複数の特徴を結合すると同時に、重複領域にある 2 つの隣接するビューの複数の特徴も結合します。各画像の境界領域によって特徴が切り捨てられる可能性があり、これが DETR3D のパフォーマンスを妨げる主なボトルネックでもあります。したがって、DETR3D では依然として特徴集約が不十分であり、検出パフォーマンスを完全に向上させる機会を逃しています。

DETR3D アルゴリズムのボトルネックを最適化するために、次のようにさまざまなアルゴリズム最適化戦略を使用できます。

1) グラフ構造学習 (GSL) による周囲画像情報の集約。

各オブジェクトクエリと 2D 特徴マップの間に動的な 3D グラフを構築し、特に画像境界領域でのオブジェクト表現を強化します。このタイプのアプローチは PETR として定式化することができ、PETR の位置エンコーディング開発作業では、カメラ変換マトリックスで 3D 座標をエンコードすることにより、サラウンドビュー機能が 3D ドメインに変換されます。その後、3D 位置認識機能と対話してオブジェクトクエリを更新し、3D 予測を生成することで、プロセスが簡単になります。拡張された PETRv2 は、PETR に基づく時間次元を追加して、より密度の高い時間認識機能を取得します。

2) Polar DETR は、極座標で 3D 検出をパラメータ化します。

これにより、位置、速度分解、知覚範囲、ラベル割り当て、および損失関数のパラメータ化が極座標 (r、θ) で再定式化されます。この Graph-DETR3D ベースの検出方法は、さまざまな領域にあるオブジェクトを定量化し、中央コンテキスト機能の集約を簡素化およびサポートして、機能の相互作用を強化できます。

3) 高密度クエリに基づく ViT。

BEV 表現内の関心領域に基づく密なクエリセットがあり、各クエリには 3D 空間内の空間位置が事前に割り当てられていると仮定します。これは、スパースクエリを介してトレーニングデータで学習されなかった特定の種類のオブジェクトを検出することが依然として可能であるためです。言い換えれば、トレーニングデータがテストデータを完全には代表していない場合、このアプローチはより堅牢になります。

BEVFormer は、定義済みのグリッドのような BEV クエリを通じて空間および時間空間と対話し、空間および時間情報を有効に活用します。空間情報を集約するために、空間クロスアテンションが設計されており、各 BEV はクエリのためにカメラビューの空間特徴から情報を抽出します。時間情報については、下の図に示すように、時間的自己注意を使用して、過去の BEV 情報を周期的に融合します。

BEVFormerの全体的なアーキテクチャ

上図に示すように、全体的なアーキテクチャでは、(a) BEVFormer のエンコーダー層には、グリッド状の BEV クエリ、時間的自己注意、空間的クロス注意が含まれています。 (b) 空間交差注意では、各 BEV クエリは関心領域内の画像特徴とのみ相互作用します。 (c) 時間的自己注意では、各 BEV クエリは、現在のタイムスタンプの BEV クエリと前のタイムスタンプの BEV 機能の 2 つの機能と相互作用します。

このアプローチは、高密度クエリを活用することで、スパースクエリベースの Vision Transformers アプローチを上回り、より高いリコール値を達成しました。ただし、集中的なクエリには高い計算要件が伴います。したがって、参照ポイントの周りの K ポイントサンプリング戦略のこの問題を解決するために、変形可能な DETR、つまり BEVFormer が使用されます。これにより、トランスフォーマーの構造に完全に基づく他の方法よりも BEV 関数をより汎用的にすることができ、非均一で不規則なサンプリンググリッドを簡単にサポートできます。

4) BEVFormer のメソッド戦略を最適化します。

その後の最適化戦略では、BEVFormerV2 はパースペクティブ監視を追加し、収束を助け、画像ベースのバックボーンネットワークをより適切に活用します。これらには、パースペクティブヘッドからの提案が鳥瞰図に入力され、最終的な予測を行う 2 段階の検出器が含まれます。パースペクティブヘッド提案に加えて、DETR3D スタイルの学習クエリも使用されます。補助的な遠近法の損失については、FCOS3D ヘッドを使用して、3D 境界ボックスの中心の位置、サイズ、方向、投影中心を予測します。

このヘッドの補助検出損失は、パースペクティブ損失 Lpers として示され、バックボーンネットワークの最適化を促進するために BEV 損失 Lbev を補完するものとして機能します。モデル全体のトレーニングには、全体的な目標があります。

PolarFormer は、BEVFormer の上に極座標を使用することを推奨しています。これは、各車載カメラがルート (非垂直) 軸を持つ画像ジオメトリに固有のくさび形で世界を認識するため、自車両の視点の性質をうまく説明できます。

<<: AIがメディア業界を変革、フェニックスTVがAIデータトラックに参入

>>: 旅の途中を超えて？文脈学習に基づく画像拡散モデルのトレーニング [Frontiers]

ドローンの用途は急速に拡大しています。これらの 4 つの驚くべき用途をご存知ですか?

自動運転システム向けBEV 3D検出改善戦略の総合分析

ドローンの用途は急速に拡大しています。これらの 4 つの驚くべき用途をご存知ですか?

ロボットプログラムは人間のプログラマーのようにバグを修正する

猫とチャットできるようになりました！生成型AIがもたらす包括的な革命：5年以内に初の動物言語を解読

自動運転競争が熱を帯び、実用化への道が始まろうとしている

自動運転分野でファーウェイの「異常運転行動」関連特許が認可：認識精度向上が可能

Sitechi スマートオペレーションプラットフォームがスマートシティの求心力を生み出す

TensorFlow2 を使用してアラビア語の手書き文字データセットを認識する方法を説明します

新しい人工筋肉、応用シナリオの範囲が極めて広い！マイクロロボット：非常に必要

推薦する

DeSRAは欠陥を検出して除去し、実際のシーンの超解像におけるGANをより完璧にします

GPT-4 に先んじよう! Microsoft Bingは突然、ミームを読んだり、病気を診断したり、コードを書いたりできる「画像認識」機能をアップグレードした。

「ドメイン外」テキストは不要、Microsoft: NLP はターゲットを絞った方法で事前トレーニングする必要がある

数学が苦手でも機械学習を学ぶことはできますか？

5G自動運転はどのようなものになるのでしょうか?韓国のテストではこの結果が出た

利便性を超えて：スマートホームは信頼できるのか？

倉庫の自動化は人気が高い。ソフトバンクは28億ドルを投じてオートストアの40％を買収した。

データアーキテクチャはAIと医療の未来を推進する上で重要

サイバーセキュリティにおけるAIの新たな機会を見つける方法

生成AIを使用してフィッシングメール攻撃を防ぐ方法

教育用人工知能における倫理的リスクを排除する方法

AIが書いたコンテンツは判別が難しく、言語の専門家でさえ無力である