AV カメラは他のセンサーと比較して最も密度の高い情報を持っていることはよく知られており、自動運転車において情報を抽出するのが最も難しいセンサーの 1 つとなっていますが、最も有用なセンサーでもあります。これを数学的に理解するには、まず下の図に示すように、視覚化ごとのデータ ポイントの数を確認する必要があります。実際には、これらのデータ ポイント (浮動小数点数) が、360° の視野をカバーし、AV の意思決定を行うセンサーを備えた認識アルゴリズムへの入力として使用されます。 視覚ベースの 3D 検出タスクは、自動運転システムの基本的な認識タスクであり、自動運転に関する現在の研究でも注目されているトピックです。しかし、単眼カメラからの 2D センサー入力データを使用して 3D BEV (鳥瞰図) パフォーマンスを実現するのは簡単なことではありません。本稿では、自動運転のための 3D ビジョン検出ベースの方法に焦点を当てます。さまざまな視覚的 BEV アルゴリズム検出に基づいて詳細な分析が実行され、共通の傾向を理解しやすくするためにさまざまなサブグループに分割されました。さらに、業界動向の観点から、3D検出タスクをサラウンドビュー画像に基づく方法に移行する方法を分析し、これらのサラウンドビュー方法を自動運転や自動駐車に適用できる特殊なシナリオを紹介します。最後に、現在の方法の欠点と協調知覚などの最先端の研究方向に基づいて、3D ビジョン技術に関する将来の研究についての考えを提案します。 3D BEV オブジェクト検出タスクを理解するために必要な基本事項を網羅するために、自律走行車 (AV) のセンサー設定、頻繁に使用されるデータセット、自律走行車検出タスクの一般的な評価メトリック、そして鳥瞰図 (BEV) が AV カメラ認識にとって重要な理由という 4 つの側面について説明します。 したがって、本論文では、サラウンド ビジョンに基づく 3D オブジェクト検出に関する包括的な調査を実施し、最近のディープラーニング ベースの方法とアーキテクチャの包括的なレビューを提供します。まず、カメラを使用した 3D オブジェクト検出のタスクのためのサラウンド ビュー検出器の研究を促進するために、単一ビュー検出器ベースラインに基づく詳細な分析が行われます。次に、コンピューター ビジョン コミュニティで現在開発されているサラウンド ビュー検出器の主な傾向をさらに分析して分類します。最後に、残っている問題の詳細な分析が提示され、BEV 3D 画像オブジェクト検出器のいくつかの潜在的な研究方向が紹介され、将来の検出研究への可能性が開かれます。 AV システムは、さまざまな視点からの知覚ビューの特徴を活用して、自律走行車の周囲のシーンの全体的な表現を理解します。複数のカメラを組み合わせる場合は、固定センサーの設置とその調整に関連する事前のインフラストラクチャ作業が必要です。カメラのキャリブレーションとは、単に 2 台のカメラ間の外部変換行列を抽出することを意味します。このカメラ マトリックスを使用すると、1 つのカメラのピクセルを別のカメラのピクセルに 1 対 1 でマッピングし、複数のカメラ間の関係を作成して、それらの間の推論が可能になります。自動運転車は、近距離での死角を最小限に抑えるために、長距離でこの高い視野の重複を維持する必要があります。各オブジェクトの深度を回帰するか、地表平面の高さを推定するヒューリスティックベースの方法 (逆遠近法マッピング) を使用することで、遠近法の検出を BEV 空間に効果的に引き上げることができます。 3D オブジェクト検出器は、精度と再現率という複数のメトリックを使用して検出器のパフォーマンスを測定します。精度は、テスト対象のケースのうち取得される関連インスタンスの割合であり、再現率は、取得される関連インスタンスの割合です。次の式: 精度許容値=TP/(TP + FP) (1) 想起 = TP / (TP + FN) (2) ただし、平均精度 (mAP) が最も一般的な評価指標です。各カテゴリの平均精度は上記の式に従って計算できます。異なる検出器間のパフォーマンス (mAP) を比較するため。各カテゴリのグラウンドトゥルースの数に基づいて加重平均を計算する必要があります。交差和 (IoU) は、予測ボックスと実際のボックスの重なり領域と和領域の比率です。IoU しきい値 (通常は 0.5) は、予測ボックスが特定の実際のボックスと一致するかどうかを判断するために使用されます。 IoU がしきい値より大きい場合、予測は真陽性 (TP) と見なされ、そうでない場合は偽陽性 (FP) と見なされます。予測ボックスで検出できない実際のオブジェクトは、偽陰性 (FN) と見なされます。 さらに、次の式に示す F1 スコアは、2 番目に一般的な検出メトリックとして定義され、精度と再現率の加重平均として表されます。モデルをさまざまな構成で展開する場合、AP 検出器の性能が高いほどパフォーマンスが向上します。ただし、既知の固定された最適信頼しきい値を使用してモデルを展開する場合は、より高い最大 F1 スコア検出器が使用されます。 F1=2∗適合率∗再現率/(適合率+再現率) (3) さらに、データセット固有の指標として、KITTIによって導入された平均方向類似度(AOS)があり、これは地面上のボックスの方向推定の品質を評価します。 mAP メトリックはオブジェクトの 3D 位置のみを考慮し、サイズと方向の影響は無視します。これに関連して、nuScenes では TP メトリック、つまり平均変換誤差 (ATE)、平均スケール誤差 (ASE)、平均方向誤差 (AOE) が導入されています。 WOD は、評価システムに方位/方向情報を組み込んで、方位で加重された平均精度 (APH) を主な指標として導入します。カメラなどの 2D センサーの深度混乱を考慮して、WOD では予測において縦方向の誤差よりも横方向の誤差を重視する Longitudinal Error Tolerant 3D Average Precision (LET-3D-AP) を導入しています。 AV でサラウンド ビュー テクノロジを使用してマルチカメラ検出ビュー アルゴリズムを構築するのはなぜですか?多くの場合、物体全体を 1 つのフレームに収めて正確に検出および分類することは困難であり、これは特に長い車両のカテゴリでよく見られる問題です。マルチカメラ検出の利点は、次の図に示すように直感的に理解できます。 3D物体検出における周辺視野画像の利用 上図に示すように、上部は構築された BEV 全体のビューを表し、下部は右前方、右後方、右後方のカメラの周囲ビュー画像を表します。 1 台または 2 台のカメラのみを使用すると仮定すると、オブジェクトを車として分類できますが、追跡の最終目的は黒いリムジンに正確な境界ボックスを合わせることであるため、3 枚の画像すべてがなければ、その姿勢と動きを完全に特定することはできません。そのため、3D 座標系で複数の V によって構成される鳥瞰図が非常に必要になります。さらに、鳥瞰図での 3D エージェントの表現は、自動運転にとってより実用的です。 1. センサーフュージョン まず、BEV エージェントの表現により、すべての AV 車両関連のフルシーン認識センサー (カメラ、LiDAR、レーダーなど) の融合がより自然になります。たとえば、LIDAR 自体も BEV 空間で動作できます。 2. 時間の一貫性 第二に、処理アルゴリズムがすべて BEV 内で実行されると、動的シーンの時間的一貫性をより適切にモデル化できます。 BEV エージェントにおけるモーション補正 (つまり、平行移動と回転のモデリング) は、パースペクティブ (カメラ ビュー) に比べてはるかに簡単です。たとえば、BEV ビューでは、ポーズの変化は被写体の動きにのみ依存しますが、パースペクティブ ビューでは、ポーズの変化は被写体の動きだけでなく深度にも依存します。 3. 空間の一貫性 知覚されるオブジェクトのスケールは BEV 空間では一貫していますが、遠近法では一貫性が低くなります。遠近法の描画では、物体は物体に近づくほど大きく見えます。したがって、BEV 空間を使用すると、範囲に依存しないスケール特徴を学習しやすくなります。自動運転では、認識後の下流タスク(動作予測や動作計画など)も BEV 空間上で実行できます。したがって、車両ドメイン制御プラットフォーム上のすべてのソフトウェア スタックは、計算と変換に BEV のユニバーサル座標ビューを当然使用します。 4. 協調的認識 単一の V 画像に基づく物体検出は、主に 2 段階、単一段階、およびアンサンブルベースの検出器の 3 種類の方法に基づいています。このうち、2段検出器は2段に分かれています。最初の段階では、任意の数のオブジェクト提案を予測し、2 番目の段階では、これらのオブジェクト提案を分類およびローカライズして予測ボックスを生成します。しかし、これらの提案には、推論時間が遅い、グローバルコンテキストが欠如している(単一の画像内であっても)、アーキテクチャが複雑であるなどの固有の問題があります。したがって、複数の V イメージを持つ BEV エージェント アーキテクチャで構成される 2 段階のアプローチは、上記の問題を適切に解決できます。 最近の革新的な研究分野である「協調センシング」でも、BEV 形式を利用して、すべてのエージェントを共通の座標系で表現しています。これらの協調認識における視覚アルゴリズムは、主に R-CNN 作業ラインに基づいており、地域完全畳み込みネットワーク (R-FCN)、特徴ピラミッド ネットワーク (FPN)、およびマスク R-CNN を構築します。さらに、レーザー アルゴリズムを使用した疑似 LiDAR に関する並列ワークフローがあり、最初の段階で密な深度を予測してピクセルを疑似ポイント クラウドに変換し、次に LiDAR のような検出ヘッドを適用して 3D ポイント ピラーでのオブジェクト検出を完了します。 周辺視線検出は、ジオメトリベースのビュートランスフォーマーとクロスアテンションベースの視覚トランスフォーマーの 2 つのサブグループに大まかに分けられます。このプロセスでは、各画像を個別に BEV フィーチャ フラスタムに持ち上げ、すべてのフラスタムをラスタライズされた BEV グリッドに配置します。それぞれ外部パラメータ行列 Ek ∈ R3x4 と内部パラメータ行列 Ik ∈ R3x3 を持つ n 枚の画像 Xk ∈ R3xHxWn が与えられた場合、特徴のラスタライズされた BEV マップは、BEV 座標系で y ∈ RCxXxY として見つかります。ここで、C、X、Y は、BEV マップのチャネルの深さ、高さ、幅です。外部行列と内部行列を組み合わせることで、各カメラの参照座標 (x、y、z) からローカル ピクセル座標 (h、w、d) へのマッピングが定義されます。このアプローチでは、トレーニング中またはテスト中に深度センサーにアクセスする必要はなく、3D ボックス注釈のみで十分です。下の図に示すアーキテクチャでは、前処理と後処理の両方の技術が改善されています。 リフト・スプラット・シュート(LSS)アーキテクチャ 上の図に示すように、上の図で表される BEV アルゴリズム全体の改善手順は次のとおりです。 各画像錐台のピクセルはコンテキスト ベクトルを定義し、BEV 座標空間に投影されて離散深度を生成します。ベース マップは n 個の画像を取り込み、BEV セマンティック マップを返します。 単一フレームのビジョンベースの検出器は、通常、レーダーベースのセンサーなどのセンサーと比較して速度誤差が大きくなります。これは、LiDAR 検出器が通常、ポイント クラウドに埋め込まれた時間情報を含む複数のスキャン データを使用するのに対し、RADAR の固有のポイント クラウドにはドップラー効果を使用した速度属性が含まれているためです。これに基づいて、視覚検出器に時間枠を追加すると、道路上の動的エージェントの時間的な手がかりを学習できます。最新の BEVDet4D ネットワーク アーキテクチャは、ネットワーク アーキテクチャ全体に時間次元を追加し、BEV 問題を 4 次元問題にアップグレードします。このアプローチは、ビジョン ベースの検出器に固有の高速エラーの問題に対処しようとします。 さらなる拡張として、BEVDepth メソッドはカメラ対応の深度推定モジュールを追加し、オブジェクトの深度予測機能の実現に役立ちます。全体的な仮説は、深度の向上が nuScenes ベンチマークでの高性能カメラ 3D 検出の鍵となるということです。3D 検出のために、LSS の通常のセグメンテーション ヘッドを CenterPoint ヘッドに置き換えます。補助深部ヘッドベースラインでは、検出損失の監視のみが使用されます。しかし、単眼による奥行き推定は難しいため、検出損失だけでは奥行きモジュールを監視するには十分ではありません。したがって、カメラ変換マトリックスポイントクラウドは、キャリブレーションされたLiDARデータを使用して画像上に投影され、2.5D画像座標P imgi(u, v, d)を形成します。ここで、uとvは画像座標内の座標を表し、dは対応するLiDARポイントクラウドの深度を表し、これにより単一カメラ検出深度の欠陥損失が実現されます。 もちろん、メモリ使用量を削減するために、さらに開発された M2BEV は学習可能なパラメータを大幅に削減し、推論速度とメモリ使用量の点で効率を向上させることができます。最適化された検出器は、次の 4 つのコンポーネントで構成されます。 1. 透視画像から画像の特徴を抽出するために使用される画像エンコーダー。 2. 深度とコンテキストを生成し、それらの外積を実行してポイント フィーチャを取得するディープ モジュール。 3. パースペクティブビューを BEV ビューに変換するビューコンバーター。 4. 3D 検出ヘッドが最終的な 3D 境界ボックスを提案します。 5. BEV 3D 再構成モジュールは、計算コストの予算内で深度予測を強化するために動的な時間ステレオ法を導入します。 Vision Transformer (ViT) は、Transformer デコーダー内のクエリ (オブジェクト提案) の粒度に応じて、スパース クエリ ベースの方法と密なクエリ ベースの方法に分類できます。スパース クエリ ベースの ViT では、テスト データ オブジェクトがトレーニング データ オブジェクトの代表であると想定しています。その処理プロセスでは、代表的なトレーニング データからシーン内で検索するオブジェクト提案を学習し、学習したオブジェクト提案を使用してテスト時にクエリを実行します。 単一画像(透視図)DETRは、DETR3Dを介してBEV空間のサラウンドビュー画像に拡張されます。ここでは、n 個のサラウンドビュー画像 I ∈ RH'×W'×3 が与えられ、バックボーン ネットワーク BackBone と特徴抽出ネットワーク FPN を通過し、Transformers エンコーダーによって n 個のエンコードされた画像特徴 F ∈ RHxWxd が生成されます。ここで、d は特徴の次元、H'、W'、H、W はそれぞれ画像と特徴の空間サイズを表します。これらのn個のエンコードされた特徴と少数のオブジェクトクエリQ∈RNxdがTransformerデコーダーに送られ、検出結果が生成されます。ここで、N はオブジェクトクエリの数であり、BEV マップ上のさまざまな場所にある潜在的なオブジェクトを表します。通常、360° シーン全体で 300 〜 900 個のクエリオブジェクトになります。メタデータとして、カメラ変換行列も入力として使用されます。これらのマトリックスは、2D 座標空間にマッピングされた 3D 参照ポイントを作成し、各クエリの対応する 2D 機能をサンプリングするために必要です。 Transformers デコーダーでは、オブジェクト クエリは、自己注意モジュール、交差注意モジュール、フィードフォワード ネットワーク (FFN) によって順番に処理され、最後に多層パーセプトロン (MLP) によって 3D BEV 検出の最終出力が生成されます。ここでの自己注意モジュールは、異なるオブジェクト クエリ間でメッセージの受け渡しを実行します。クロス注意モジュールでは、オブジェクト クエリは最初に一致する対応する領域/ビューを検索し、次に一致した領域から関連する特徴を抽出して、その後の予測を行います。 また、ここではトランスフォーマーベースのエンコーダーはオプションのアドオンですが、これらの検出器の中核部分はトランスフォーマーベースのデコーダーであることにも注目する価値があります。このアプローチのワークフローは、次の図に示すように簡単に理解できます。 DETR3D は、重複領域にある 2 つの隣接するビューの複数の特徴を結合すると同時に、重複領域にある 2 つの隣接するビューの複数の特徴も結合します。各画像の境界領域によって特徴が切り捨てられる可能性があり、これが DETR3D のパフォーマンスを妨げる主なボトルネックでもあります。したがって、DETR3D では依然として特徴集約が不十分であり、検出パフォーマンスを完全に向上させる機会を逃しています。 DETR3D アルゴリズムのボトルネックを最適化するために、次のようにさまざまなアルゴリズム最適化戦略を使用できます。 1) グラフ構造学習 (GSL) による周囲画像情報の集約。 各オブジェクト クエリと 2D 特徴マップの間に動的な 3D グラフを構築し、特に画像境界領域でのオブジェクト表現を強化します。このタイプのアプローチは PETR として定式化することができ、PETR の位置エンコーディング開発作業では、カメラ変換マトリックスで 3D 座標をエンコードすることにより、サラウンド ビュー機能が 3D ドメインに変換されます。その後、3D 位置認識機能と対話してオブジェクト クエリを更新し、3D 予測を生成することで、プロセスが簡単になります。拡張された PETRv2 は、PETR に基づく時間次元を追加して、より密度の高い時間認識機能を取得します。 2) Polar DETR は、極座標で 3D 検出をパラメータ化します。 これにより、位置、速度分解、知覚範囲、ラベル割り当て、および損失関数のパラメータ化が極座標 (r、θ) で再定式化されます。この Graph-DETR3D ベースの検出方法は、さまざまな領域にあるオブジェクトを定量化し、中央コンテキスト機能の集約を簡素化およびサポートして、機能の相互作用を強化できます。 3) 高密度クエリに基づく ViT。 BEV 表現内の関心領域に基づく密なクエリ セットがあり、各クエリには 3D 空間内の空間位置が事前に割り当てられていると仮定します。これは、スパースクエリを介してトレーニングデータで学習されなかった特定の種類のオブジェクトを検出することが依然として可能であるためです。言い換えれば、トレーニング データがテスト データを完全には代表していない場合、このアプローチはより堅牢になります。 BEVFormer は、定義済みのグリッドのような BEV クエリを通じて空間および時間空間と対話し、空間および時間情報を有効に活用します。空間情報を集約するために、空間クロスアテンションが設計されており、各 BEV はクエリのためにカメラビューの空間特徴から情報を抽出します。時間情報については、下の図に示すように、時間的自己注意を使用して、過去の BEV 情報を周期的に融合します。 BEVFormerの全体的なアーキテクチャ 上図に示すように、全体的なアーキテクチャでは、(a) BEVFormer のエンコーダー層には、グリッド状の BEV クエリ、時間的自己注意、空間的クロス注意が含まれています。 (b) 空間交差注意では、各 BEV クエリは関心領域内の画像特徴とのみ相互作用します。 (c) 時間的自己注意では、各 BEV クエリは、現在のタイムスタンプの BEV クエリと前のタイムスタンプの BEV 機能の 2 つの機能と相互作用します。 このアプローチは、高密度クエリを活用することで、スパースクエリ ベースの Vision Transformers アプローチを上回り、より高いリコール値を達成しました。ただし、集中的なクエリには高い計算要件が伴います。したがって、参照ポイントの周りの K ポイント サンプリング戦略のこの問題を解決するために、変形可能な DETR、つまり BEVFormer が使用されます。これにより、トランスフォーマーの構造に完全に基づく他の方法よりも BEV 関数をより汎用的にすることができ、非均一で不規則なサンプリング グリッドを簡単にサポートできます。 4) BEVFormer のメソッド戦略を最適化します。 その後の最適化戦略では、BEVFormerV2 はパースペクティブ監視を追加し、収束を助け、画像ベースのバックボーン ネットワークをより適切に活用します。これらには、パースペクティブヘッドからの提案が鳥瞰図に入力され、最終的な予測を行う 2 段階の検出器が含まれます。パースペクティブヘッド提案に加えて、DETR3D スタイルの学習クエリも使用されます。補助的な遠近法の損失については、FCOS3D ヘッドを使用して、3D 境界ボックスの中心の位置、サイズ、方向、投影中心を予測します。 このヘッドの補助検出損失は、パースペクティブ損失 Lpers として示され、バックボーン ネットワークの最適化を促進するために BEV 損失 Lbev を補完するものとして機能します。モデル全体のトレーニングには、全体的な目標があります。 PolarFormer は、BEVFormer の上に極座標を使用することを推奨しています。これは、各車載カメラがルート (非垂直) 軸を持つ画像ジオメトリに固有のくさび形で世界を認識するため、自車両の視点の性質をうまく説明できます。 |
<<: AIがメディア業界を変革、フェニックスTVがAIデータトラックに参入
>>: 旅の途中を超えて?文脈学習に基づく画像拡散モデルのトレーニング [Frontiers]
インド、米国、英国、オーストラリアに続き、エンドツーエンドの暗号化は欧州連合から厳しい監視を受けてい...
グリーンスクリーンは、映画やテレビドラマで画像を切り取ったり背景を変えたりするのに強力なツールですが...
悪意のある「バックドア」が埋め込まれたモデルが、何百万、何十億ものパラメータを持つモデルの中に、何者...
[[343495]] [51CTO.com クイック翻訳] 人工知能革命はまだ初期段階ですが、人工知...
[51CTO.com クイック翻訳]比較するためのより良い座標系がないため、人間がよく犯す間...
世界初の試験管ベビーは1978年に英国で誕生した。それ以来、人工生殖技術は継続的に改良されてきました...
AIGCの「風」は人々の生産と生活のあらゆる分野に吹き込み、巨大な市場チャンスももたらしました。 I...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[414979]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...
[[432777]]中国新聞社、北京、11月1日(記者:孫子発)中国国家知識産権局の沈長宇局長は1...
シンボリック AI は、ビジネスに関する洞察を解釈し、すべての目標の達成を支援します。多くの企業が基...