ストリームPETRを超えて！ BEVNeXt: 高密度 BEV 認識のための新しいフレームワーク

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

前に書いた && 著者の個人的な理解

現在、純粋なカメラに基づく自動運転用の3D認識アルゴリズムも、2Dターゲット検出の技術的ルートに応じて、後処理を含む認識アルゴリズムと後処理を必要としない認識アルゴリズム（エンドツーエンド）に分けることができます。

BEVDet などの高密度検出認識アルゴリズムは、3D ヘッドを使用して、BEV 機能の各単位グリッドに対応する認識結果を出力します。つまり、このような高密度検出の認識結果では、重複する検出フレームを抑制するために、3D NMS などの後処理操作を使用する必要があります。

ただし、2D ターゲット検出のエンドツーエンド方式と同様に、自動運転認識アルゴリズムにもクエリベースの検出アルゴリズムがあり、Transformer のデコーダーモジュールを使用して最終的な検出結果を直接出力し、NMS 後処理操作を排除します。

ただし、このタイプのクエリベースのアルゴリズムモデルの認識パフォーマンスは、BEV ベースの認識モデルに徐々に近づいているか、それを上回っています。しかし、著者らは、BEV ベースの認識アルゴリズムは、車体の周囲の前景領域または背景領域に対応する意味的特徴を出力するため、クエリベースの認識アルゴリズムよりも BEV ベースの認識アルゴリズムの方が全体的なシーンの理解に役立つと考えています。

同時に、著者は、BEV ベースのアルゴリズムが現在クエリベースのアルゴリズムより遅れをとっているのは、主に、より高度なネットワーク設計とトレーニング手法が不足しているためだと考えています。これに基づいて、著者は現在の古典的な BEV ベースのアルゴリズムを分析し、次の 3 つの欠点をまとめています。

2D モデリングだけでは不十分<br>BEV ベースの認識アルゴリズムでは、モデルの 2D モデリング機能を向上させるために、通常、LIDAR によって収集されたポイントクラウド信号によって監視される深度推定ネットワークが使用されます。ただし、収集されたポイントクラウド信号は、LIDAR の解像度によって大きく制限されるため、モデルの奥行きの認識が不正確になり、モデルの認識パフォーマンスに影響を及ぼします。
タイミングモデリング機能はまだ比較的貧弱です<br>現在、BEV フレームワークに基づく認識アルゴリズムのタイミングモデリング機能はまだ比較的限られていますが、タイミング情報の理解は自動運転認識アルゴリズムの非常に重要な部分です。時系列モデリングのプロセスでは、車両と周囲の物体が絶えず動いている場合、時系列情報の融合のために大きな受容野を確立することが重要です。
投影変換における特徴の歪み<br>BEV ベースのアルゴリズムでは、異なる座標系間の座標変換中、または特徴マップ解像度の変換中に、特徴マップの歪みが非常に発生しやすくなります。特徴歪みの問題は、自動運転の知覚性能に大きな影響を与えます。

上記の問題に基づいて、著者らはより高度な BEV ベースのアルゴリズムモデル、つまり BEV-NeXt を提案しました。

論文のarxivリンク: https://arxiv.org/pdf/2312.01696.pdf

BEVNeXt アルゴリズムフロー

BEVNeXt は既存の LSS アルゴリズムに基づいて構築されています。 BEVNeXt アルゴリズムモデルの全体的なブロック図を以下に示します。

BEVNeXtアルゴリズムモデルの全体的なネットワーク構造

上の図からわかるように、BEVNeXt アルゴリズムモデルは主に、 BEV 生成モジュール、 BEV エンコーダーモジュール、検出ヘッドモジュールの 3 つのサブモジュールで構成されています。以下に各モジュールの機能と用途を紹介します。

BEV発電モジュール

まず、ネットワークモデルに入力される 6 つのサラウンドビュー画像に対して、2D バックボーンネットワークを使用して、入力されたサラウンドビュー画像のマルチスケール特徴を抽出します。本論文で抽出されたマルチスケール特徴は、元の入力画像を4倍、8倍、16倍、32倍にダウンサンプリングした特徴結果です。

次に、バックボーンネットワークによって抽出されたマルチスケール特徴は、深度推定ネットワーク Depth Net に送信され、離散深度確率分布を予測します。次に、本論文で提案されている条件付きランダムフィールド (CRF) を使用して、入力画像の色情報を使用して推定深度情報を変調し、変調された深度確率推定値を取得します。次に、CRF 変調サブモジュールがどのように実装されているかを見てみましょう。

BEV ベースの認識アルゴリズムでは、 CRF 変調深度推定サブモジュールがオブジェクトの深度情報を推定し、モデルの 2D モデリング機能を向上させることができます。この論文では、2D モデリング機能の向上により、BEV 機能の構築プロセスにおけるモデルの歪みの問題を軽減できることを指摘しています。
したがって、純粋に視覚的な知覚タスクの場合、正確で高精度の深度推定を取得することは、モデルの位置決め能力にとって非常に役立ちます。したがって、この論文では深度推定をセマンティックセグメンテーションタスクと見なし、条件付きランダムフィールド (CRF) を使用してモデルの深度推定機能を強化します。
具体的には、この論文では、色平滑化法を適用して深度推定を調整し、それによって 2D 深度推定の欠点を軽減し、ピクセルレベルで深度一貫性機能を実現することを目指しています。
仮定含まれるダウンサンプリングされた特徴マップを表すピクセル、推定の必要性を表す離散深度情報。深度推定ネットワークの目的は、各ピクセル値に対応する離散深度を割り当てることであり、数学的には次のように表現できる。。したがって、最適化すべき最終目標は、対応するエネルギーコストを最小限に抑えることです。コストの計算式は次のように計算されます。
深度推定ネットワークの初期出力のコスト損失を測定するために使用されます。具体的な測定式は次のとおりです。
で、そして画像ブロックの平均RGBカラーピクセル値を表します。 2 つの個別の深度グリッド間のラベルの互換性を表します。これは、現実世界での実際の距離を測定するために使用されます。

最後に、View Transformer を使用して、抽出されたマルチスケール画像特徴と変調された離散深度確率値を組み合わせて、現在の時刻 T における最終的な BEV 特徴を構築します。

BEV エンコーダーモジュール

この論文で設計された BEV エンコーダーモジュールは、過去の K フレームから計算された履歴 BEV 特徴情報を融合するために使用されます。前述のように、時間的情報融合のプロセスでは、車両周囲の動きのターゲット特徴情報を取得するために、十分に大きな受容野が必要です。このプロセスは、論文で提案されているRes2Fusionサブネットワークを通じて実現されます。

Res2Fusionサブネットワークの作成者は、現在の瞬間の BEV 特徴と履歴フレームの BEV 特徴を融合することで、モデルの動的オブジェクトの認識を改善できると考えています。しかし、BEV 空間でモデルの受容野を拡大することは非常に困難です。畳み込みカーネルのサイズを単純に拡大すると、モデルの計算の複雑さが増すだけでなく、モデルの過剰適合のリスクも高まります。
この目的のために、この論文ではRes2Fusionサブネットワークを提案しており、そのネットワーク構造を下図に示します。

Res2Fusionサブネットワーク全体のネットワーク構造

現在のフレームと、前の K モーメントの履歴 BEV 特徴情報については、まずすべての BEV 特徴がウィンドウサイズをサイズとしてグループに分割されます。次に畳み込みを使用して、各特徴セットのチャネル数を削減します。これは次のように表すことができます。

チャネル数を削減した後、マルチスケール畳み込み演算を使用して特徴抽出を行い、モデルの受容野を拡大し、時系列情報をモデル化するモデルの能力を向上させます。この部分の数学的表現は次のとおりです。

検出ヘッドモジュール

最後に、統合された BEV 機能は、センターベースの 3D 検出ヘッドを使用して処理され、最終的な 3D 認識結果が得られます。ただし、最終的な検出結果を生成するプロセスでは、CRF 変調深度推定サブモジュールによって取得された深度推定確率を使用して、モデルが異なる位置にあるターゲットの特徴を区別できるようにします。

視点の洗練
前述したように、座標変換関係を使用して 2D 画像の特徴を 3D 空間に変換すると、特徴の歪みが発生します。そこで本論文では、著者は遠近法の改良法を用いて前景領域の特徴を揃えます。
具体的には、CenterPointの3D検出ヘッドを使用してターゲットの中心位置を取得し、学習可能なクエリのセットを使用した近隣のサイズの範囲遠近法の洗練のプロセスは、変形可能な注意を使用して実現されます。深度情報のガイダンスをさらに導入するために、この論文では、CRF 変調サブネットワークで推定された深度情報を 2D 画像の特徴に埋め込みます。具体的な式は次のとおりです。変形可能な畳み込み演算を表す。ポイントを高いところまで持ち上げる参照ポイントのセット。

実験

著者らは、提案されたアルゴリズムモデルの有効性を nuScenes データセットで検証しました。表の結果から、BEVNeXt はさまざまな 2D バックボーンを使用した場合に優れた検出結果を達成することがわかります。

nuScenes valデータセットにおけるBEVNeXtアルゴリズムモデルの実験結果の比較

さらに、提案されたCRF変調深度推定ネットワークの効果をより直感的に示すために、この論文では、次の図に示すように、入力画像のいくつかのセットを視覚化しています。

条件付きランダムフィールドモジュールの視覚化効果の比較

視覚化結果から、CRF モジュールを使用した深度推定がより正確で、ターゲットのエッジがより鮮明で、前景と背景領域の区別がより明確であることが明確にわかり、提案された CRF モジュールの有効性が証明されています。

さらに、この論文では、視覚化を通じて提案された視点の洗練イノベーションの有効性も検証しています。

パースペクティブリファインメントモジュールの視覚化効果の比較

上記の視覚化結果から、大規模なターゲットと小規模なターゲットの両方が、提案された Perspective Refinement モジュールの恩恵を受けることができることが明確にわかります。同時に、さらなる改良により、モデルによる方向予測の精度も向上しました。

要約する

クエリベースのアルゴリズムモデルの全体的な認識性能はBEVベースのアルゴリズムよりも優れていますが、著者はその理由を現在の高密度BEVベースの検出モデルのネットワーク構造とトレーニング戦略に帰しています。前述の関連する欠点に基づいて、この記事で紹介したBEVNeXtは、2Dモデリング機能、時系列情報の融合、および視点の洗練の観点からBEVベースのアルゴリズムモデルを強化します。この記事がお役に立てば幸いです。

オリジナルリンク: https://mp.weixin.qq.com/s/vPDCMSSW1bp0zZ2d73xYzg

<<: DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA

>>: Quark App、健康検索をアップグレードし、健康モデルアプリ「Quark Health Assistant」をリリース