この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 前に書いた && 著者の個人的な理解現在、純粋なカメラに基づく自動運転用の3D認識アルゴリズムも、2Dターゲット検出の技術的ルートに応じて、後処理を含む認識アルゴリズムと後処理を必要としない認識アルゴリズム(エンドツーエンド)に分けることができます。 BEVDet などの高密度検出認識アルゴリズムは、3D ヘッドを使用して、BEV 機能の各単位グリッドに対応する認識結果を出力します。つまり、このような高密度検出の認識結果では、重複する検出フレームを抑制するために、3D NMS などの後処理操作を使用する必要があります。 ただし、2D ターゲット検出のエンドツーエンド方式と同様に、自動運転認識アルゴリズムにもクエリベースの検出アルゴリズムがあり、Transformer のデコーダー モジュールを使用して最終的な検出結果を直接出力し、NMS 後処理操作を排除します。 ただし、このタイプのクエリベースのアルゴリズム モデルの認識パフォーマンスは、BEV ベースの認識モデルに徐々に近づいているか、それを上回っています。しかし、著者らは、BEV ベースの認識アルゴリズムは、車体の周囲の前景領域または背景領域に対応する意味的特徴を出力するため、クエリベースの認識アルゴリズムよりも BEV ベースの認識アルゴリズムの方が全体的なシーンの理解に役立つと考えています。 同時に、著者は、BEV ベースのアルゴリズムが現在クエリ ベースのアルゴリズムより遅れをとっているのは、主に、より高度なネットワーク設計とトレーニング手法が不足しているためだと考えています。これに基づいて、著者は現在の古典的な BEV ベースのアルゴリズムを分析し、次の 3 つの欠点をまとめています。
上記の問題に基づいて、著者らはより高度な BEV ベースのアルゴリズム モデル、つまり BEV-NeXt を提案しました。 論文のarxivリンク: https://arxiv.org/pdf/2312.01696.pdf BEVNeXt アルゴリズムフローBEVNeXt は既存の LSS アルゴリズムに基づいて構築されています。 BEVNeXt アルゴリズム モデルの全体的なブロック図を以下に示します。 BEVNeXtアルゴリズムモデルの全体的なネットワーク構造 上の図からわかるように、BEVNeXt アルゴリズム モデルは主に、 BEV 生成モジュール、 BEV エンコーダーモジュール、検出ヘッドモジュールの 3 つのサブモジュールで構成されています。以下に各モジュールの機能と用途を紹介します。 BEV発電モジュールまず、ネットワーク モデルに入力される 6 つのサラウンド ビュー画像に対して、2D バックボーン ネットワークを使用して、入力されたサラウンド ビュー画像のマルチスケール特徴を抽出します。本論文で抽出されたマルチスケール特徴は、元の入力画像を4倍、8倍、16倍、32倍にダウンサンプリングした特徴結果です。 次に、バックボーン ネットワークによって抽出されたマルチスケール特徴は、深度推定ネットワーク Depth Net に送信され、離散深度確率分布を予測します。次に、本論文で提案されている条件付きランダムフィールド (CRF) を使用して、入力画像の色情報を使用して推定深度情報を変調し、変調された深度確率推定値を取得します。次に、CRF 変調サブモジュールがどのように実装されているかを見てみましょう。
最後に、View Transformer を使用して、抽出されたマルチスケール画像特徴と変調された離散深度確率値を組み合わせて、現在の時刻 T における最終的な BEV 特徴を構築します。 BEV エンコーダーモジュールこの論文で設計された BEV エンコーダー モジュールは、過去の K フレームから計算された履歴 BEV 特徴情報を融合するために使用されます。前述のように、時間的情報融合のプロセスでは、車両周囲の動きのターゲット特徴情報を取得するために、十分に大きな受容野が必要です。このプロセスは、論文で提案されているRes2Fusionサブネットワークを通じて実現されます。
Res2Fusionサブネットワーク全体のネットワーク構造 現在のフレームと、前の K モーメントの履歴 BEV 特徴情報については、まずすべての BEV 特徴がウィンドウ サイズをサイズとしてグループに分割されます。次に畳み込みを使用して、各特徴セットのチャネル数を削減します。これは次のように表すことができます。 チャネル数を削減した後、マルチスケール畳み込み演算を使用して特徴抽出を行い、モデルの受容野を拡大し、時系列情報をモデル化するモデルの能力を向上させます。この部分の数学的表現は次のとおりです。 検出ヘッドモジュール最後に、統合された BEV 機能は、センターベースの 3D 検出ヘッドを使用して処理され、最終的な 3D 認識結果が得られます。ただし、最終的な検出結果を生成するプロセスでは、CRF 変調深度推定サブモジュールによって取得された深度推定確率を使用して、モデルが異なる位置にあるターゲットの特徴を区別できるようにします。
実験著者らは、提案されたアルゴリズム モデルの有効性を nuScenes データセットで検証しました。表の結果から、BEVNeXt はさまざまな 2D バックボーンを使用した場合に優れた検出結果を達成することがわかります。 nuScenes valデータセットにおけるBEVNeXtアルゴリズムモデルの実験結果の比較 さらに、提案されたCRF変調深度推定ネットワークの効果をより直感的に示すために、この論文では、次の図に示すように、入力画像のいくつかのセットを視覚化しています。 条件付きランダムフィールドモジュールの視覚化効果の比較 視覚化結果から、CRF モジュールを使用した深度推定がより正確で、ターゲットのエッジがより鮮明で、前景と背景領域の区別がより明確であることが明確にわかり、提案された CRF モジュールの有効性が証明されています。 さらに、この論文では、視覚化を通じて提案された視点の洗練イノベーションの有効性も検証しています。 パースペクティブリファインメントモジュールの視覚化効果の比較 上記の視覚化結果から、大規模なターゲットと小規模なターゲットの両方が、提案された Perspective Refinement モジュールの恩恵を受けることができることが明確にわかります。同時に、さらなる改良により、モデルによる方向予測の精度も向上しました。 要約するクエリベースのアルゴリズムモデルの全体的な認識性能はBEVベースのアルゴリズムよりも優れていますが、著者はその理由を現在の高密度BEVベースの検出モデルのネットワーク構造とトレーニング戦略に帰しています。前述の関連する欠点に基づいて、この記事で紹介したBEVNeXtは、2Dモデリング機能、時系列情報の融合、および視点の洗練の観点からBEVベースのアルゴリズムモデルを強化します。この記事がお役に立てば幸いです。 オリジナルリンク: https://mp.weixin.qq.com/s/vPDCMSSW1bp0zZ2d73xYzg |
<<: DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA
>>: Quark App、健康検索をアップグレードし、健康モデルアプリ「Quark Health Assistant」をリリース
人工知能の時代におけるセキュリティ専門職は何かという問題は、徐々に人々が直面しなければならない問題に...
人工知能は常に人々に非常に高級感を与えます。人々に役立つものの意味と価値を理解する必要があります。 ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
第 3 世代のニューラル ネットワークとして知られるスパイキング ニューラル ネットワーク (SNN...
数学は科学の基礎として、常に研究と革新の重要な分野となってきました。最近、プリンストン大学と他の 7...
一般的に、大規模なモデルを事前トレーニングする場合、テキストの長さは固定されます。より長いテキストを...
GAN の高解像度画像を生成する能力は、画像合成および処理の分野に革命をもたらしています。 201...
動画生成AIが狂った!ランウェイとミッドジャーニーは、それぞれが究極の技を駆使して激しい戦いを繰り広...
ソフトロボット分野の研究者は、人間にとってより安全に操作できる新世代の機械を生み出すことを望んでおり...
こんにちは、ルガです。今日は、人工知能 (AI) エコシステムに関連するテクノロジーについて、Goo...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[227817]]画像出典: Visual Chinaカンニングは間違いなく長い歴史を持つ「科学...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
リッチー・リッチは、ハーヴェイ・コミックスに登場した最も有名なキャラクターの一人です。漫画を覚えてい...