この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と著者の個人的な要約鳥瞰図(BEV)検出は、複数のサラウンドビューカメラを融合した検出方法です。現在、ほとんどのアルゴリズムは同じデータセットでトレーニングおよび評価されているため、これらのアルゴリズムは変更されていないカメラの固有パラメータ (カメラの種類) と外部パラメータ (カメラの配置) に過剰適合してしまいます。本論文では、未知の領域における物体検出の問題を解決できる、暗黙的レンダリングに基づく BEV 検出フレームワークを提案します。このフレームワークは暗黙的なレンダリングを使用して、オブジェクトの 3D 位置と単一ビューの遠近位置の関係を確立し、遠近の偏差を修正するために使用できます。この方法は、ドメイン一般化 (DG) と教師なしドメイン適応 (UDA) において大幅なパフォーマンスの向上を実現します。この方法は、トレーニングに仮想データセットのみを使用して実際のシナリオで BEV 検出を評価する最初の方法であり、仮想と現実の間の障壁を打ち破り、クローズドループテストを完了することができます。
BEV検出ドメイン一般化問題の背景マルチカメラ検出とは、複数のカメラを使用して 3 次元空間内のオブジェクトを検出し、位置を特定するタスクを指します。マルチカメラ 3D オブジェクト検出では、異なる視点からの情報を組み合わせることで、特にオブジェクトが一部の視点で遮られていたり部分的に見えたりする場合に、より正確で堅牢なオブジェクト検出結果を提供できます。近年、鳥瞰図検出 (BEV) 方式は、マルチカメラ検出タスクで大きな注目を集めています。これらの方法はマルチカメラ情報の融合において利点がありますが、テスト環境がトレーニング環境と大きく異なる場合、パフォーマンスが大幅に低下する可能性があります。 現在、ほとんどの BEV 検出アルゴリズムは同じデータセットでトレーニングおよび評価されているため、これらのアルゴリズムは変更されていないカメラの内部および外部パラメータと都市の道路状況に過剰適合してしまいます。しかし、BEV 検出の実際のアプリケーションでは、さまざまな新しい車種や新しいカメラに適応するためのアルゴリズムが必要になることが多く、これらのアルゴリズムが失敗する原因となります。したがって、BEV 検出の一般化可能性を研究することは非常に重要です。さらに、自動運転の閉ループシミュレーションも非常に重要ですが、閉ループシミュレーションは現在、仮想エンジン(Carlaなど)でのみ評価できます。そのため、仮想エンジンと現実のシーン間のドメインの違いを打破することも必要です。 ドメイン一般化 (DG) と教師なしドメイン適応 (UDA) は、分布シフトを軽減するための 2 つの有望な方向性です。 DG メソッドは、多くの場合、ドメイン固有の機能を分離して排除し、それによって未知のドメインでの一般化パフォーマンスを向上させます。 UDA の場合、最近の手法では、疑似ラベルを生成したり、潜在的な特徴分布を調整したりすることでドメインシフトを軽減します。しかし、さまざまな視点、カメラ パラメーター、環境からのデータを使用せずに、純粋な視覚認識で視点や環境に依存しない特徴を学習することは非常に困難です。 観察によれば、図に示すように、単一のビュー (カメラ平面) からの 2D 検出は、複数のビューからの 3D オブジェクト検出よりも一般化が優れていることがよくあります。いくつかの研究では、2D 情報を 3D 検出器に融合したり、2D-3D の一貫性を確立したりするなど、2D 検出を BEV 検出に統合する方法が検討されています。 2D 情報融合は、メカニズム モデリング アプローチではなく学習ベースのアプローチであり、依然としてドメイン シフトの影響を大きく受けています。既存の 2D-3D 一貫性方法は、3D 結果を 2D 平面に投影し、一貫性を確立します。この制約は、ターゲット ドメインの幾何学的情報を変更するのではなく、ターゲット ドメイン内のセマンティック情報に悪影響を与える可能性があります。さらに、この 2D-3D 一貫性アプローチでは、すべての検出ヘッドに対する統一されたアプローチが困難になります。 本論文の貢献の要約
BEV検出ドメイン一般化問題の定義問題の定義この研究は主に、BEV 検出の一般化を強化することに焦点を当てています。この目標を達成するために、本論文では、広く使用されている 2 つのプロトコル、ドメイン一般化 (DG) と教師なしドメイン適応 (UDA) について説明します。 BEV 検出のドメイン一般化 (DG):既存のデータセット (ソース ドメイン) で BEV 検出アルゴリズムをトレーニングして、未知のデータセット (ターゲット ドメイン) での検出パフォーマンスを向上させます。たとえば、特定の車両またはシナリオ用の BEV 検出モデルをトレーニングすると、さまざまな車両やシナリオに直接一般化できます。 BEV 検出のための教師なしドメイン適応 (UDA):既存のデータセット (ソース ドメイン) で BEV 検出アルゴリズムをトレーニングし、ターゲット ドメインのラベルなしデータを活用して検出パフォーマンスを向上させます。たとえば、新しい車両や都市では、教師なしデータを収集するだけで、新しい車両や新しい環境でのモデルのパフォーマンスが向上します。 DG と UDA の唯一の違いは、対象ドメインのラベルなしデータを利用できるかどうかであることに注意してください。 視点偏差の定義物体の未知のL = [x, y, z]を検出するために、ほとんどのBEV検出には2つの重要なステップがあります: (1) 異なる視点から画像の特徴を取得する; (2) これらの画像の特徴をBEV空間に融合し、最終的な予測結果を取得する: 上記の式で説明したように、ドメイン偏差は特徴抽出段階または BEV 融合段階から発生する可能性があります。次に、この論文では付録で推論を行い、2D 結果に投影された最終的な 3D 予測結果の視野角偏差を取得しました。 ここで、k_u、b_u、k_v、b_v は BEV エンコーダのドメイン バイアスに関連し、d(u,v) はモデルの最終的な予測深度情報です。 c_u と c_v は、UV 画像平面上のカメラの光学中心の座標を表します。上記の式はいくつかの重要な推論を提供します: (1) 最終的な位置シフトの存在はビューバイアスにつながり、ビューバイアスを最適化するとドメインシフトを軽減できることがわかります。 (2)単一視野角撮像面上のカメラ光学中心光線上の点の位置も変化する。 直感的に言えば、ドメインシフトは BEV 特徴の位置を変更しますが、これはトレーニング データの限られた視点とカメラ パラメータによって引き起こされる過剰適合が原因です。この問題を緩和するには、ネットワークが視点や環境に依存しない特徴を学習できるように、BEV 特徴から新しいビュー画像を再レンダリングすることが重要です。これを踏まえて、本論文では、異なるレンダリング視点に関連する遠近法のバイアスに対処し、モデルの一般化能力を向上させることを目的としています。 PD-BEVアルゴリズムの詳細な説明PD-BEV は、図 1 に示すように、セマンティック レンダリング、ソース ドメイン デバイアス、ターゲット ドメイン デバイアスの 3 つの部分に分かれています。セマンティック レンダリングでは、BEV 機能を通じて 2D および 3D の視点の関係を確立する方法について説明します。ソース ドメインのバイアス除去は、ソース ドメインでのセマンティック レンダリングを通じてモデルの一般化能力を向上させる方法を説明します。ターゲット ドメインのバイアス除去とは、ターゲット ドメインでラベルなしデータを使用することで、セマンティック レンダリングを通じてモデルの一般化能力を向上させることを指します。 セマンティックレンダリング多くのアルゴリズムは BEV ボリュームの高さを 2 次元の特徴に平坦化するため、この部分では最初に BEV デコーダーを使用して BEV 特徴をボリュームにアップグレードします。 上記の式は実際に BEV 平面を改善し、高さの次元を追加します。次に、カメラの内部および外部パラメータを使用して、ボリュームを 2D 特徴マップにサンプリングします。この 2D 特徴マップとカメラの内部および外部パラメータは、RenderNet に送信され、対応する視野角のヒートマップとオブジェクト プロパティを予測します。このような Nerf のような操作を通じて、2D と 3D の間に橋を架けることができます。 ソースドメインのバイアス除去この部分では、ソース ドメインでのモデルの一般化パフォーマンスを向上させる方法について説明します。ビューのバイアスを減らすために、ソース ドメインの 3D ボックスを使用して、新しくレンダリングされたビューのヒートマップとプロパティを監視できます。さらに、正規化された深度情報も利用され、画像エンコーダが幾何学的情報をより適切に学習するのに役立ちます。 セマンティック監視の表示:セマンティック レンダリングに基づいて、ヒートマップと属性がさまざまな視点からレンダリングされます (RenderNet の出力)。同時に、カメラの内部パラメータと外部パラメータがランダムにサンプリングされ、これらの内部パラメータと外部パラメータを使用して、オブジェクトのボックスが 3D 座標から 2 次元カメラ平面に投影されます。次に、焦点損失と L1 損失を使用して、投影された 2D ボックスとレンダリングされた結果を制限します。 この操作により、カメラの内部および外部パラメータの過剰適合と新しい視点に対する堅牢性を軽減できます。この論文では、監視を RGB 画像からオブジェクト中心のヒートマップに変更し、無人運転の分野における Nerf の新しい視点の RGB 監視の欠如という欠点を回避できることは注目に値します。 幾何学的監視:明示的な深度情報を提供することで、マルチカメラ 3D オブジェクト検出のパフォーマンスを効果的に向上できます。ただし、ネットワークによって予測される深さは、固有のパラメータに過剰適合する傾向があります。したがって、この論文では仮想深度アプローチを借用します。 ここで、BCE() はバイナリクロスエントロピー損失を表し、D_{pre} は DepthNet の予測深度を表します。 f_u と f_v はそれぞれ画像平面の u 焦点距離と v 焦点距離であり、U は定数です。ここでの深度は、ポイント クラウドではなく、3D ボックスによって提供される前景の深度情報を使用することに注意してください。そうすることで、DepthNet は前景オブジェクトの深度に重点を置く可能性が高くなります。最後に、実際の深度情報を使用してセマンティック フィーチャが BEV 平面に持ち上げられると、仮想深度が実際の深度に変換されます。 ターゲットドメインのバイアス除去ターゲット ドメインには注釈がないため、3D ボックス監視を使用してモデルの一般化能力を向上させることはできません。したがって、この論文では、2D 検出の結果は 3D 結果よりも堅牢であると述べています。そこでこの論文では、レンダリングされたビューの監視としてソースドメインで事前トレーニング済みの 2D 検出器を使用し、疑似ラベル メカニズムも使用します。 この操作では、正確な 2D 検出を効果的に利用して、ターゲット ドメインの教師なし正規化である BEV 空間内の前景オブジェクトの位置を修正できます。 2D 予測の修正機能をさらに強化するために、疑似方法を使用して予測ヒートマップの信頼性を高めます。この論文では、3.2 で数学的な証明を示し、補足資料では 3D 結果における 2D 投影エラーの理由を説明します。なぜこのようにバイアスを除去できるのかについての説明もあります。詳しくは原著論文を参照してください。 全体監督この論文ではトレーニングを支援するためにいくつかのネットワークを追加しましたが、これらのネットワークは推論時には必要ありません。言い換えれば、私たちの方法は、視点に依存しない特徴を学習するためのほとんどの BEV 検出方法に適用できます。フレームワークの有効性をテストするために、BEVDepth が評価オブジェクトとしてインスタンス化されます。 BEVDepth の元の損失は、ソース ドメインで主な 3D 検出監視として使用されます。要約すると、アルゴリズムの最終的な損失は次のようになります。 クロスドメイン実験結果表 1 は、ドメイン一般化 (DG) プロトコルと教師なしドメイン適応 (UDA) プロトコルにおけるさまざまな方法のパフォーマンスの比較を示しています。これらのうち、Target-Free は DG プロトコルを代表し、Pseudo Label、Coral、AD は UDA プロトコル上の一般的な方法です。グラフでは、私たちの方法はターゲット領域で大幅な改善を達成しています。これは、セマンティック レンダリングが、ドメイン シフトに対して視点不変の特徴を学習するのに役立つブリッジとして機能することを示しています。さらに、私たちの方法はソースドメインのパフォーマンスを犠牲にせず、ほとんどの場合でいくらかの改善を達成します。 DeepAccident は Carla 仮想エンジンから派生したものであり、アルゴリズムは DeepAccident でのトレーニングを通じて十分な一般化機能も獲得していることは特筆に値します。さらに、他の BEV 検出方法もテストされましたが、特別な設計なしでは一般化のパフォーマンスは非常に低いものでした。ターゲットドメインのないデータセットをさらに検証するために、UDAベンチマークも確立され、UDAラベル(サンゴ、ADを含む)がDG-BEVに適用されますオリスムは、ソースドメインのパフォーマンスを分解する傾向があり、このペーパーの方法は比較的穏やかですいくつかの比較的優れたターゲットドメインに対する信頼性を高めることにより、モデルの一般化パフォーマンスを改善できますが、ターゲットドメインの信頼性を高めることで、実験結果はアルゴリズムがDGとUDAの大幅なパフォーマンスの改善を達成したことを証明します。 表 2 は、アルゴリズムの 3 つの主要コンポーネントである 2D 検出器事前トレーニング (DPT)、ソース ドメイン デバイアス (SDB)、およびターゲット ドメイン デバイアス (TDB) に関するアブレーション実験の結果を示しています。実験結果では、各コンポーネントが改善を達成したことが示されており、その中でも SDB と TDB は比較的顕著な効果を示しています。 表 3 は、アルゴリズムを BEVFormer および FB-OCC アルゴリズムに移行できることを示しています。このアルゴリズムでは、画像特徴と BEV 特徴に追加操作を追加するだけで済むため、BEV 特徴を使用してアルゴリズムを改善できます。 図 5 は検出されたラベルのないオブジェクトを示しています。最初の行はラベルの 3D ボックスで、2 行目はアルゴリズムの検出結果です。青いボックスは、アルゴリズムがラベルのないボックスをいくつか検出できることを示しています。これは、私たちの方法が、遠すぎる車両や道路脇の建物内の車両など、ターゲット領域内のラベルのないサンプルも検出できることを示しています。 要約する本論文では、未知の領域における物体検出の問題を解決できる、遠近法のバイアス除去に基づく一般的なマルチカメラ 3D 物体検出フレームワークを提案します。このフレームワークは、3D 検出結果を 2D カメラ平面に投影し、遠近法のバイアスを補正することで、一貫性のある正確な検出を実現します。さらに、このフレームワークでは、さまざまな視点から画像をレンダリングすることでモデルの堅牢性を高めるための視点デバイアス戦略も導入されています。実験結果は、私たちの方法がドメインの一般化と教師なしドメイン適応において大幅なパフォーマンスの向上を達成することを示しています。さらに、この方法は、実際のシーンの注釈を必要とせずに仮想データセットでトレーニングすることもできるため、リアルタイムアプリケーションと大規模な展開が容易になります。これらのハイライトは、マルチカメラ 3D オブジェクト検出に対処する際のこのアプローチの課題と可能性を示しています。この論文では、ラベル付きソースドメインデータとラベルなしターゲットドメインデータを活用しながら、Nerf のアイデアを使用して BEV の一般化能力を向上させることを試みます。さらに、自動運転閉ループに潜在的な価値を持つ Sim2Real の実験パラダイムが試されました。質的にも量的にも非常に良い結果が得られており、オープンソース コードは一見の価値があります。 オリジナルリンク: https://mp.weixin.qq.com/s/GRLu_JW6qZ_nQ9sLiE0p2g |
<<: BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション
>>: LangChain と Redis が協力して何かを実現しています!財務文書分析の精度を向上させるツールを作成する
インテリジェントエージェントは人工知能分野の主要な研究テーマであり、非身体型知能と身体型知能に分けら...
サイエンス フィクションの世界では、デジタル ツインの概念は長い間定番であり、作家たちは、人間が操作...
人工知能 (AI) の台頭とさまざまな業界への統合の増加に伴い、プロジェクト管理も進化しています。 ...
我が国は、新たな科学技術革命と産業変革の機会を捉えるため、近年、新世代の人工知能の開発に力を入れてい...
Lattix は最近、インフラストラクチャ管理ソフトウェアのバージョン 5.0 をリリースしました。...
パンデミック中にどうやって髪を切っていますか?どうやって見た目を維持していますか?多くの人がオンライ...
2021年全国二会議において、中国人民政治協商会議全国委員会委員でPCIテクノロジー会長の劉偉氏は...
世界的なCOVID-19危機は依然として猛威を振るっていますが、一部の組織はすでに将来のパンデミック...
2019 年 2 月、チューリング賞受賞者のジョン L. ヘネシー氏とデビッド A. パターソン氏は...
他人に代わって借金を回収する「プロの債権回収業者」というと、恐ろしいイメージを抱く人も多いだろう。 ...
「将来、AIとは何の関係もないと主張する企業はなくなるだろう」これは、2018年の世界人工知能会議で...
人工知能は、特に過去 10 年間で急速に発展しました。人工知能の分野は、自然言語処理、コンピューター...