BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

今日は、3D 視覚認識の分野における特定の問題、つまり純粋視覚鳥瞰図 (BEV) の教師なし領域適応 (UDA) についてお話ししたいと思います。 3D視覚認識は、移動ロボット、自律運転、仮想現実などの分野で重要な役割を果たしています。近年、純粋な視覚BEVモデルは、包括的な3D理解、豊富なセマンティック情報、高い計算効率、低い展開コストなどの利点により、ますます注目を集めています。

研究背景としては、単眼およびライダーベースの 3D 認識が大きく進歩したにもかかわらず、ソースドメイン (トレーニングデータの環境など) でトレーニングされた純粋な視覚 BEV モデルをターゲットドメイン (トレーニングデータとは異なる新しい環境など) に適用すると、通常、パフォーマンスが大幅に低下します。このパフォーマンスの低下は、主にソースドメインとターゲットドメイン間の大きな違いが原因です。

この論文で提起された問題は、教師なしドメイン適応は 2D コンピュータービジョンタスクでは広く研究されているものの、純粋な視覚 BEV 認識の場合、ソースドメインとターゲットドメインの差をどのように減らすかが非常に困難であり、比較的研究が進んでいない問題であるということです。

この問題に対処するために、この論文では、純粋な視覚 BEV 認識のための最初のドメイン適応型フレームワークである DA-BEV と呼ばれる新しいフレームワークを提案しています。 DA-BEV は、画像ビュー機能と BEV 機能の相補性を活用して、BEV におけるドメイン適応の課題に対処します。具体的には、このフレームワークは、学習可能なクエリを導入し、それらをドメイン間で適応させることにより、画像ビュー機能と BEV 機能間の相互作用を促進します。このプロセスでは、BEV 機能のグローバル 3D 情報は画像ビュー機能の適応に役立ちますが、画像ビュー機能の変化の少ない 2D 情報は BEV 機能の適応に役立ちます。

DA-BEV の設計には、クエリベースの敵対的学習 (QAL) とクエリベースの自己トレーニング (QST) という 2 つのクエリベースのドメイン適応手法が含まれています。これら 2 つの設計は互いに補完し合い、共同で効果的な教師なし BEV 認識適応を実現します。

この論文の主な貢献は 3 つの側面にあります。まず、画像ビュー機能と BEV 機能の相補性を活用し、教師なし BEV 対応適応に適したクエリベースのドメイン適応戦略を提案します。次に、クエリベースの敵対的学習とクエリベースの自己トレーニングを導入するフレームワークである DA-BEV を設計し、ドメイン適応型 BEV 認識の問題を効果的に共同で解決します。最後に、広範囲にわたる実験を通じて、DA-BEV は、3D オブジェクトの検出や 3D シーンのセグメンテーションなど、さまざまなデータセットやタスクにおける BEV 知覚適応において優れたパフォーマンスを発揮します。

DA-BEVの詳細

DA-BEVの全体フレームワーク

DA-BEV フレームワークは、画像ビュー機能と BEV 機能の相補性を活用して、BEV 分野におけるドメイン適応の課題に対処します。学習可能なクエリを導入することで、画像ビュー機能と BEV 機能間の相互作用とそれらの協調適応を可能にする、クエリベースのドメイン適応方法を設計します。直感的には、BEV 機能のグローバル 3D 情報は画像ビュー機能の適応に役立ちますが、画像ビュー機能のローカル 2D 情報はドメイン変動が小さいため、BEV 機能の適応に役立ちます。この概念に基づいて、この論文では、クエリベースの敵対的学習 (QAL) とクエリベースの自己トレーニング (QST) という 2 つのクエリベースのドメイン適応テクノロジを設計しています。

DA-BEV フレームワークでは、画像ビュー機能におけるドメインの違いを少なくキャプチャするために、画像ビュー機能デコーダーが導入されています。、学習可能な画像ビュークエリのセット。画像表示クエリ画像表示機能それらの相互作用により、画像ビュークエリ機能が生成される。これは次のように表現できます。

次に、クエリ機能各オブジェクトカテゴリの確率を予測するために、マルチラベル分類ヘッドに入力します。トレーニングは、次のようにマルチラベル分類損失関数を使用して実行されます。

で、画像ビューのマルチラベル分類注釈を表します。

BEVフィーチャのグローバル3D情報をキャプチャするために、既存のBEVクエリを直接使用します。これらのクエリはBEV機能と相互作用してデコードされたBEVクエリ機能を生成する。。 BEV機能はカメラの設定をエンコードするため、 3Dオブジェクト注釈でトレーニングされているため、デコードされたBEVクエリ機能は 3D BEV 空間内のオブジェクトの位置など、豊富なグローバル 3D 情報が含まれています。これは、BEV 空間でグローバル 3D 情報をほとんどキャプチャしない画像表示機能に適応するのに役立ちます。

クエリベースの敵対的学習 (QAL)

クエリベースの敵対的学習（QAL）では、提案された方法は、画像ビュー特徴またはBEV特徴のクエリから得られた有用な情報を利用して、対戦相手の敵対的学習を正規化します。具体的には、QAL は 2 つのドメイン分類器を使用して、それぞれ画像ビュークエリ機能と BEV クエリ機能のドメイン間距離を測定し、測定されたドメイン間距離を使用して相互に正規化します。

QAL の鍵は、画像ビュー機能のローカル 2D 情報と BEV 機能のグローバル 3D 情報の間のドメイン間不一致を同時に軽減することにあります。これらはどちらも、3D 空間でオブジェクトと背景を特定して識別するために重要です。さらに、2D 画像ビュークエリ機能の敵対的学習には 3D 情報が少なくなりますが、BEV クエリ機能は豊富なグローバル 3D 情報を提供することで、3D 情報を効果的に正規化できます。

具体的には、ドメイン分類器そしてこれは、2D 画像ビューと 3D BEV 機能間のドメイン間距離を測定するために使用されます。 QAL の相互正規化は、次の損失関数として定式化できます。

でクロスドメインアライメントに広く採用されている敵対的学習損失関数です。

クエリベースの自己トレーニング (QST)

クエリベースの自己トレーニング (QST) では、提案された方法は、画像ビュー機能と BEV 機能のクエリから取得された有用な情報を活用して、自己トレーニングを正規化します。直感的に言えば、デコードされた画像ビュークエリ機能は、ドメイン間の相違が少ない豊富な 2D セマンティック情報と位置情報をキャプチャし、デコードされた BEV クエリ機能は、BEV 空間内の豊富なグローバル 3D 情報をキャプチャします。したがって、これら 2 つの機能は互いに補完し合い、共同で効果的に自己トレーニングを規則化します。

QST は、まず画像ビューまたは BEV 機能のいずれかからの予測を利用して、もう一方の予測のノイズを除去します。 QST は、ノイズ除去された予測を蓄積することでグローバルカテゴリ分布を取得し、さらにそれを活用して疑似ラベル生成を容易にします。生成擬似ラベル付け法には、次の 3 つの特徴があります。1) しきい値は、画像ビューと BEV 機能によってキャプチャされた 2D および 3D 情報に基づいて動的に決定されます。2) クラスごとに同じ割合の擬似ラベルを選択することで、クラスの不均衡の問題を軽減します。3) オンラインであり、追加の推論ラウンドを必要としません。

QST のトレーニング損失は次のように表されます。

全体的な目標

要約すると、提案された DA-BEV の全体的なトレーニング目標は次の式で表すことができます。

で

この目標は、画像ビュー機能と BEV 機能の敵対的学習と自己トレーニングを組み合わせて、クロスドメイン適応を実現することです。

話し合う

本論文で提案された DA-BEV 法は、クロスドメイン 3D オブジェクト検出タスク、特にさまざまな照明や気象条件下でのシーン適応問題の処理において大きな利点を示します。クエリベースの自己トレーニングと敵対的学習を導入することで、DA-BEV は画像ビューと BEV 機能間の補完性を効果的に活用し、ターゲットドメインでのモデルのパフォーマンスを向上させることができます。これは、照明の変化が知覚システムに大きな影響を与えるため、昼から夜への変化など、気象条件に応じた適応タスクにおいて特に重要です。

定性分析により、DA-BEV は複数のカメラビュー内のオブジェクトを正確に識別して位置を特定し、鳥瞰図で 3D シーンを正確に再構築できることが示されました。この機能は、さまざまな環境条件下で周囲の環境を正確に認識する必要がある自動運転やロボットナビゲーションなどの実用的なアプリケーションにとって非常に重要です。さらに、この方法はさまざまなネットワークスケルトンに対して優れた一般化能力を示しており、さまざまなネットワークアーキテクチャと統合して既存のシステムの適応性を向上させることができます。

ただし、DA-BEV 方式にも限界があります。たとえば、トレーラーや建設車両などの特定のカテゴリではパフォーマンスがまだ限られています。これは、これらのカテゴリがデータセット内であまり表現されていないか、さまざまな照明条件下で外観が大きく異なるためと考えられます。さらに、定性的な結果は印象的ですが、鳥瞰図にはまだいくつかのエラーがあり、複雑なシーンに対するモデルの理解にはまだ改善の余地があることを示唆しています。

結論は

本稿では、画像ビュー機能と BEV 機能の相補性を活用してドメイン適応型 BEV の課題に対処する、初のドメイン適応型ビジョン専用 BEV フレームワークである DA-BEV を提案します。 DA-BEV は、クエリベースの敵対的学習 (QAL) とクエリベースの自己トレーニング (QST) を導入します。QAL/QST は、画像ビュー機能または BEV 機能のクエリから取得された有用な情報を活用して、もう一方の敵対的学習を正規化します。広範囲にわたる実験により、さまざまなデータセットとタスクにおける DA-BEV の優れたドメイン適応型 BEV 認識パフォーマンスが実証されています。今後は、時間情報を導入することで、画像ビューと BEV 機能の相補性をさらに探求していきます。、

オリジナルリンク: https://mp.weixin.qq.com/s/GSB8DX2VX6ROh6c-juRgMA

<<: PyTorch を使って完全な NeRF をゼロから構築する

>>: LLaVA: GPT-4V(ision) のオープンソース代替品