BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

今日は、3D 視覚認識の分野における特定の問題、つまり純粋視覚鳥瞰図 (BEV) の教師なし領域適応 (UDA) についてお話ししたいと思います。 3D視覚認識は、移動ロボット、自律運転、仮想現実などの分野で重要な役割を果たしています。近年、純粋な視覚BEVモデルは、包括的な3D理解、豊富なセマンティック情報、高い計算効率、低い展開コストなどの利点により、ますます注目を集めています。

研究背景としては、単眼およびライダーベースの 3D 認識が大きく進歩したにもかかわらず、ソース ドメイン (トレーニング データの環境など) でトレーニングされた純粋な視覚 BEV モデルをターゲット ドメイン (トレーニング データとは異なる新しい環境など) に適用すると、通常、パフォーマンスが大幅に低下します。このパフォーマンスの低下は、主にソース ドメインとターゲット ドメイン間の大きな違いが原因です。

この論文で提起された問題は、教師なしドメイン適応は 2D コンピューター ビジョン タスクでは広く研究されているものの、純粋な視覚 BEV 認識の場合、ソース ドメインとターゲット ドメインの差をどのように減らすかが非常に困難であり、比較的研究が進んでいない問題であるということです。

この問題に対処するために、この論文では、純粋な視覚 BEV 認識のための最初のドメイン適応型フレームワークである DA-BEV と呼ばれる新しいフレームワークを提案しています。 DA-BEV は、画像ビュー機能と BEV 機能の相補性を活用して、BEV におけるドメイン適応の課題に対処します。具体的には、このフレームワークは、学習可能なクエリを導入し、それらをドメイン間で適応させることにより、画像ビュー機能と BEV 機能間の相互作用を促進します。このプロセスでは、BEV 機能のグローバル 3D 情報は画像ビュー機能の適応に役立ちますが、画像ビュー機能の変化の少ない 2D 情報は BEV 機能の適応に役立ちます。

DA-BEV の設計には、クエリベースの敵対的学習 (QAL) とクエリベースの自己トレーニング (QST) という 2 つのクエリベースのドメイン適応手法が含まれています。これら 2 つの設計は互いに補完し合い、共同で効果的な教師なし BEV 認識適応を実現します。

この論文の主な貢献は 3 つの側面にあります。まず、画像ビュー機能と BEV 機能の相補性を活用し、教師なし BEV 対応適応に適したクエリベースのドメイン適応戦略を提案します。次に、クエリベースの敵対的学習とクエリベースの自己トレーニングを導入するフレームワークである DA-BEV を設計し、ドメイン適応型 BEV 認識の問題を効果的に共同で解決します。最後に、広範囲にわたる実験を通じて、DA-BEV は、3D オブジェクトの検出や 3D シーンのセグメンテーションなど、さまざまなデータセットやタスクにおける BEV 知覚適応において優れたパフォーマンスを発揮します。

DA-BEVの詳細

DA-BEVの全体フレームワーク

DA-BEV フレームワークは、画像ビュー機能と BEV 機能の相補性を活用して、BEV 分野におけるドメイン適応の課題に対処します。学習可能なクエリを導入することで、画像ビュー機能と BEV 機能間の相互作用とそれらの協調適応を可能にする、クエリベースのドメイン適応方法を設計します。直感的には、BEV 機能のグローバル 3D 情報は画像ビュー機能の適応に役立ちますが、画像ビュー機能のローカル 2D 情報はドメイン変動が小さいため、BEV 機能の適応に役立ちます。この概念に基づいて、この論文では、クエリベースの敵対的学習 (QAL) とクエリベースの自己トレーニング (QST) という 2 つのクエリベースのドメイン適応テクノロジを設計しています。

DA-BEV フレームワークでは、画像ビュー機能におけるドメインの違いを少なくキャプチャするために、画像ビュー機能デコーダーが導入されています。   、学習可能な画像ビュークエリのセット  。画像表示クエリ  画像表示機能  それらの相互作用により、画像ビュークエリ機能が生成される。  これは次のように表現できます。

次に、クエリ機能  各オブジェクト カテゴリの確率を予測するために、マルチラベル分類ヘッドに入力します。トレーニングは、次のようにマルチラベル分類損失関数を使用して実行されます。

で、  画像ビューのマルチラベル分類注釈を表します。

BEVフィーチャのグローバル3D情報をキャプチャするために、既存のBEVクエリを直接使用します。  これらのクエリはBEV機能と相互作用してデコードされたBEVクエリ機能を生成する。   。 BEV機能はカメラの設定をエンコードするため、    3Dオブジェクト注釈でトレーニングされているため、デコードされたBEVクエリ機能は   3D BEV 空間内のオブジェクトの位置など、豊富なグローバル 3D 情報が含まれています。これは、BEV 空間でグローバル 3D 情報をほとんどキャプチャしない画像表示機能に適応するのに役立ちます。

クエリベースの敵対的学習 (QAL)

クエリベースの敵対的学習(QAL)では、提案された方法は、画像ビュー特徴またはBEV特徴のクエリから得られた有用な情報を利用して、対戦相手の敵対的学習を正規化します。具体的には、QAL は 2 つのドメイン分類器を使用して、それぞれ画像ビュー クエリ機能と BEV クエリ機能のドメイン間距離を測定し、測定されたドメイン間距離を使用して相互に正規化します。

QAL の鍵は、画像ビュー機能のローカル 2D 情報と BEV 機能のグローバル 3D 情報の間のドメイン間不一致を同時に軽減することにあります。これらはどちらも、3D 空間でオブジェクトと背景を特定して識別するために重要です。さらに、2D 画像ビュー クエリ機能の敵対的学習には 3D 情報が少なくなりますが、BEV クエリ機能は豊富なグローバル 3D 情報を提供することで、3D 情報を効果的に正規化できます。

具体的には、ドメイン分類器  そして  これは、2D 画像ビューと 3D BEV 機能間のドメイン間距離を測定するために使用されます。 QAL の相互正規化は、次の損失関数として定式化できます。

  クロスドメインアライメントに広く採用されている敵対的学習損失関数です。

クエリベースの自己トレーニング (QST)

クエリベースの自己トレーニング (QST) では、提案された方法は、画像ビュー機能と BEV 機能のクエリから取得された有用な情報を活用して、自己トレーニングを正規化します。直感的に言えば、デコードされた画像ビュー クエリ機能は、ドメイン間の相違が少ない豊富な 2D セマンティック情報と位置情報をキャプチャし、デコードされた BEV クエリ機能は、BEV 空間内の豊富なグローバル 3D 情報をキャプチャします。したがって、これら 2 つの機能は互いに補完し合い、共同で効果的に自己トレーニングを規則化します。

QST は、まず画像ビューまたは BEV 機能のいずれかからの予測を利用して、もう一方の予測のノイズを除去します。 QST は、ノイズ除去された予測を蓄積することでグローバル カテゴリ分布を取得し、さらにそれを活用して疑似ラベル生成を容易にします。生成擬似ラベル付け法には、次の 3 つの特徴があります。1) しきい値は、画像ビューと BEV 機能によってキャプチャされた 2D および 3D 情報に基づいて動的に決定されます。2) クラスごとに同じ割合の擬似ラベルを選択することで、クラスの不均衡の問題を軽減します。3) オンラインであり、追加の推論ラウンドを必要としません。

QST のトレーニング損失は次のように表されます。

全体的な目標

要約すると、提案された DA-BEV の全体的なトレーニング目標は次の式で表すことができます。

この目標は、画像ビュー機能と BEV 機能の敵対的学習と自己トレーニングを組み合わせて、クロスドメイン適応を実現することです。

関連実験

この実験表は、さまざまな照明条件下での純粋な視覚 BEV 知覚に対する教師なしドメイン適応の結果を示しています。具体的には、実験は昼から夜へのシーンの遷移に焦点を当てました。評価指標には、さまざまなカテゴリの平均精度 (AP)、全体の平均精度 (mAP)、および正規化検出スコア (正規化検出スコア、NDS) が含まれます。この実験では、本論文で提案されている Source Only、SFA、MTTrans、STM3D、DA-BEV の 4 つの方法を比較します。

  1. カテゴリ別の AP : 表には、自動車、トラック、建設車両、バスなどのさまざまなカテゴリの検出精度が表示されます。これらのセグメント化された AP メトリックの重要な点は、異なるタイプのオブジェクトを認識する際のモデルのパフォーマンスを明らかにすることです。これは、異なるタイプのオブジェクトが認識システムに対して非常に異なる応答を示す可能性があるため、実際のアプリケーションでは非常に重要です。
  2. 全体 mAP と NDS : 全体 mAP はすべてのカテゴリ AP の平均であり、全体的なパフォーマンス指標を提供します。 NDS は、検出精度だけでなく、位置精度、サイズの推定などの他の要素も考慮する包括的な評価です。これら 2 つのメトリックにより、より包括的なパフォーマンス評価が可能になります。
  3. 方法の比較:
  • ソースのみ これはドメイン適応のないベースライン手法です。
  • SFA、MTTrans、STM3D  これは別のドメイン適応方法です。
  • DA-BEV(当社)  これが本論文で提案された方法です。
  1. 分析する
  • DA-BEV は、ほとんどのカテゴリ、特に「車」、「トラック」、「バス」などのカテゴリで他の方法よりも優れています。これは、ドメイン適応を実行する際に DA-BEV がこれらのカテゴリの認識能力をより適切に維持または向上できることを示しています。

  • 「トレーラー」や「建設車両」などのカテゴリの AP 値は一般的に低いため、これらのカテゴリの検出は依然として課題となっています。

  • DA-BEV は全体的な mAP と NDS の点でも他の方法を大幅に上回っており、さまざまな照明条件下でのドメイン適応パフォーマンスが全体的に優れていることを示しています。

実験結果は、特に照明条件が大きく変化する場合に、DA-BEV が教師なし領域適応における 3D オブジェクト検出のパフォーマンスを効果的に向上できることを示しています。

上の図は、さまざまな天候条件(晴れから雨まで)での 3D オブジェクト検出のための DA-BEV フレームワークの定性的な結果を示しています。左側の 6 つの小さな画像は、複数のカメラの視点からの 3D 予測結果を示しており、各視点からの画像で検出された車両は黄色の 3D 境界ボックスでマークされています。右側は鳥瞰図 (BEV) の観点からの予測結果です。オレンジ色のボックスは予測された場所を表し、青色のボックスは実際の地上の真実を表します。 BEV グラフでは、予測ボックスと実際のボックスの比較を確認できるため、モデル予測の精度を直感的に評価できます。たとえば、図中の十字マーク (X) は、誤った予測の位置を示しています。この視覚化により、さまざまな環境条件下でのモデルのパフォーマンスと適応性を理解するのに役立ちます。

この表は、昼間から夜間への適応に関係するパラメータの分析を示しています。この表は、さまざまなしきい値パラメータ () と指数移動平均パラメータ () がモデル平均精度 (mAP) に与える影響を示しています。左の表からわかるように、閾値パラメータ   10% から 20% に増加した場合、mAP は 18.24 から 20.27 に増加し、その後 25% で 19.57 に減少します。これは、一定の範囲内でしきい値を上げるとパフォーマンスが向上する可能性があるが、特定のポイントを超えるとパフォーマンスが低下することを示している可能性があります。右の表は、   パラメータの数が増えると、mAP は最初は増加し、その後わずかに減少します。これは、モデルがパラメータ選択に敏感であり、トレーニング中にパラメータのバランスを維持することがパフォーマンスを向上させる鍵であることを示しています。

別の表では、さまざまなネットワーク スケルトンにおける DA-BEV メソッドの一般化能力をテストします。実験では、R50-C5、R50-P4、VoV-P4 の 3 つの異なるバックボーンが検討されました。ドメイン適応なし (ソースのみ) の場合、これら 3 つのスケルトンの mAP はそれぞれ 10.63、11.61、15.93 になります。 DA-BEV メソッドを使用した後、すべてのスケルトンのパフォーマンスが向上し、それぞれ 13.03、14.22、20.27 に達しました。これは、DA-BEV がさまざまなネットワーク アーキテクチャにわたって一貫したパフォーマンスの向上を提供できることを示しており、その一般化能力が検証されています。

全体として、この情報は、DA-BEV がさまざまな天候や照明条件下でクロスドメイン適応を実現でき、優れた一般化能力を備えた効果的なフレームワークであることを示しています。定性的な結果は、複雑な環境におけるモデルの実際のアプリケーション パフォーマンスを実証し、定量的な結果は、パラメータの選択とモデル設計がパフォーマンスに与える影響の詳細な分析を提供します。

話し合う

本論文で提案された DA-BEV 法は、クロスドメイン 3D オブジェクト検出タスク、特にさまざまな照明や気象条件下でのシーン適応問題の処理において大きな利点を示します。クエリベースの自己トレーニングと敵対的学習を導入することで、DA-BEV は画像ビューと BEV 機能間の補完性を効果的に活用し、ターゲット ドメインでのモデルのパフォーマンスを向上させることができます。これは、照明の変化が知覚システムに大きな影響を与えるため、昼から夜への変化など、気象条件に応じた適応タスクにおいて特に重要です。

定性分析により、DA-BEV は複数のカメラ ビュー内のオブジェクトを正確に識別して位置を特定し、鳥瞰図で 3D シーンを正確に再構築できることが示されました。この機能は、さまざまな環境条件下で周囲の環境を正確に認識する必要がある自動運転やロボットナビゲーションなどの実用的なアプリケーションにとって非常に重要です。さらに、この方法はさまざまなネットワーク スケルトンに対して優れた一般化能力を示しており、さまざまなネットワーク アーキテクチャと統合して既存のシステムの適応性を向上させることができます。

ただし、DA-BEV 方式にも限界があります。たとえば、トレーラーや建設車両などの特定のカテゴリではパフォーマンスがまだ限られています。これは、これらのカテゴリがデータセット内であまり表現されていないか、さまざまな照明条件下で外観が大きく異なるためと考えられます。さらに、定性的な結果は印象的ですが、鳥瞰図にはまだいくつかのエラーがあり、複雑なシーンに対するモデルの理解にはまだ改善の余地があることを示唆しています。

結論は

本稿では、画像ビュー機能と BEV 機能の相補性を活用してドメイン適応型 BEV の課題に対処する、初のドメイン適応型ビジョン専用 BEV フレームワークである DA-BEV を提案します。 DA-BEV は、クエリベースの敵対的学習 (QAL) とクエリベースの自己トレーニング (QST) を導入します。QAL/QST は、画像ビュー機能または BEV 機能のクエリから取得された有用な情報を活用して、もう一方の敵対的学習を正規化します。広範囲にわたる実験により、さまざまなデータセットとタスクにおける DA-BEV の優れたドメイン適応型 BEV 認識パフォーマンスが実証されています。今後は、時間情報を導入することで、画像ビューと BEV 機能の相補性をさらに探求していきます。 、

オリジナルリンク: https://mp.weixin.qq.com/s/GSB8DX2VX6ROh6c-juRgMA

<<:  PyTorch を使って完全な NeRF をゼロから構築する

>>:  LLaVA: GPT-4V(ision) のオープンソース代替品

ブログ    

推薦する

...

モデルのトレーニングをアウトソーシングするのは本当に安全ですか?新しい研究:アウトソーサーが銀行融資を制御するためにバックドアを挿入する可能性がある

ディープラーニングにはビッグデータと大規模な計算能力に対する厳しい要件があるため、モデルトレーニング...

ドローン配送がレイアウトブームを巻き起こす、普及するには2つのポイントに注意が必要

滴滴出行が昨年11月にドローンによる食品配達サービスを検討すると発表し、美団も最近ドローン配達隊に加...

公共の安全とスマートシティ:AIがどのように役立つか

近年、人工知能の進歩により、私たちのコミュニティの安全性は大幅に向上しました。この技術は、緊急管理者...

データ構造とアルゴリズム: 奇数偶数による配列のソート II

[[429517]]簡単なシミュレーション問題、ぜひ挑戦してみてください!配列を偶数/奇数でソート...

Meta AI が Omnivore をリリース: 画像、動画、3D データの分類タスクを処理できるモデル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI-WAN: AIOps と SD-WAN が出会うとき

[[320126]] [51CTO.com クイック翻訳]ソフトウェア定義広域ネットワーク (SD-...

完全なルーティングアルゴリズムの設計目標の分析

ルーティング アルゴリズムには通常、次の 1 つ以上の設計目標があります。最適化最適化とは、メトリッ...

工業生産は変化している:機械は人間よりも製造に優れている

最近、ロボットが人気になってきました。家庭生活、ホテル経営、学校教育、医療などさまざまな場面でロボッ...

人工知能は機械に流動的知能を与えることができるか?

2021年2月初旬に開催された第35回AAAI人工知能会議で、新しいタイプの人工知能(AI)機械学...

Google ドキュメントでテキスト要約を自動的に生成できるようになりました。

私たちの多くは、毎日たくさんのファイルを処理する必要があります。新しい文書を受け取ったとき、通常は、...

公共の場での顔認識は全面的に禁止される可能性があります。ちょうど今、欧州議会はAI規制を強化することを決定した

[[427521]]昨日、欧州議会はAI生体認証技術に基づく大規模な監視の全面禁止を求める決議を可決...

...

スノーフレークアルゴリズムでは、どのような状況で ID の競合が発生しますか?

[[423697]]分散システムでは、グローバルに一意の ID が必要になるシナリオがいくつかあり...