この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 オープンソースリンク: https://github.com/PJLab-ADG/3DTrans#resimad センサーの種類の変化や地理的環境の変化などのドメインの変化は、自動運転 (AD) では至る所で発生しており、事前のドメイン知識に依存する AD モデルを追加コストなしで新しいドメインに直接展開することが難しいため、大きな課題が生じます。この目的のために、本論文では、ドメイン移行の問題を軽減するための新しい視点と方法を提供する再構築シミュレーション対応 (ReSimAD) スキームを提案します。具体的には、画像再構成プロセスは、古いドメインからの事前知識に基づいており、ドメイン依存の知識を 3D シーン レベルのメッシュなどのドメイン不変の表現に変換することを目的としています。さらに、複数の新しい領域のポイント クラウド シミュレーション プロセスは、上記の再構築された 3D メッシュを条件としており、ターゲット領域のシミュレーション サンプルを取得できるため、後続の認識プロセスのために新しい領域データを収集して注釈を付けるコストが削減されます。実験では、Waymo-to-KITI、Waymo-to-nuScenes、Waymo-to-ONCE などのさまざまなクロスドメイン状況を考慮し、ReSimAD を使用してゼロショット ターゲット ドメイン認識を検証します。結果は、私たちの方法がドメイン一般化能力の向上に有益であり、3D 事前トレーニングにも使用できることを示しています。 要約すると、この論文の主な貢献は次のとおりです。
シミュレーションデータセットの再構築ドメイン間での検出モデルの適応を研究することを目的としたドメイン適応 (DA) の最近の研究成果と比較するために、さまざまなセンサー設定を持つ Waymo シーケンス上に構築された 3D 再構築の最初のシミュレートされたデータセットを紹介します。 この論文は、ドメイン適応の分野における関連研究に倣い、Waymo データセットをソース (古い) ドメインとして使用し、nuScenes や KITTI などの他のデータセットをターゲット (新しい) ドメインとして使用します。そのため、Waymo 上で暗黙的な再構築を実行して 3D シーン レベルのメッシュを生成し、Waymo ベースの 3D メッシュに基づいて KITTI、nuScenes、ONCE シーンをシミュレートします。 さらに、Waymo センサーにはトップ ライダーが 1 つとサイド ライダーが 4 つあり、KITTI などの他のデータセットの狭い縦方向の視野をカバーできる、より広い縦方向の認識範囲に貢献します。 3D 再構築メッシュとシミュレーション ポイント。表 1 には、再構築されたデータを使用して得られたすべてのシミュレーション結果がリストされています。ここでは、Waymo データセット上のシミュレートされたポイントと実際のポイント間の面取り距離 (CD) を使用して計算された再構築スコアが最も高いメッシュを選択しています。ドメインごとに約 26K ~ 29K のサンプルをシミュレートします。シミュレーションデータの可視化結果を図 2 に示します。 シミュレートされたデータセット分析を再構築します。生成されたポイント クラウドは、ターゲット ドメインでのモデルのパフォーマンスを向上させるために必要なだけでなく、バックボーン機能の一般化能力を強化するための 3D 事前トレーニングにも役立つことを考慮して、より多様なオブジェクト サイズでターゲット ドメイン ポイントをシミュレートします。 4 つのシミュレーション領域におけるターゲット サイズの分布を図 4 に示します。図 4 に示すように、再構築されたシミュレートされたデータセットは、ONCE などの既存の公開データセットと比較して、広範囲のオブジェクト サイズ分布をカバーしています。 RESIMAD: 再構築、シミュレーション、認識パイプラインReSimAD の概要。図 3 に示すように、ReSimAD は 3 つのステップで構成されています。
ポイントツーメッシュ暗黙的再構築DeepSDF と NeuS にヒントを得て、LiDAR ベースの暗黙的ニューラル再構築 (LINR) を使用します。この手法では、スパース LiDAR ポイント クラウドを入力として受け取り、暗黙的な符号付き距離フィールド (SDF) フィールドを生成します。ニューラル ネットワークを活用して符号付き距離関数をエンコードすることで、解像度が高く、メモリを効率的に使用する高品質の 3D モデルの合成を実現します。RGB 画像を使用して暗黙的な表現を改良する最近の方法と比較して、開発された LINR 方法は、実際の屋外シーンでの弱い照明や天候の変化など、比較的厳しい条件下でも再構築プロセスを実現できます。 ただし、ボクセルベースの LINR には依然としていくつかの課題が残っています。 LIDAR データは本質的にスパースであるため、単一の LIDAR ポイント クラウド フレームでは、標準の RGB 画像に含まれる包括的な情報の一部しかキャプチャされません。この矛盾は、効果的なトレーニングに必要な幾何学的詳細を提供する上でディープ レンダリングが不十分である可能性があることを浮き彫りにしています。したがって、結果として得られる再構築されたメッシュ内に多数のアーティファクトが発生する可能性があります。この課題に対処するために、Waymo データセット内の対応するシーケンスのすべてのフレームを統合し、各シーンの有効なポイント クラウドを抽出します。さらに、前述の LINR を利用して再構築プロセスを実行します。 Waymo データセットの最上位 LIDAR の垂直視野の制限を考慮すると、-17.6° から 2.4° の間の点群のみを取得すると、周囲の高層ビルの再構築が制限されます。この課題に対処するために、サイド LiDAR のポイント クラウド (ブラインド補正) をサンプリング シーケンスに組み込むソリューションを導入します。 Quad LiDAR は車両の前面、背面、側面に戦略的に配置されており、垂直視野は -90° から 30° です。これにより、上部の LIDAR の視野の不足が効果的に補われます。サイドライダーとトップライダーの点群密度の違いにより、高層ビルのシーン再構築品質を向上させるために、サイドライダーに高いサンプリング重みを割り当てることを選択しました。 暗黙的なサーフェスを再構築すると、シーン ジオメトリのよりきめ細かい連続表現が得られ、選択したシミュレータでの後続のレンダリングのための高解像度メッシュの抽出が容易になります。 復興評価。動的オブジェクトと LIDAR ノイズによって引き起こされるオクルージョンの影響により、暗黙的な表現が予想よりも低くなる可能性があり、クロスドメイン適応に課題が生じます。そこで、再構築の精度を評価しました。古い領域の実際のポイント クラウドにアクセスできるため、古い領域のポイント クラウドを再投影して再構築プロセスの精度を評価します。 レンダリングされたポイント Gb と元の収集された LIDAR ポイント G 間の再構築精度を、二乗平均平方根誤差 (RMSE) と面取り距離 (CD) を使用して測定します。 メッシュからポイントへのレンダリング前述のLINRで静的背景メッシュを取得した後、Blender Python APIを使用してメッシュデータを.ply形式から.fbx形式の3Dモデルファイルに変換し、最後に背景メッシュを自動運転研究用のオープンソースシミュレーターであるCARLAにアセットとして読み込みました。 交通参加者の外観をマッチングするために、Waymo の注釈を通じて各データ フレームの境界ボックスのカテゴリと 3D サイズを取得します。この情報に基づいて、CARLA 内の類似のトラフィック参加者の中で最も近いスケールのデジタル資産を検索し、それをトラフィック参加者のモデルとして使用します。 CARLA シミュレーターで利用可能なシーンのグラウンドトゥルース情報に基づいて、交通シーン内の検出可能な各オブジェクトの境界ボックス抽出ツールを開発し、それをターゲットドメインのラベル形式 (KITTI など) に変換します。図 4 から、オブジェクト サイズの分布はデータセットによって異なることがわかります。シミュレートされたデータセットとターゲット ドメインの一般的な車両サイズの一貫性を確保するために、まず統計結果に基づいて各交通参加者のサイズに関数マッピングを実行し、次に属性マッチング プロセスを完了します。 交通参加者の動作シミュレーションでは、交通シーンの座標系を整理し、動的ターゲットの位置と姿勢をフレームごとに更新しました。各クリップでは、最初のフレームの自車両の中心の地上点を座標原点としてとります。自車両の 6D ポーズは、異なるフレーム内の自車両ラベルの差によって更新されます。その他の動的オブジェクトは、各フレームのラベル情報内の自車両の相対的な 6D ポーズによって更新されます。フレーム t 内のシミュレートされたターゲット Pt の 6D ポーズは、シミュレータでは (x、y、z、ロール、ヨー、ピッチ) として表すことができます。自車両ポーズと動的ターゲットポーズの更新は次のとおりです。 交通シーンの再構成と LIDAR シミュレーションが合成データのリアリティとゼロショット領域適応のパフォーマンスに与える影響を調査するために、3 つのデータセットが構築されています。上記の方法に従って暗黙的に再構築されたシミュレーション データセットに加えて、CARLA シーンの背景に基づくセンサーのような LiDAR シミュレーション データセットとデフォルトの LiDAR シミュレーション データセットも OpenCDA ツールを使用して構築されました。 センサーのような LIDAR データセットとデフォルトの LIDAR シミュレーション データセットの主な違いは、LIDAR チャネルの数と垂直視野です。デフォルトの LiDAR は、垂直視野が -30 度から 10 度の範囲で均一なビーム分布を持つ固定 32 チャネル構成です。同時に、シミュレーション ライブラリを使用すると、LiDAR などのセンサーの特性は、ターゲット ドメインの対応するセンサー セットアップの特性と同一になります。ターゲット ドメイン LIDAR の検出範囲、1 秒あたりの放射ポイント、回転周波数、および降下率も、デフォルトの LIDAR とほぼ同じです。車両交通流は道路網構造に合わせる必要があるため、CARLA静的背景に基づくデータシミュレーションを実行するために、車両交通流密度のマッチングを完了しました。 ゼロショット認識プロセス閉ループシミュレーション検証をさらに実現するために、シミュレートされたポイント Xsim を使用して新しいドメインでベースライン モデルをトレーニングし、新しいドメインからの検証セットの実際のサンプル Xreal で評価します。具体的には、全体の損失 Ltrain と評価プロセス Eeval を次のようにして、3D 検出タスクでこの方法を検証します。 実験実験のセットアップまず、ラベル付けされたソース ドメインでベース モデルをトレーニングし、ターゲット ドメインでのトレーニング済みソース モデルのクロスドメイン パフォーマンスを評価します。 1) CARLA デフォルト: シミュレーション データを生成するために CARLA を使用します。このベースラインでは、CARLA から検索してオブジェクトのサイズに最も近い属性を見つけることで、シミュレートされたシーンに前景オブジェクトが追加されます。 2) センサーのような: ターゲット ドメイン センサー設定が利用可能であると想定しているため、CARLA でセンサー パラメーター設定も変更し、ポイント データをシミュレートして、LIDAR ビーム分布をターゲット ドメイン シナリオに似たものにします。上記の 2 つのベースライン設定では、ターゲット ドメインの分布に適合するシミュレートされたデータがさらに生成されるだけであり、シミュレートされたデータを直接使用してベース モデルを微調整し、ターゲット ドメインでのパフォーマンスを観察することに注意してください。 3) ST3D: ラベル効率の高い方法でポイントクラウドのクロスドメイン差異を削減する、一般的な教師なしドメイン適応 (UDA) 手法である ST3D と比較します。 クロスドメイン実験RESIMAD がゼロショット 3D オブジェクト検出を強化 実験の公平性を確保するために、まず提案された ReSimAD をデータ シミュレーション関連のベースライン (CARLA デフォルトおよび同様のセンサー) と比較します。表 2 からわかるように、ReSimAD は、PV-RCNN と PV-RCNN++ の両方で、すべてのクロスドメイン設定で最高のゼロショット 3D 検出精度を達成しています。さらに、私たちのセンサーのようなベースラインは、私たちのものと比較して、ドメインの違いに対してより堅牢であることがわかりました。 対象ドメインの LIDAR パラメータ設定に基づいて、事前にセンサーレベルのシミュレーションを実行するため、CARLA がデフォルトになります。しかし、シミュレートされたシーンと実際のシーンの背景分布の違いにより、センサーのようなベースラインのみを使用して満足のいくクロスドメインパフォーマンス(つまり、Waymo から KITTI への 40.80% のみ)を達成することは依然として困難です。 さらに、表 2 では、センサーのような方法と ReSimAD を比較し、さまざまな種類のクロスドメインの違いにおいて、ReSimAD は通常、センサーのような方法よりも約 5.98% ~ 27.49% 優れていることを示しています。したがって、ゼロショットのデータセット間検出を実現するには、点群背景分布の信頼性も重要であると考えています。 表 2 は、教師なしドメイン適応 (UDA) 手法を使用した結果を示しています。 UDA と ReSimAD の主な違いは、前者はモデルの適応にターゲット ドメイン内の実際のシーンのサンプルを使用するのに対し、後者はターゲット ドメイン内の実際のポイント クラウド データにアクセスできないことです。表 2 から、ReSimAD によって得られたクロスドメインの結果は、UDA 方式によって得られた結果と同等であることがわかります。この結果は、LiDAR センサーを商用目的でアップグレードする必要がある場合、当社のアプローチによりデータ取得コストを大幅に削減し、モデルの再トレーニングの開発サイクルをさらに短縮できることを示唆しています。 RESIMAD 強化された完全監視型 3D 検出 ReSimAD によって生成されたデータを使用するもう 1 つの利点は、ターゲット ドメインの実際のデータ分布にアクセスしなくても、ターゲット ドメインの高精度を実現できることです。ターゲット ドメインに類似したこのようなシミュレーション プロセスにより、Oracle ベースラインの結果がさらに改善されることがわかりました。 表 3 は、ターゲット ドメインからの注釈を使用した結果を報告しています。 Oracle は、ターゲット ドメインのすべてのラベル付きデータでトレーニングされたベースライン モデルによって得られた最高の結果を表します。 SFT で示されるベースライン モデルのネットワーク パラメーターは、シミュレートされたデータからトレーニングされた重みによって初期化されます。表 3 は、シミュレートされたポイント クラウドで事前トレーニングされたバックボーンを使用すると、PV-RCNN++ や PV-RCNN などの 3D 検出器の初期化が改善されることを示しています。 3D事前トレーニング実験シミュレートされたデータを使用した 3D 事前トレーニングの概要。 ReSimAD が 3D 事前トレーニング タスクに役立つポイント データを生成できるかどうかを確認するために、AD-PT を使用してシミュレートされたポイント クラウドで 3D バックボーンを事前トレーニングし、その後下流の実際のデータで微調整するという設定を設計しました。 3D 事前トレーニングにシミュレートされたデータを使用することで、大量の現実世界のデータを保存します。 下流の微調整結果。 ReSimAD を利用して、より広範囲に分布する点群のデータを生成します。 AD-PT での事前トレーニング結果と公平に比較するために、ReSimAD によって生成されるシミュレーション データの目標量は約 100K です (生成されたシミュレーション データの構成については表 1 を参照)。表 4 では、ベースライン検出器はシミュレートされたデータまたは実際のデータで事前トレーニングされ、KITTI および Waymo ベンチマークで微調整されています。表 4 は、さまざまなスケールのシミュレートされた事前トレーニング データを使用すると、下流の微調整のパフォーマンスが一貫して向上することを示しています。全体として、さまざまなスケールのシミュレートされたポイント クラウドをゼロ ショット方式で活用することで事前トレーニングを実現します。つまり、ターゲット ドメインで追加のデータ収集や注釈付け作業は必要ありません。 さらなる分析再構築とシミュレーションの妥当性。提案手法のモジュールの有効性を検証するために、CARLA シミュレーターを含むさまざまな方法を使用してレンダリングされたポイント クラウドと、図 5 に私たちの手法で再構築された現実世界の 3D シーンを視覚化しました。結果は、ReSimAD によって取得されたシミュレーション ポイントが、路面や街路シーンなど、対象領域のより現実的なシーン情報をカバーしていることを示しています。図 6 は、さまざまな再構築方法を使用して再構築されたメッシュも視覚化しています。視覚化の結果、ReSimAD によって暗黙的に再構築されたメッシュは、VDBFusion と比較して、明確なストリートビュー情報と連続した幾何学的構造を示していることがわかります。 表 5 は、生成されたポイント クラウドが軽量ベースライン モデルに対して効果的であることを示しています。これは、軽量モデルを使用する実際のアプリケーションで実用的です。モデルとして SECOND-IOU を採用し、ReSimAD を介してシミュレートされたデータでトレーニングします。結果は、提案された方法が 1 段階 3D 検出モデルでも有望な結果を達成することを示しています。 結論は本研究では、ゼロショットのドメイン転送を実現する方法を調査し、現実世界のポイントレベルの画像再構成プロセスとメッシュツーポイントレンダリングプロセスで構成される統合された再構成シミュレーション対応スキーム(ReSimAD)を提案します。これは、深刻なドメインギャップやデータセットレベルの不一致の処理に効果的であることが検証されています。ゼロショット設定で実験を行い、ReSi-mAD がターゲットのようなサンプルを生成し、高度なターゲット領域認識を実現し、3D 事前トレーニングを容易にする効果を実証しました。 オリジナルリンク: https://mp.weixin.qq.com/s/H-qNmNVFiKwPWUv9UOmOHA |
<<: 新しいマルチモーダル大型モデルがリストを独占!画像とテキストの混合入力をサポートしているので、知識がわからなくても学習できます
>>: Microsoft の 38 TB の内部データが漏洩!秘密鍵と3万件以上の仕事上の会話が漏洩、その背後にある理由は衝撃的
過去2年間で、「スマートホーム」はほぼすべての家電メーカーが必ず話題にし、自社製品になくてはならない...
[51CTO.com クイック翻訳] 業界の専門家は、音声アシスタント、顔認識カメラ、コンピューター...
組織にとって、機械学習 (ML)、自動化、人工知能 (AI) 機能を備えたテクノロジー プラットフォ...
データ分析は現代社会において常に重要なツールであり、本質を理解し、パターンを発見し、意思決定を導くの...
[51CTO.com クイック翻訳] この記事では、ディープラーニングアルゴリズムを使用してデータモ...
[[273454]]多くの薬と同様に、精神を明晰に保つために特に使用される薬であるモダフィニルには、...
[[316623]] 【51CTOオリジナル記事】先週、WeMallは大規模なシステム障害に見舞わ...
「ウエストワールド」を見たことがある友人は、このドラマの舞台が未来の世界、巨大なハイテクな大人向けテ...
4年待ちに待ったワールドカップがついにやって来ました。業界に数十億ドルの資金が投入され、世界人口の...
1. ビデオ監視産業の発展動向わが国では、安全都市やインテリジェント交通などのさまざまな建設プロジェ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[121078]]アルゴリズムは今日の私たちの生活にとって非常に重要なので、いくら強調してもし過ぎ...
ディープラーニングが注目を集めています。 4月23日、北京で第1回WAVE SUMMIT 2019デ...