DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

DrivingGaussian: 周囲の動的な自動運転シーンの合成ガウススプラッティング

論文リンク: https://arxiv.org/pdf/2312.07920.pdf

コードリンク: https://pkuvdig.github.io/DrivingGaussian/

著者所属: 北京大学、Google Research、カリフォルニア大学マーセド校

論文のアイデア:

この論文では、動的な自動運転シナリオのための効率的で費用対効果の高いフレームワークである DrivingGaussian を提案します。移動するオブジェクトを含む複雑なシーンの場合、まず増分静的 3D ガウス分布を使用して、シーン全体の静的な背景を順次段階的にモデル化します。次に、複合動的ガウスグラフを使用して複数の移動オブジェクトを処理し、各オブジェクトを個別に再構築し、シーン内の正確な位置と遮蔽関係を復元します。この論文では、ガウススプラッティングに LiDAR 事前分布をさらに使用して、より詳細なシーンを再構築し、パノラマの一貫性を維持します。 DrivingGaussian は、運転シーンの再構築において既存の方法よりも優れており、高い忠実度と複数のカメラの一貫性を備えたリアルなサラウンドビュー合成を可能にします。

主な貢献:

私たちの知る限り、DrivingGaussian は、複合ガウススプラッティングに基づく大規模な動的運転シーンの表現およびモデリングフレームワークとしては初めてのものです。

増分静的 3D ガウス分布と複合動的ガウス分布グラフを含む 2 つの新しいモジュールが導入されました。前者は静的な背景を段階的に再構築し、後者はガウスマップを使用して複数の動的オブジェクトをモデル化します。 LiDAR 事前確率の支援により、当社のアプローチは大規模な運転シナリオで完全なジオメトリを回復するのに役立ちます。

包括的な実験により、DrivingGaussian は、困難な自動運転ベンチマークにおいて従来の方法よりも優れた性能を発揮し、さまざまな下流タスクでコーナーケースのシミュレーションを実行できることが示されました。

ネットワーク設計:

この論文では、サラウンドビューの動的自動運転シナリオを表現するための新しいフレームワークである DrivingGaussian を紹介します。この論文の重要なアイデアは、複数のセンサーからの順次データを使用して、複雑な運転シナリオを階層的にモデル化することです。この論文では、複合ガウススプラッティングを使用して、シーン全体を静的な背景と動的なオブジェクトに分解し、各部分を個別に再構築します。具体的には、まず増分静的 3D ガウス分布を使用して、周囲のマルチカメラビューから合成シーンを順次構築します。次に、複合動的ガウスマップを使用して、各移動オブジェクトを個別に再構築し、ガウスマップに基づいて静的背景に動的に統合します。これを基に、ガウススプラッティングを通じてグローバルレンダリングを実行し、静的な背景や動的なオブジェクトを含む現実世界のオクルージョン関係をキャプチャします。さらに、本論文ではGS表現にLiDAR事前分布を組み込んでおり、ランダム初期化やSfM [34]を使用して生成された点群と比較して、より正確な形状を復元し、より優れたマルチビューの一貫性を維持できる。

広範囲にわたる実験により、私たちのアプローチは公開されている自動運転データセットで最先端のパフォーマンスを達成することが実証されています。事前の LiDAR がなくても、私たちのアプローチは優れたパフォーマンスを示し、大規模な動的シーンの再構築における汎用性を実証しています。さらに、当社のフレームワークは動的シナリオ構築とコーナーケースシミュレーションをサポートしており、自動運転システムの安全性と堅牢性の検証に役立ちます。

図 1. DrivingGaussian は、サラウンドビューの動的自動運転シーンでリアルなレンダリングパフォーマンスを実現します。単純な方法[13, 49]では、大規模な背景に不快なアーティファクトやぼやけが生じたり、動的なオブジェクトや詳細なシーンの形状を再構築することが困難になったりします。 DrivingGaussian は、複雑な周囲の運転シーンで静的な背景と複数の動的オブジェクトを効果的に表現するために、初めて複合ガウススプラッティングを導入しました。 DrivingGaussian は、複数のカメラにわたって高品質のサラウンドビューを合成し、長期にわたる動的シーンの再構築を容易にします。

図2. 私たちの方法の全体的なプロセス。左: DrivingGaussian は、マルチカメラ画像や LiDAR など、複数のセンサーから連続データを取得します。中央: 大規模な動的運転シーンを表現するために、この論文では 2 つの部分で構成される複合ガウススプラッティングを提案します。最初の部分では、広い静的背景を段階的に再構築し、2 番目の部分では、ガウスマップを使用して複数の動的オブジェクトを構築し、それらをシーンに動的に統合します。右: DrivingGaussian は、複数のタスクとアプリケーションシナリオで優れたパフォーマンスを発揮します。

図 3. 増分静的 3D ガウスプロットと動的ガウスプロットを使用した複合ガウススプラッティング。この論文では、複合ガウススプラッティングを使用して、シーン全体を静的な背景と動的なオブジェクトに分解し、各部分を個別に再構築して、それらを統合してグローバルレンダリングを行います。

実験結果:

要約:

この論文では、提案された複合ガウススプラッティングに基づいて大規模な動的自動運転シナリオを表現するための新しいフレームワークである DrivingGaussian を紹介します。 DrivingGaussian は、増分静的 3D ガウス分布を使用して静的背景を増分的にモデル化し、複合動的ガウス分布グラフを使用して複数の移動オブジェクトをキャプチャします。この論文では、LiDAR の事前確率をさらに活用して、正確な幾何学的構造とマルチビューの一貫性を実現します。 DrivingGaussian は、2 つの自動運転データセットで最先端のパフォーマンスを実現し、高品質のサラウンドビュー合成と動的シーン再構築を可能にします。