まだ NeRF に取り組んでいますか?リアルタイムレンダリングでリアルな自動運転データを生成！ストリートガウス：すべての SOTA を超えよう！

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

ストリートガウス分布の動機

自動運転の分野では、動的な街路シーンの再構築には、データ生成、自動ラベリング、閉ループシミュレーションなどの重要な応用シナリオがあります。再構築の品質と効率に対する要求が高いため、この技術は依然として大きな課題に直面しています。
単眼ビデオから動的な都市の街路シーンをモデル化する問題に対して、最近の方法は主に NeRF に基づいており、車両の姿勢追跡と組み合わせて、非常にリアルなビューを再構築します。しかし、トレーニングとレンダリングの速度が遅く、車両の姿勢を追跡するための高い精度要件があるため、実際に適用するのは困難です。
私たちは、これらすべての制限に対処する新しい明示的なシーン表現アプローチである Street Gaussians を提案します。

オープンソースリンク:

動的な都市シーンをモデリングするためのストリートガウス分布
https://zju3dv.github.io/street_gaussians/

方法の紹介

Street Gaussians では、動的な都市の道路が 3D ガウスの点群のセットとして表現され、各点群は前景の車両または背景の車両のいずれかに関連付けられます。動的な前景車両をシミュレートするために、各オブジェクトは最適化可能な追跡ポーズでモデル化され、動的な外観を表現するための動的球面調和関数モデルが装備されています。
この明示的な表現により、オブジェクト車両と背景を簡単に組み合わせることができ、シーン編集操作が可能になります。同時に、効率が非常に高く、レンダリング速度は133FPS（解像度1066x1600）で、30分でトレーニングを完了できます。
実験では、ストリートガウス分布がすべてのデータセットで現在の SOTA 手法よりも優れていることが示されています。さらに、前景ターゲットポーズの最適化戦略が提案されています (初期ポーズはトラッカーから取得されます)。これは、実際のポーズを使用して達成されたパフォーマンスに匹敵し、ストリートガウス分布の高い堅牢性を検証します。

背景

静的シーンモデリング￮シーン表現の違いに基づいて、シーン再構築をボリュームベースとポイントベースに分けることができます。 MLP ネットワークを使用して連続ボリュームシーンを表現するボリュームベースの方法は、印象的なレンダリング結果を達成しました。同時に、Mip-NeRF360、DNMPなども都市の街頭シーンへの応用シナリオを拡大しました。ポイントベースのアプローチでは、ポイントクラウド上で学習されたニューラル記述子を定義し、ニューラルレンダラーを使用して微分可能なラスタライゼーションを実行するため、レンダリング効率が大幅に向上します。ただし、入力として高密度のポイントクラウドが必要であり、ポイントクラウドの疎な領域では比較的ぼやけた結果が生成されます。最近の研究である 3D ガウススプラッティング (3D GS) では、3D 世界で異方性ガウスカーネルのセットを定義し、適応密度制御を実行して、スパースポイントクラウド入力のみを使用して高品質のレンダリング結果を実現します。 3DGS は、ボリュームベース手法の高品質とポイントベース手法の高効率性の両方を備えた、ボリュームベース手法とポイントベース手法の中間状態として理解できます。ただし、3DGS ではシーンが静的であると想定されており、動的に移動するオブジェクトをシミュレートすることはできません。
動的シーンモデリング。
￮動的シーンモデリングは、さまざまな観点から実現できます。ターゲットの観点からは、単一のオブジェクトシーン (HyperReel など) 上に 4D ニューラルシーン表現を構築できます。シーンの観点からは、オプティカルフロー (Suds など) またはビジュアルトランスフォーマー機能 (Emernerf) の監視下でシーン分離を実現できます。しかし、これらの方法ではシーンを編集することができないため、自動運転シミュレーションへの適用が制限されます。ニューラルフィールドを使用して、移動するオブジェクトモデルと背景モデルの組み合わせとしてシーンをモデル化する別の方法もあります (NSG、Panoptic Neural Fields など)。ただし、正確なオブジェクトの軌跡が必要であり、メモリコストとレンダリング速度に問題があります。

アルゴリズムモデリング

自動運転のシナリオでは車載カメラを通じて画像シーケンスが取得されることを考慮して、いつでも、どの視点でも高品質の画像を生成できるモデルを構築したいと考えています。この目標を達成するために、「ストリートガウス分布」という新しいシーン表現を提案します。図に示すように、動的な都市の街路シーンを、それぞれが静的な背景または移動する車両に対応する点群のセットとして表現します。この点ベースの表現により、複数の独立したモデルを簡単に組み合わせてリアルタイムレンダリングしたり、シーン編集のために前景オブジェクトを分離したりできるようになります。私たちが提案するシーン表現は、RGB 画像のみを使用してトレーニングすることができ、車両ポーズ最適化戦略と組み合わせることで、動的前景の表現精度をさらに向上させることができます。

静的背景モデリング

静的背景には、基本的な 3DGS モデリング手法が使用されます。つまり、世界座標系の点のセットを使用して背景モデルを表し、各点に 3D ガウス分布を割り当てて、連続したシーンのジオメトリと色をスムーズに表現します。ガウスパラメータには、共分散行列と位置ベクトル（平均を表す）が含まれます。 3DGS と同様に、最適化中に無効な共分散行列を回避するために、各共分散行列はさらにスケーリング行列と回転行列に縮小されます。スケーリング行列は対角要素によって特徴付けられ、回転行列は単位四元数に変換されます。位置と共分散行列に加えて、各ガウス分布には、シーンのジオメトリと外観を表す不透明度値と球面調和関数の係数のセットが割り当てられます。ビューに依存する色を取得するには、球面調和関数係数に、ビュー方向から投影された球面調和関数基底関数も乗算します。 3D の意味情報を表現するために、各ポイントには意味的特徴も付加されます。

ダイナミックフォアグラウンドモデリング

複数の移動する前景車両を含むシーンの場合、各オブジェクトを最適化可能なポーズのセット (初期ポーズは CasTracker などのトラッカーから取得できます) とポイントクラウドのセットとして表現します。各ポイントには、3D ガウス分布、セマンティックおよび動的外観モデルが割り当てられます。前景オブジェクトと背景のガウス特性は類似しており、不透明度とスケール行列の定義は同じですが、位置、回転、外観モデルは異なります。
各前景オブジェクトの 3DGS モデルは、オブジェクトのローカル座標系で定義されます。前景オブジェクトの RT マトリックスを通じて、前景オブジェクトと背景のモデルをワールド座標系に統合できます。
図に示すように、球面調和関数の係数のみを使用してオブジェクトの外観を単純に表現するだけでは、移動車両の外観をシミュレートするには不十分です。これは、移動車両の外観がグローバルシーン内の位置によって影響を受けるためです。各時点のオブジェクトを表すために個別の球面調和関数を使用すると、ストレージコストが大幅に増加します。この解決策は、4D 球面調和関数モデルを導入することです。球面調和関数の係数をフーリエ変換係数のセットで表すことにより、任意の時点 t が指定されたときに、逆フーリエ変換によって対応する球面調和関数の係数を取得できます。このアプローチに基づいて、追加のストレージコストをかけずに、時間情報を外観にエンコードします。

レンダリングプロセス

ストリートガウス分布をレンダリングするには、各モデルの寄与を最終結果に集約する必要があります。従来の方法では、ニューラルフィールド表現のため、複合レンダリングには複雑なレイマーチング手法が必要でした。対照的に、ストリートガウス分布は、すべてのポイントクラウドをつなぎ合わせて 2D 画像空間に投影することでレンダリングできます。具体的には、レンダリング時点が与えられた場合、まず球面調和関数の係数を計算し、追跡された車両の姿勢に従って前景オブジェクトのポイントクラウドをワールド座標系に変換し、次に背景ポイントクラウドと変換された前景オブジェクトのポイントクラウドを連結して、新しいフルシーンポイントクラウドを形成します。

効果評価

Waymo と KITTI の両方のデータセットで実験を行い、新しい視点を合成する私たちの方法の能力を評価しました。定性的および定量的結果の両方から、以前の研究と比較して、私たちの方法は高品質の画像をレンダリングでき、さまざまな指標で大幅な改善が見られることがわかりました。
次の図は、Waymo と KITTI データセットにおける既存の手法を定性的な観点から比較したものです。当社の手法により、背景と前景の両方のオブジェクトの詳細のレンダリングが大幅に改善されました。

￮同時に、KITTIとWAYMOの再構築指標を定量的に比較したところ、当社の手法は既存の手法よりも大幅に優れていることがわかりました。

KITTIデータセット

Waymo データセット

下流タスク

ストリートガウス分布は、シーンの前景と背景の分離、シーンの制御可能な編集、セマンティックセグメンテーションなど、多くの下流タスクに適用できます。豊富で高品質なダウンストリームタスクの適応により、ストリートガウス分布の適用限界が大幅に向上します。
￮私たちのモデルは、シーンの前景と背景の分離を実現でき、以前の方法と比較して詳細が大幅に改善されています。

￮当社のモデルは便利なシーン編集をサポートしています。次の図は、車両の追加、置き換え、交換の編集操作を示しています。

￮私たちのモデルは、セマンティックセグメンテーションタスクへの拡張もサポートしています。私たちのモデリング方法を利用することで、前景オブジェクトをより細かくセグメント化できます。

方法の概要

我々は、複雑で動的な街路シーンをモデル化するための新しい表現方法である Street Gaussians を提案します。この方法は、忠実度の高い都市の街路シーンを効率的に再構築してレンダリングし、リアルタイムレンダリングをサポートできます。
移動する前景の動的な車両を処理するために、4D 球面調和関数外観モデルと組み合わせて追跡ポーズを最適化する戦略を開発します。
私たちは、いくつかの難しいデータセットに対して包括的な比較とアブレーション実験を実施し、私たちのアプローチの新たな最先端のパフォーマンスと提案されたコンポーネントの有効性を実証しました。

オリジナルリンク: https://mp.weixin.qq.com/s/zE32LGs6DHfbz_D5-8JYOA

<<: ApolloとCarSim/TruckSimの共同シミュレーション

>>: GPT+Copilotを使えば、Rustの学習はすぐに始まります