超リアル!リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布

超リアル!リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

テクノロジーは急速に進化しており、学術界ではナーフが徐々に置き換えられつつあると言わざるを得ません。ガウス派はここにいる、浙江大学で働いている

論文: 動的な都市シーンをモデル化するためのストリートガウス分布

リンク: https://arxiv.org/pdf/2401.01339.pdf

この論文は、単眼ビデオから動的な都市の街路シーンをモデル化する問題に対処することを目的としています。最近の手法では、NeRF を拡張して、追跡車両ポーズをアニメーション車両に組み込み、動的な都市の街路シーンのフォトリアリスティックなビュー合成を可能にしています。しかし、トレーニングとレンダリングの速度が遅いことと、車両の姿勢を追跡する際に高い精度が求められることが大きな制限となっています。この論文では、これらすべての制限に対処する新しい明示的なシーン表現である Street Gaussians を紹介します。具体的には、動的な都市の道路は、それぞれが前景の車両または背景に関連付けられたセマンティック ロジットと 3D ガウス分布を備えたポイント クラウドのセットとして表現されます。

前景のオブジェクト車両のダイナミクスをモデル化するために、最適化可能な追跡ポーズと動的外観の動的球面調和モデルを使用して、各オブジェクト ポイント クラウドが最適化されます。明示的な表現により、対象の車両と背景を簡単に合成できるため、30 分のトレーニングでシーン編集操作と 133 FPS (1066×1600 解像度) でのレンダリングが可能になります。提案された方法は、KITTI や Waymo Open データセットを含む複数の厳しいベンチマークで評価されます。

実験では、提案された方法がすべてのデータセットにおいて最先端の方法よりも一貫して優れていることが示されています。さらに、市販のトラッカーからのポーズのみに依存しているにもかかわらず、提案された表現は GT ポーズを使用して達成されるものと同等のパフォーマンスを提供します。

コード: https://zju3dv.github.io/streetgaussians/

ストリートガウス分布入門

私たちの目標は、都市の街路シーンで移動する車両から撮影された一連の画像に基づいて、任意の入力時間ステップと任意の視点でフォトリアリスティックな画像を生成できるモデルを開発することです。この目標を達成するために、動的なストリートシーンを表現するために特別に設計された、ストリートガウスと呼ばれる新しいシーン表現が提案されています。図 2 に示すように、動的な都市の街路シーンは、それぞれが静的な背景または移動する車両に対応する点群のセットとして表現されます。明示的なポイントベースの表現により、個別のモデルを簡単に合成でき、リアルタイム レンダリングや編集アプリケーションでの前景オブジェクトの分解が可能になります。提案されたシーン表現は、RGB 画像と市販のトラッカーからの追跡された車両ポーズのみを使用して効果的にトレーニングすることができ、追跡された車両ポーズの最適化戦略によって強化されます。

ストリート ガウスの概要を以下に示します。動的な都市のストリート シーンは、最適に追跡された車両のポーズを持つポイント ベースの背景と前景のオブジェクトのセットとして表現されます。各ポイントには、ジオメトリを表すために、位置、不透明度、回転とスケールで構成される共分散を持つ 3D ガウスが割り当てられます。外観を表現するために、各背景ポイントには球面調和関数モデルが割り当てられ、前景ポイントは動的球面調和関数モデルに関連付けられます。明示的なポイントベースの表現により、個別のモデルを簡単に組み合わせることができ、高品質の画像とセマンティックマップ(トレーニング中に2Dセマンティック情報が提供される場合はオプション)のリアルタイムレンダリングや、編集アプリケーション用の前景オブジェクトの分解が可能になります。

実験結果の比較

Waymo Open Dataset と KITTI ベンチマークで実験を実施しました。 Waymo オープン データセットでは、多数の移動物体、大きな自己運動、複雑な照明条件を含む 6 つの録画シーケンスが選択されました。すべてのシーケンスの長さは約 100 フレームで、シーケンス内の 10 枚の画像ごとにテスト フレームとして選択され、残りの画像はトレーニングに使用されます。ベースライン手法では高解像度画像でトレーニングする際にメモリコストが高くなることが判明したため、入力画像は 1066×1600 に縮小されました。 MARS の設定に従い、異なるトレーニング/テスト分割設定を使用して、KITTI と Vitural KITTI 2 で評価します。 Waymo データセット上の検出器とトラッカーによって生成された境界ボックスを使用し、KITTI によって提供される公式オブジェクト トラックを使用します。

私たちのアプローチは最近の 3 つの方法と比較されます。

(1)NSGは背景を多平面画像として表現し、物体ごとに学習した潜在コードと共有デコーダーを使用して動く物体をモデル化する。

(2)MARSはNerfstudioをベースにシーングラフを構築します。

(3)3Dガウス分布は異方性ガウス分布のセットを使用してシーンをモデル化します。

NSG と MARS は両方とも GT ボックスを使用してトレーニングおよび評価され、ここでは実装のさまざまなバージョンが試され、各シーケンスの最良の結果が報告されます。公平な比較を行うために、3D ガウス マップ内の SfM ポイント クラウドを当社の方法と同じ入力に置き換えます。詳細については補足情報をご覧ください。

オリジナルリンク: https://mp.weixin.qq.com/s/oikZWcR47otm7xfU90JH4g

<<:  ChatGPTを使用して小児疾患を診断しますか?新たな研究がこれに冷水を浴びせる:正解率はわずか17%

>>: 

推薦する

電子商取引検索アルゴリズム技術の進化

2018年9月28日、アリババの電子商取引検索部門は「未来を探して推奨する」をテーマにした技術サミッ...

...

...

...

Google の Bard チャットボットがアップデートされ、リアルタイムで応答を生成できるようになりました

10 月 29 日現在、大規模言語モデル (LLM) では即座に回答を出すことができないため、質問を...

「量子超越性」の後、GoogleはTensorFlowの量子バージョンを強力にオープンソース化

Googleは2019年10月に「量子超越性」の検証に関する論文をNatureに掲載した後、3月9日...

...

...

人工知能の登場により、将来も仕事を見つけることができるのでしょうか?

そんな噂もあるんですね。ヘンリー・フォード2世(フォード・モーター社の創設者ヘンリー・フォードの孫)...

機械学習のテストセットをスケールアップする方法

[[385223]]テスト セットのヒル クライミングは、トレーニング セットに影響を与えたり、予測...

ドローンは緊急通信の発展に役立ちますが、この3つのポイントが重要です。

近年、インターネットの急速な発展に伴い、通信ニーズが継続的に高まり始めており、通信保証能力がますます...

将来、人間は「第3の脳」を持ち、5Gはあらゆるものを高速化する

「5Gは大量のデータをもたらしますが、そのデータで何ができるのかが問題です。それをアプリケーションシ...

...

医療機器製造における3つの大きなトレンド

医療製造にロボット工学と自動化を導入したダヴィンチ ロボット手術システムが発売されてから 20 年が...

リアルタイム、高精細、高忠実度:より強力なビデオ再構成アルゴリズム、大幅に向上したパフォーマンス

画像編集の分野がここ数年で飛躍的に成長したことは周知の事実です。しかし、ビデオ分野ではまだいくつかの...