超リアル!リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布

超リアル!リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

テクノロジーは急速に進化しており、学術界ではナーフが徐々に置き換えられつつあると言わざるを得ません。ガウス派はここにいる、浙江大学で働いている

論文: 動的な都市シーンをモデル化するためのストリートガウス分布

リンク: https://arxiv.org/pdf/2401.01339.pdf

この論文は、単眼ビデオから動的な都市の街路シーンをモデル化する問題に対処することを目的としています。最近の手法では、NeRF を拡張して、追跡車両ポーズをアニメーション車両に組み込み、動的な都市の街路シーンのフォトリアリスティックなビュー合成を可能にしています。しかし、トレーニングとレンダリングの速度が遅いことと、車両の姿勢を追跡する際に高い精度が求められることが大きな制限となっています。この論文では、これらすべての制限に対処する新しい明示的なシーン表現である Street Gaussians を紹介します。具体的には、動的な都市の道路は、それぞれが前景の車両または背景に関連付けられたセマンティック ロジットと 3D ガウス分布を備えたポイント クラウドのセットとして表現されます。

前景のオブジェクト車両のダイナミクスをモデル化するために、最適化可能な追跡ポーズと動的外観の動的球面調和モデルを使用して、各オブジェクト ポイント クラウドが最適化されます。明示的な表現により、対象の車両と背景を簡単に合成できるため、30 分のトレーニングでシーン編集操作と 133 FPS (1066×1600 解像度) でのレンダリングが可能になります。提案された方法は、KITTI や Waymo Open データセットを含む複数の厳しいベンチマークで評価されます。

実験では、提案された方法がすべてのデータセットにおいて最先端の方法よりも一貫して優れていることが示されています。さらに、市販のトラッカーからのポーズのみに依存しているにもかかわらず、提案された表現は GT ポーズを使用して達成されるものと同等のパフォーマンスを提供します。

コード: https://zju3dv.github.io/streetgaussians/

ストリートガウス分布入門

私たちの目標は、都市の街路シーンで移動する車両から撮影された一連の画像に基づいて、任意の入力時間ステップと任意の視点でフォトリアリスティックな画像を生成できるモデルを開発することです。この目標を達成するために、動的なストリートシーンを表現するために特別に設計された、ストリートガウスと呼ばれる新しいシーン表現が提案されています。図 2 に示すように、動的な都市の街路シーンは、それぞれが静的な背景または移動する車両に対応する点群のセットとして表現されます。明示的なポイントベースの表現により、個別のモデルを簡単に合成でき、リアルタイム レンダリングや編集アプリケーションでの前景オブジェクトの分解が可能になります。提案されたシーン表現は、RGB 画像と市販のトラッカーからの追跡された車両ポーズのみを使用して効果的にトレーニングすることができ、追跡された車両ポーズの最適化戦略によって強化されます。

ストリート ガウスの概要を以下に示します。動的な都市のストリート シーンは、最適に追跡された車両のポーズを持つポイント ベースの背景と前景のオブジェクトのセットとして表現されます。各ポイントには、ジオメトリを表すために、位置、不透明度、回転とスケールで構成される共分散を持つ 3D ガウスが割り当てられます。外観を表現するために、各背景ポイントには球面調和関数モデルが割り当てられ、前景ポイントは動的球面調和関数モデルに関連付けられます。明示的なポイントベースの表現により、個別のモデルを簡単に組み合わせることができ、高品質の画像とセマンティックマップ(トレーニング中に2Dセマンティック情報が提供される場合はオプション)のリアルタイムレンダリングや、編集アプリケーション用の前景オブジェクトの分解が可能になります。

実験結果の比較

Waymo Open Dataset と KITTI ベンチマークで実験を実施しました。 Waymo オープン データセットでは、多数の移動物体、大きな自己運動、複雑な照明条件を含む 6 つの録画シーケンスが選択されました。すべてのシーケンスの長さは約 100 フレームで、シーケンス内の 10 枚の画像ごとにテスト フレームとして選択され、残りの画像はトレーニングに使用されます。ベースライン手法では高解像度画像でトレーニングする際にメモリコストが高くなることが判明したため、入力画像は 1066×1600 に縮小されました。 MARS の設定に従い、異なるトレーニング/テスト分割設定を使用して、KITTI と Vitural KITTI 2 で評価します。 Waymo データセット上の検出器とトラッカーによって生成された境界ボックスを使用し、KITTI によって提供される公式オブジェクト トラックを使用します。

私たちのアプローチは最近の 3 つの方法と比較されます。

(1)NSGは背景を多平面画像として表現し、物体ごとに学習した潜在コードと共有デコーダーを使用して動く物体をモデル化する。

(2)MARSはNerfstudioをベースにシーングラフを構築します。

(3)3Dガウス分布は異方性ガウス分布のセットを使用してシーンをモデル化します。

NSG と MARS は両方とも GT ボックスを使用してトレーニングおよび評価され、ここでは実装のさまざまなバージョンが試され、各シーケンスの最良の結果が報告されます。公平な比較を行うために、3D ガウス マップ内の SfM ポイント クラウドを当社の方法と同じ入力に置き換えます。詳細については補足情報をご覧ください。

オリジナルリンク: https://mp.weixin.qq.com/s/oikZWcR47otm7xfU90JH4g

<<:  ChatGPTを使用して小児疾患を診断しますか?新たな研究がこれに冷水を浴びせる:正解率はわずか17%

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIがコロナホールを発見し宇宙天気予報を自動化

オーストリアのグラーツ大学、スコルテック社、そして米国とドイツの科学者らは、宇宙からの観測からコロナ...

AIと機械学習が建設業界にもたらす変化

建設業界は長い間、伝統的な手作業のプロセスで知られてきましたが、テクノロジーの進歩により急速に変化し...

ロボット宅配便があなたの玄関までお届けします!フォードが「無人配送」の最後のハードルを解決

Google と Amazon が競い合っている無人配達市場を覚えていますか? そこに新たなプレーヤ...

速報です!ヒントンがロボットスタートアップに参入、同社は9000万ドルの新規投資を受ける

チューリング賞受賞者であり、ディープラーニングの父であるジェフリー・ヒントンの次の旅が決まりました。...

...

...

自律走行の新しい方法がネイチャーの表紙に登場:夜を昼のように明るくする、浙江大学の博士

AI の支援により、機械の夜間視界は昼間と同じくらい鮮明になります。今日、既存の熱画像技術に革命をも...

ターゲット検出にはこの記事で十分です! 2019年版オブジェクト検出の総合ガイド

[[272485]]ビッグデータダイジェスト制作編纂者:張瑞怡、寧静コンピュータ ビジョンは、デジタ...

ポストパンデミック時代に成功するためのコードを習得するには? AIと自動化にも依存している

COVID-19パンデミック以前は、経営幹部は、ビジネス運営の最適化、収益性の向上、イノベーションの...

...

人工知能、機械学習、ディープラーニングの違い

私たちは皆、「人工知能」という言葉をよく知っています。結局のところ、ターミネーター、マトリックス、エ...

世界のAI支出は2024年に1100億ドルに達すると予想

人工知能(AI)への世界的な支出は、今後4年間で2020年の501億ドルから2024年には1100億...

...

変革のトレンド: ジェネレーティブ AI とソフトウェア開発への影響

人工知能の出現により、ソフトウェア開発の継続的な発展が加速しています。この強力なテクノロジーは、ソフ...

人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?

予測によると、AI の影響を最も受ける職業の 1 つはアプリケーション開発者です。結局のところ、Ch...