超リアル!リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布

超リアル!リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

テクノロジーは急速に進化しており、学術界ではナーフが徐々に置き換えられつつあると言わざるを得ません。ガウス派はここにいる、浙江大学で働いている

論文: 動的な都市シーンをモデル化するためのストリートガウス分布

リンク: https://arxiv.org/pdf/2401.01339.pdf

この論文は、単眼ビデオから動的な都市の街路シーンをモデル化する問題に対処することを目的としています。最近の手法では、NeRF を拡張して、追跡車両ポーズをアニメーション車両に組み込み、動的な都市の街路シーンのフォトリアリスティックなビュー合成を可能にしています。しかし、トレーニングとレンダリングの速度が遅いことと、車両の姿勢を追跡する際に高い精度が求められることが大きな制限となっています。この論文では、これらすべての制限に対処する新しい明示的なシーン表現である Street Gaussians を紹介します。具体的には、動的な都市の道路は、それぞれが前景の車両または背景に関連付けられたセマンティック ロジットと 3D ガウス分布を備えたポイント クラウドのセットとして表現されます。

前景のオブジェクト車両のダイナミクスをモデル化するために、最適化可能な追跡ポーズと動的外観の動的球面調和モデルを使用して、各オブジェクト ポイント クラウドが最適化されます。明示的な表現により、対象の車両と背景を簡単に合成できるため、30 分のトレーニングでシーン編集操作と 133 FPS (1066×1600 解像度) でのレンダリングが可能になります。提案された方法は、KITTI や Waymo Open データセットを含む複数の厳しいベンチマークで評価されます。

実験では、提案された方法がすべてのデータセットにおいて最先端の方法よりも一貫して優れていることが示されています。さらに、市販のトラッカーからのポーズのみに依存しているにもかかわらず、提案された表現は GT ポーズを使用して達成されるものと同等のパフォーマンスを提供します。

コード: https://zju3dv.github.io/streetgaussians/

ストリートガウス分布入門

私たちの目標は、都市の街路シーンで移動する車両から撮影された一連の画像に基づいて、任意の入力時間ステップと任意の視点でフォトリアリスティックな画像を生成できるモデルを開発することです。この目標を達成するために、動的なストリートシーンを表現するために特別に設計された、ストリートガウスと呼ばれる新しいシーン表現が提案されています。図 2 に示すように、動的な都市の街路シーンは、それぞれが静的な背景または移動する車両に対応する点群のセットとして表現されます。明示的なポイントベースの表現により、個別のモデルを簡単に合成でき、リアルタイム レンダリングや編集アプリケーションでの前景オブジェクトの分解が可能になります。提案されたシーン表現は、RGB 画像と市販のトラッカーからの追跡された車両ポーズのみを使用して効果的にトレーニングすることができ、追跡された車両ポーズの最適化戦略によって強化されます。

ストリート ガウスの概要を以下に示します。動的な都市のストリート シーンは、最適に追跡された車両のポーズを持つポイント ベースの背景と前景のオブジェクトのセットとして表現されます。各ポイントには、ジオメトリを表すために、位置、不透明度、回転とスケールで構成される共分散を持つ 3D ガウスが割り当てられます。外観を表現するために、各背景ポイントには球面調和関数モデルが割り当てられ、前景ポイントは動的球面調和関数モデルに関連付けられます。明示的なポイントベースの表現により、個別のモデルを簡単に組み合わせることができ、高品質の画像とセマンティックマップ(トレーニング中に2Dセマンティック情報が提供される場合はオプション)のリアルタイムレンダリングや、編集アプリケーション用の前景オブジェクトの分解が可能になります。

実験結果の比較

Waymo Open Dataset と KITTI ベンチマークで実験を実施しました。 Waymo オープン データセットでは、多数の移動物体、大きな自己運動、複雑な照明条件を含む 6 つの録画シーケンスが選択されました。すべてのシーケンスの長さは約 100 フレームで、シーケンス内の 10 枚の画像ごとにテスト フレームとして選択され、残りの画像はトレーニングに使用されます。ベースライン手法では高解像度画像でトレーニングする際にメモリコストが高くなることが判明したため、入力画像は 1066×1600 に縮小されました。 MARS の設定に従い、異なるトレーニング/テスト分割設定を使用して、KITTI と Vitural KITTI 2 で評価します。 Waymo データセット上の検出器とトラッカーによって生成された境界ボックスを使用し、KITTI によって提供される公式オブジェクト トラックを使用します。

私たちのアプローチは最近の 3 つの方法と比較されます。

(1)NSGは背景を多平面画像として表現し、物体ごとに学習した潜在コードと共有デコーダーを使用して動く物体をモデル化する。

(2)MARSはNerfstudioをベースにシーングラフを構築します。

(3)3Dガウス分布は異方性ガウス分布のセットを使用してシーンをモデル化します。

NSG と MARS は両方とも GT ボックスを使用してトレーニングおよび評価され、ここでは実装のさまざまなバージョンが試され、各シーケンスの最良の結果が報告されます。公平な比較を行うために、3D ガウス マップ内の SfM ポイント クラウドを当社の方法と同じ入力に置き換えます。詳細については補足情報をご覧ください。

オリジナルリンク: https://mp.weixin.qq.com/s/oikZWcR47otm7xfU90JH4g

<<:  ChatGPTを使用して小児疾患を診断しますか?新たな研究がこれに冷水を浴びせる:正解率はわずか17%

>>: 

ブログ    
ブログ    

推薦する

テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか?

[[313367]]テスラのエンジニアたちは、データの拡大に伴ってエンジニアの数を増やすことなく、...

人間同士のやりとりを人工知能に置き換える時期が来ているのでしょうか?

人工知能 (AI) は、面倒で時間のかかるすべての手動プロセスを置き換え、人間が価値の高いタスクに集...

顔認識技術は議論を呼んでいる。人工知能はどのように制御されるべきか?

[[264511]]最近、米国の18歳の大学生が、アップルが顔認識ソフトウェアを使用して彼を強盗と...

...

段階的な自動運転は後から追いつくことができるか?

自動運転の何十億ドルもの利益の一部を欲しがらない人はいないだろう。最近、SAIC傘下のXiangda...

コインの端を歩くこともできます!陸上最小のカニ型ロボットが開発され、将来的には低侵襲手術に利用できるようになる。

この「横歩き」マイクロロボットはとってもかわいいです!サイエンス・ロボティクス誌5月号に、サブミリメ...

...

致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

ChatGPT、GPT-4などのリリースにより、大規模モデル(LLM)の魅力が明らかになった一方で、...

データマイニング分野のトップ10の古典的なアルゴリズムの1つであるC4.5アルゴリズム(超詳細なコード付き)

古典的なデータマイニングアルゴリズムのトップ 10 は次のとおりです。導入C4.5 は決定木アルゴリ...

...

OpenAI が GPT-4 やその他のモデルを更新し、新しい API 関数呼び出しを追加し、価格を最大 75% 引き下げ

数日前、OpenAIのCEOサム・アルトマン氏は世界ツアーのスピーチで、OpenAIの最近の開発ルー...

従来の連合学習が異種混在の課題に直面したときは、これらのパーソナライズされた連合学習アルゴリズムを試してみてください。

この記事では、パーソナライズされた連合学習に関する 3 つの記事を厳選して詳細に分析します。従来の機...

AIが高性能鋼材の設計を支援:破壊強度と破壊寿命を正確に予測

機械学習技術は、ヘルスケアから高エネルギー物理学に至るまでのさまざまな分野の進歩を推進しています。現...

Google の Transformer が NeurIPS 2021 で 4 つの SOTA 賞を受賞

[[440180]] Google の Vision Transformer に関する新しい取り組み...