HDビデオは本物ではなく、数枚の写真でレンダリングされた3Dシーンでは本物かどうか判断が難しい。

今日の紹介を始める前に、次のシナリオを見てみましょう。

上記のアニメーションは、複数の写真からレンダリングされた完全な 3D シーンであることにご注意ください。人間が自分の欠点を見つけるのは難しい。

このシナリオがどのように実現されるかを見てみましょう。

メッシュとポイントは明示的であり、高速な GPU/CUDA ベースのラスタライズに適しているため、3D シーンの最も一般的な表現です。対照的に、最近のニューラル放射輝度場 (NeRF) 法は連続的なシーン表現に基づいており、通常はボリュームレイシェーディングを使用して多層パーセプトロン (MLP) を最適化し、キャプチャされたシーンの新しいビューを合成します。これらの方法の順次的な性質は最適化に役立ちますが、レンダリングに必要なランダムサンプリングはコストがかかり、ノイズが発生します。

フランスのコート・ダジュール大学の研究者らは、両方のアプローチの利点を組み合わせた新しいアプローチを導入しました。3D ガウス表現は SOAT の視覚品質を備え、トレーニング時間に最適化されており、タイルベースのスプラッティングは、いくつかのデータセットで 1080p 解像度の SOTA リアルタイムレンダリングを実現します。

論文アドレス: https://huggingface.co/papers/2308.04079

研究チームは、複数の写真から撮影したシーンをリアルタイムでレンダリングし、典型的な現実世界のシーンで時間の最適化を実現するという目標を設定しました。これまで、Fridovich-Kei らが提案した手法では高速なトレーニングは達成できたものの、最大 48 時間のトレーニング時間を必要とする現在の SOTA NeRF 手法で得られる視覚品質を達成することは困難でした。他の研究では、シーンに基づいてインタラクティブなレンダリング（10〜15フレーム/秒）を実現できる、高速だが品質の低い放射場方式が提案されていますが、この方法では高解像度でのリアルタイムレンダリングを実現できません。

次に、この記事がどのように実装されているかを見てみましょう。

方法

研究チームの解決策は主に3つの部分から構成されています。

まず、柔軟で表現力豊かなシーン表現として 3D ガウス分布を紹介します。入力は NeRF 方式に似ています。つまり、カメラは Structure-from-Motion (SfM) を使用してキャリブレーションされ、3D ガウスセットは SfM プロセスから取得されたスパースポイントクラウドを使用して初期化されます。さらに、本研究では、SfM ポイントのみを入力として使用して高品質の結果を得ることができました。 NeRF 合成データセットの場合、ランダム初期化でも当社の方法で高品質の結果を達成できることは注目に値します。研究によれば、3D ガウスが適切な選択であることがわかっています。

次に、3D ガウス特性、つまり 3D 位置、不透明度 𝛼、異方性共分散、球面調和関数 (SH) 係数が最適化されます。最適化プロセスにより、シーンのかなりコンパクトで構造化されていない正確な表現が生成されます。

3 番目に、リアルタイムレンダリングソリューションとして、この研究では高速 GPU ソートアルゴリズムを使用します。ただし、3D ガウス表現のおかげで、順序付けと 𝛼 ブレンディングにより、可視性の順序付けを尊重しながら異方性ステッチングを実行できます。また、必要な数の順序付けされたステッチングのトラバースを追跡することで、高速で正確な逆方向パスが実現されます。

方法の概要

要約すると、この論文は次のような貢献をします。

放射場の高品質で非構造化表現として異方性 3D ガウス分布を導入します。
3D ガウス特性の最適化手法と適応密度制御を組み合わせることで、撮影したシーンの高品質な表現を実現します。
可視性を考慮した GPU 用の高速微分可能レンダリング手法で、異方性ステッチングと高速バックプロパゲーションにより新しいビューを高品質に合成できます。

実験

下の図は、私たちの方法と以前の方法の比較を示しています。

上から下のシーンは、Mip-NeRF360 データセットの自転車、庭、カウンター、部屋、およびディープハイブリッドデータセットのゲームルームです (詳細な比較については、元のテキストをお読みください)。自転車のスポーク、庭の向こう側にある家のガラス、鉄のバスケットの棒、おもちゃのクマなど、異なる手法によって生み出された重要な違いが図に示されています。

この論文の方法は、以前の方法よりも詳細に多くの利点があることがわかります。

動画では違いがより明らかです

さらに、図 6 では、7K 回の反復 (約 5 分) でも、私たちの方法では列車の詳細を非常によく捉えられることがわかります。 30K 回の反復 (約 35 分) では、バックグラウンドアーティファクトが大幅に減少します。庭のシーンでは、違いはほとんど目立たず、7K 回の反復 (約 8 分) ですでに非常に高品質です。

研究チームは、Mip-NeRF360 が提案した方法を採用し、データセットをトレーニング/テスト部分に分割し、8 枚の写真ごとに一貫性のある意味のある比較を行ってエラーメトリックを生成し、文献で最も一般的に使用されている標準の PSNR、L-PIPS、および SSIM メトリックを使用しました。詳細データは表 1 に示されています。

表 1 は、3 つのデータセットで計算された以前の研究と比較した新しい方法の定量的評価を示しています。「†」マークの付いた結果は原論文から直接採用したもので、その他の結果は実験チームの実験結果です。

合成 NeRF の PSNR スコア。この論文の方法はほとんどの場合に良いスコアを示し、最高スコアに達していることがわかります。

アブレーション実験

研究チームは、さまざまな貢献とアルゴリズムの選択を分離し、それらの効果を測定するための一連の実験を構築しました。アルゴリズムのいくつかの側面がテストされました: SfM からの初期化、緻密化戦略、異方性共分散、無制限の数のパッチに勾配を持たせること、球面調和関数の使用。次の表は、各選択肢の定量的な効果をまとめたものです。

より直感的な効果を見てみましょう。

初期化に SfM ポイントを使用すると、より良い結果が得られます。

クローンと分割のためのアブレーション高密度化戦略

グラデーションを受けるポイントの数を制限すると、視覚的な品質に大きな影響を与える可能性があります。左: 受信勾配を制限する 10 個のガウス点。右: この論文の完全な方法論。

詳細は原文記事をお読みください。

<<: 致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

>>: 裕福なアメリカ人の 41% は、意識をアップロードすることで不老不死を実現したいと考えています。劉慈欣の「人類の存続」は私たちの未来となるのでしょうか?