今日の紹介を始める前に、次のシナリオを見てみましょう。 上記のアニメーションは、複数の写真からレンダリングされた完全な 3D シーンであることにご注意ください。人間が自分の欠点を見つけるのは難しい。 このシナリオがどのように実現されるかを見てみましょう。 メッシュとポイントは明示的であり、高速な GPU/CUDA ベースのラスタライズに適しているため、3D シーンの最も一般的な表現です。対照的に、最近のニューラル放射輝度場 (NeRF) 法は連続的なシーン表現に基づいており、通常はボリューム レイ シェーディングを使用して多層パーセプトロン (MLP) を最適化し、キャプチャされたシーンの新しいビューを合成します。これらの方法の順次的な性質は最適化に役立ちますが、レンダリングに必要なランダム サンプリングはコストがかかり、ノイズが発生します。 フランスのコート・ダジュール大学の研究者らは、両方のアプローチの利点を組み合わせた新しいアプローチを導入しました。3D ガウス表現は SOAT の視覚品質を備え、トレーニング時間に最適化されており、タイルベースのスプラッティングは、いくつかのデータセットで 1080p 解像度の SOTA リアルタイム レンダリングを実現します。 論文アドレス: https://huggingface.co/papers/2308.04079 研究チームは、複数の写真から撮影したシーンをリアルタイムでレンダリングし、典型的な現実世界のシーンで時間の最適化を実現するという目標を設定しました。これまで、Fridovich-Kei らが提案した手法では高速なトレーニングは達成できたものの、最大 48 時間のトレーニング時間を必要とする現在の SOTA NeRF 手法で得られる視覚品質を達成することは困難でした。他の研究では、シーンに基づいてインタラクティブなレンダリング(10〜15フレーム/秒)を実現できる、高速だが品質の低い放射場方式が提案されていますが、この方法では高解像度でのリアルタイムレンダリングを実現できません。 次に、この記事がどのように実装されているかを見てみましょう。 方法研究チームの解決策は主に3つの部分から構成されています。 まず、柔軟で表現力豊かなシーン表現として 3D ガウス分布を紹介します。入力は NeRF 方式に似ています。つまり、カメラは Structure-from-Motion (SfM) を使用してキャリブレーションされ、3D ガウス セットは SfM プロセスから取得されたスパース ポイント クラウドを使用して初期化されます。さらに、本研究では、SfM ポイントのみを入力として使用して高品質の結果を得ることができました。 NeRF 合成データセットの場合、ランダム初期化でも当社の方法で高品質の結果を達成できることは注目に値します。研究によれば、3D ガウスが適切な選択であることがわかっています。 次に、3D ガウス特性、つまり 3D 位置、不透明度 𝛼、異方性共分散、球面調和関数 (SH) 係数が最適化されます。最適化プロセスにより、シーンのかなりコンパクトで構造化されていない正確な表現が生成されます。 3 番目に、リアルタイム レンダリング ソリューションとして、この研究では高速 GPU ソート アルゴリズムを使用します。ただし、3D ガウス表現のおかげで、順序付けと 𝛼 ブレンディングにより、可視性の順序付けを尊重しながら異方性ステッチングを実行できます。また、必要な数の順序付けされたステッチングのトラバースを追跡することで、高速で正確な逆方向パスが実現されます。 方法の概要要約すると、この論文は次のような貢献をします。
実験下の図は、私たちの方法と以前の方法の比較を示しています。 上から下のシーンは、Mip-NeRF360 データセットの自転車、庭、カウンター、部屋、およびディープ ハイブリッド データセットのゲーム ルームです (詳細な比較については、元のテキストをお読みください)。自転車のスポーク、庭の向こう側にある家のガラス、鉄のバスケットの棒、おもちゃのクマなど、異なる手法によって生み出された重要な違いが図に示されています。 この論文の方法は、以前の方法よりも詳細に多くの利点があることがわかります。 動画では違いがより明らかです さらに、図 6 では、7K 回の反復 (約 5 分) でも、私たちの方法では列車の詳細を非常によく捉えられることがわかります。 30K 回の反復 (約 35 分) では、バックグラウンド アーティファクトが大幅に減少します。庭のシーンでは、違いはほとんど目立たず、7K 回の反復 (約 8 分) ですでに非常に高品質です。 研究チームは、Mip-NeRF360 が提案した方法を採用し、データセットをトレーニング/テスト部分に分割し、8 枚の写真ごとに一貫性のある意味のある比較を行ってエラー メトリックを生成し、文献で最も一般的に使用されている標準の PSNR、L-PIPS、および SSIM メトリックを使用しました。詳細データは表 1 に示されています。 表 1 は、3 つのデータセットで計算された以前の研究と比較した新しい方法の定量的評価を示しています。 「†」マークの付いた結果は原論文から直接採用したもので、その他の結果は実験チームの実験結果です。 合成 NeRF の PSNR スコア。この論文の方法はほとんどの場合に良いスコアを示し、最高スコアに達していることがわかります。 アブレーション実験 研究チームは、さまざまな貢献とアルゴリズムの選択を分離し、それらの効果を測定するための一連の実験を構築しました。アルゴリズムのいくつかの側面がテストされました: SfM からの初期化、緻密化戦略、異方性共分散、無制限の数のパッチに勾配を持たせること、球面調和関数の使用。次の表は、各選択肢の定量的な効果をまとめたものです。 より直感的な効果を見てみましょう。 初期化に SfM ポイントを使用すると、より良い結果が得られます。 クローンと分割のためのアブレーション高密度化戦略 グラデーションを受けるポイントの数を制限すると、視覚的な品質に大きな影響を与える可能性があります。左: 受信勾配を制限する 10 個のガウス点。右: この論文の完全な方法論。 詳細は原文記事をお読みください。 |
<<: 致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題
>>: 裕福なアメリカ人の 41% は、意識をアップロードすることで不老不死を実現したいと考えています。劉慈欣の「人類の存続」は私たちの未来となるのでしょうか?
データ サイエンティストになりたいですか? 十分な知識と新しいことに対する好奇心が必要です。このため...
検索システムにはヘッド効果が存在する可能性が高く、高品質のミッドテールおよびロングテール製品が十分な...
予測によると、AI の影響を最も受ける職業の 1 つはアプリケーション開発者です。結局のところ、Ch...
2024 年までに、AI は少なくとも 3 つの異なる方法で顧客体験 (CX) に影響を与えるでしょ...
過去10年間、テクノロジーおよび自動車の専門家は、人間の運転手による積極的な監視や入力なしに公道を走...
ブロックチェーン暗号化入門ブロックチェーン暗号化技術ブロックチェーン技術の応用と発展において、デジタ...
[[431020]]アルゴリズムは、問題を解決するための手順です。同じ問題でも複数の解決策が存在す...
人工知能は新たな変化を先導しています。近年、人工知能はテクノロジー業界から始まり、急速に生活の各分野...
過去2年間、安全都市、インテリジェント交通、スノーブライトプロジェクトの継続的な発展と深化に伴い、ビ...
先日開催されたX-Talkでは、米国工学アカデミーの外国人会員であり、XiaoIce会長でもあるハリ...
2020年10月1日、私たちの祖国は71歳の誕生日を迎えました!我が国は、最初の人工衛星の打ち上げか...
[51CTO.comより] 2016年11月25日〜26日、北京JWマリオットホテルでWOT2016...