リアルタイムの高忠実度レンダリング、PlenOctrees に基づく NeRF レンダリング速度が 3000 倍に向上

リアルタイムの高忠実度レンダリング、PlenOctrees に基づく NeRF レンダリング速度が 3000 倍に向上

[[393143]]

まばらな静止画像から任意の 3D オブジェクトとシーンの新しいビューを合成することは、多くの VR および AR アプリケーションの基本です。近年、Neural Radiance Fields (NeRF) のニューラル ネットワーク レンダリングの研究では、ニューラル ネットワーク エンコーディングによるリアルな 3D 遠近法シーンのレンダリングが実現されています。しかし、NeRF では極端なサンプリング要件と多数のニューラル ネットワーク操作が必要になるため、レンダリング速度が非常に遅くなり、実際のシナリオ、特にリアルタイムのインタラクティブ シナリオでの適用が著しく制限されます。たとえば、NeRF を使用して 800 x 800 ピクセルの画像をレンダリングすると、ハイエンド GPU で約 30 秒かかります。最近、カリフォルニア大学バークレー校などの研究者らは、PlenOctrees と呼ばれるデータ構造を使用して NeRF の新しいデータ表現を導入し、リアルタイムの NeRF レンダリングを可能にしました。レンダリング速度はオリジナルの NeRF より 3000 倍以上高速で、画質も NeRF に匹敵します。さらに、PlenOctrees 構造を使用すると、NeRF のトレーニング時間を効果的に短縮できます。

論文の宛先:
出典: http://arxiv.org/pdf/2103.14024.pdf

プロジェクトアドレス:
https://alexyu.net/plenoctrees/

方法

NeRF 方式では、カメラの光が特定の角度からシーンを通過して、サンプリングされた 3 次元ポイントのセットを生成し、これらのポイントの空間位置と視点がニューラル ネットワークを通じて対応する密度と色にマッピングされます。これらの色と密度は、従来のボリューム レンダリング技術を使用して 2 次元画像に蓄積されます。これには、光線方向に沿った各サンプルをニューラル ネットワークに入力して、密度と色を取得する必要があります。このアプローチは、サンプルのほとんどが自由空間で取得され、全体の色に寄与しないため、非常に非効率的です。したがって、この論文では、オーバーサンプリングを回避するためにスパース オクツリー構造を使用することを提案します。さらに、この方法では、ネットワークへの繰り返し入力を避けるために、各ボクセルの値を事前に計算します。

図1 アルゴリズムフレームワーク図

アルゴリズムのフレームワークを図 1 に示します。この研究では、トレーニング済みのNeRF事前サンプリングをPlenOctreeデータ構造に変換するPlenOctreeというデータ構造を提案しました。具体的には、この手法ではOctree構造を使用して、モデリングに必要な密度値と球面調和関数(SH)をツリーのリーフノードに格納します。球面調和関数は、特定の角度で RGB 値を置き換え、任意の角度から独立した色情報を復元できます。さらに、PlenOctree変換をより直接的に実装するために、本研究では、異なる視点のデータをネットワークに入力することを避けるために球面調和関数表現を生成する改良されたNeRFモデル(NeRF-SH)を提案した。この情報は、PlenOctree のリーフ ノードに直接保存できます。同時に、Octree構造を微調整することで、画質をさらに向上させることができます。

NeRF-SHモデル

NeRF-SHモデルを図1(a)に示します。基本的な最適化プロセスとレンダリングプロセスはNeRFと同じですが、NeRF-SHモデルはRGBカラーを直接出力するのではなく、球面調和関数kを出力します。色 c は、対応する光線方向 (θ、φ) における球面調和関数 k 基底の加重和によって計算されます。変換式は次のとおりです。

ここで、d は視野角、k はネットワークによって出力される球面調和関数 SH です。 SH 基底を使用すると、ビュー方向をサンプリングする必要がなくなり、トレーニング時間が短縮されます。この研究では、NeRF-SH のトレーニング プロセス中に、Octree 構造のストレージ効率を向上させるためにスパース事前制約も導入しました。抽出プロセス全体には約 15 分かかります。

PlenOctree構造

PlenOctree構造を図1(b)に示します。NeRF-SHモデルをトレーニングした後、スパースOctree構造に変換してリアルタイムレンダリングを実現します。変換プロセスは 3 つのステップに分かれています。1) 高レベルでは、ネットワークがグリッド上で評価され、密度値のみが保持されます。2) ボクセルはしきい値によってフィルタリングされます。 3) 残りの各ボクセル内のランダムなポイントをサンプリングし、平均して SH 関数を取得します。この関数は Octree リーフに格納されます。レンダリングプロセス中、ツリー値は完全に微分可能であり、元のトレーニング画像を直接微調整することで、画像の品質をさらに向上させることができます。 PlenOctree 構造は、NeRF の 1 秒あたり約 9,000 本の光線と比較して、1 秒あたり約 300 万本の光線で最適化されています。この方法の最適化速度は NeRF に比べて大幅に向上しているため、NeRF-SH のトレーニングを早期に終了して、モデルのパフォーマンスをほとんど低下させることなく PlenOctree 構造を構築できます。

実験結果

レンダリング効果を図 2 に示します。NeRF と比較すると、この方法でレンダリングされた画像は詳細度が向上し、実際の画像に近くなり、レンダリング速度は 3000 倍以上高速になります。

図2 レンダリング効果

図3は、いくつかの方法のトレーニング時間の比較です。NeRFモデルとNeRF-SHモデルに必要なトレーニング時間はほぼ同じであることがわかります。 PlenOctree 構造の変換と微調整には約 1 時間のトレーニング時間が必要です。しかし、NeRF-SH と PlenOctree を組み合わせると、モデルはわずか 4.5 時間で約 16 時間の NeRF のトレーニング品質に到達できるようになります。

図3 アルゴリズムの収束時間

レンダリング速度とパフォーマンスは向上しますが、Octree 構造を使用するとメモリ リソースもより多く消費されます。

<<:  「機械による人代替」が雇用問題を引き起こす。第一線で働く人々の未来はどうなるのか?

>>:  AIロボットの出現により、運転訓練業界における知能の新たな章が開かれた。

ブログ    

推薦する

...

...

OpenAI、開発者向けGPTチャットボットAPIのメジャーアップデートを発表、価格を値下げ

6月14日、OpenAIは大規模言語モデルAPI(GPT-4およびgpt-3.5-turboを含む)...

人工知能を活用して機密情報を安全に保つ 5 つの方法

人工知能は企業や消費者にとって非常に便利なツールですが、この技術をどのように活用して機密情報を保護で...

人工知能と機械学習の違いとその重要性を区別する必要がある

人工知能と機械学習の技術は世界に革命をもたらし、世界をより先進的なものにしていますが、この 2 つの...

変化が起こっています!機械学習は人類をどこへ導くのでしょうか?

[[187530]]人工知能 (AI) がどのように未来を予測し、職場を変え、さらには雇用を生み出...

7つの変革的技術トレンド:第4次産業革命をリードする

テクノロジーは常に進化し、私たちの未来を形作っています。第四次産業革命は、さまざまな産業に革命をもた...

...

人工知能は暗記学習を「終わらせる」ことはない

人工知能に代表される新技術は、知識記憶を主眼とする中国の教育モデルの優位性を覆すことになるのだろうか...

ロボットは独自の言語を作り、将来的には自律的にコミュニケーションできるようになるのでしょうか?

[[187107]]人工知能技術は飛躍的に進歩していますが、人工知能間のコミュニケーションの問題は...

...

AI + エッジコンピューティング - エッジ人工知能は本当に存在するのか?

EdgeAI はもはやブループリント段階ではありません。すでに主流として採用され、驚異的な速度で成...

フィードフォワードネットワーク + 線形相互作用層 = 残差 MLP、Facebook の純粋な MLP 画像分類アーキテクチャが市場に参入

[[398872]]最近では、多層パーセプトロン (MLP) が CV 分野の重要な研究テーマとなっ...

...

...