リアルタイムの高忠実度レンダリング、PlenOctrees に基づく NeRF レンダリング速度が 3000 倍に向上

リアルタイムの高忠実度レンダリング、PlenOctrees に基づく NeRF レンダリング速度が 3000 倍に向上

[[393143]]

まばらな静止画像から任意の 3D オブジェクトとシーンの新しいビューを合成することは、多くの VR および AR アプリケーションの基本です。近年、Neural Radiance Fields (NeRF) のニューラル ネットワーク レンダリングの研究では、ニューラル ネットワーク エンコーディングによるリアルな 3D 遠近法シーンのレンダリングが実現されています。しかし、NeRF では極端なサンプリング要件と多数のニューラル ネットワーク操作が必要になるため、レンダリング速度が非常に遅くなり、実際のシナリオ、特にリアルタイムのインタラクティブ シナリオでの適用が著しく制限されます。たとえば、NeRF を使用して 800 x 800 ピクセルの画像をレンダリングすると、ハイエンド GPU で約 30 秒かかります。最近、カリフォルニア大学バークレー校などの研究者らは、PlenOctrees と呼ばれるデータ構造を使用して NeRF の新しいデータ表現を導入し、リアルタイムの NeRF レンダリングを可能にしました。レンダリング速度はオリジナルの NeRF より 3000 倍以上高速で、画質も NeRF に匹敵します。さらに、PlenOctrees 構造を使用すると、NeRF のトレーニング時間を効果的に短縮できます。

論文の宛先:
出典: http://arxiv.org/pdf/2103.14024.pdf

プロジェクトアドレス:
https://alexyu.net/plenoctrees/

方法

NeRF 方式では、カメラの光が特定の角度からシーンを通過して、サンプリングされた 3 次元ポイントのセットを生成し、これらのポイントの空間位置と視点がニューラル ネットワークを通じて対応する密度と色にマッピングされます。これらの色と密度は、従来のボリューム レンダリング技術を使用して 2 次元画像に蓄積されます。これには、光線方向に沿った各サンプルをニューラル ネットワークに入力して、密度と色を取得する必要があります。このアプローチは、サンプルのほとんどが自由空間で取得され、全体の色に寄与しないため、非常に非効率的です。したがって、この論文では、オーバーサンプリングを回避するためにスパース オクツリー構造を使用することを提案します。さらに、この方法では、ネットワークへの繰り返し入力を避けるために、各ボクセルの値を事前に計算します。

図1 アルゴリズムフレームワーク図

アルゴリズムのフレームワークを図 1 に示します。この研究では、トレーニング済みのNeRF事前サンプリングをPlenOctreeデータ構造に変換するPlenOctreeというデータ構造を提案しました。具体的には、この手法ではOctree構造を使用して、モデリングに必要な密度値と球面調和関数(SH)をツリーのリーフノードに格納します。球面調和関数は、特定の角度で RGB 値を置き換え、任意の角度から独立した色情報を復元できます。さらに、PlenOctree変換をより直接的に実装するために、本研究では、異なる視点のデータをネットワークに入力することを避けるために球面調和関数表現を生成する改良されたNeRFモデル(NeRF-SH)を提案した。この情報は、PlenOctree のリーフ ノードに直接保存できます。同時に、Octree構造を微調整することで、画質をさらに向上させることができます。

NeRF-SHモデル

NeRF-SHモデルを図1(a)に示します。基本的な最適化プロセスとレンダリングプロセスはNeRFと同じですが、NeRF-SHモデルはRGBカラーを直接出力するのではなく、球面調和関数kを出力します。色 c は、対応する光線方向 (θ、φ) における球面調和関数 k 基底の加重和によって計算されます。変換式は次のとおりです。

ここで、d は視野角、k はネットワークによって出力される球面調和関数 SH です。 SH 基底を使用すると、ビュー方向をサンプリングする必要がなくなり、トレーニング時間が短縮されます。この研究では、NeRF-SH のトレーニング プロセス中に、Octree 構造のストレージ効率を向上させるためにスパース事前制約も導入しました。抽出プロセス全体には約 15 分かかります。

PlenOctree構造

PlenOctree構造を図1(b)に示します。NeRF-SHモデルをトレーニングした後、スパースOctree構造に変換してリアルタイムレンダリングを実現します。変換プロセスは 3 つのステップに分かれています。1) 高レベルでは、ネットワークがグリッド上で評価され、密度値のみが保持されます。2) ボクセルはしきい値によってフィルタリングされます。 3) 残りの各ボクセル内のランダムなポイントをサンプリングし、平均して SH 関数を取得します。この関数は Octree リーフに格納されます。レンダリングプロセス中、ツリー値は完全に微分可能であり、元のトレーニング画像を直接微調整することで、画像の品質をさらに向上させることができます。 PlenOctree 構造は、NeRF の 1 秒あたり約 9,000 本の光線と比較して、1 秒あたり約 300 万本の光線で最適化されています。この方法の最適化速度は NeRF に比べて大幅に向上しているため、NeRF-SH のトレーニングを早期に終了して、モデルのパフォーマンスをほとんど低下させることなく PlenOctree 構造を構築できます。

実験結果

レンダリング効果を図 2 に示します。NeRF と比較すると、この方法でレンダリングされた画像は詳細度が向上し、実際の画像に近くなり、レンダリング速度は 3000 倍以上高速になります。

図2 レンダリング効果

図3は、いくつかの方法のトレーニング時間の比較です。NeRFモデルとNeRF-SHモデルに必要なトレーニング時間はほぼ同じであることがわかります。 PlenOctree 構造の変換と微調整には約 1 時間のトレーニング時間が必要です。しかし、NeRF-SH と PlenOctree を組み合わせると、モデルはわずか 4.5 時間で約 16 時間の NeRF のトレーニング品質に到達できるようになります。

図3 アルゴリズムの収束時間

レンダリング速度とパフォーマンスは向上しますが、Octree 構造を使用するとメモリ リソースもより多く消費されます。

<<:  「機械による人代替」が雇用問題を引き起こす。第一線で働く人々の未来はどうなるのか?

>>:  AIロボットの出現により、運転訓練業界における知能の新たな章が開かれた。

ブログ    
ブログ    
ブログ    

推薦する

チャットボットが消費者と企業に役立つ6つの方法

チャットボットは非常に一般的になったため、消費者はそれを当然のこととして受け止め、オンライン世界のあ...

今後5年間のAI技術の発展と影響を展望する

人工知能 (AI) テクノロジーは、ビジネス プロセスの合理化、運用コストの削減、面倒なタスクの自動...

このレポートを読めば、人工知能に関するあなたの常識は基本的に正しいものとなるでしょう。

[[266878]]中国における人工知能に関する議論の多くは体系化されておらず、断片的であり、人工...

一枚の写真で3D顔モデリングを実現!中国科学院の博士課程学生による ECCV に関する新たな研究 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

「参入から放棄まで」、アップルの自動運転車プロジェクトがさらに190人を解雇

Appleはまたしても悪いニュースを伝えた。 2か月前、悪い収益予測によりAppleの株価は一夜にし...

推奨システムにおける自然言語処理 (NLP) の応用

[[195357]]パーソナライズされた推奨はビッグデータ時代に欠かせない技術であり、電子商取引、情...

Google検索は非常に勤勉で、そのコアアルゴリズムは毎日変化しています

Googleの検索事業責任者アミット・シンガル氏は最近、Google+に記事を掲載し、過去1年だけで...

大規模な言語モデルをローカルで実行する 5 つの簡単な方法

翻訳者 |陳俊レビュー | Chonglou今日では、ChatGPT や phind などの AI ...

知恵くんの“いいとこ”が明らかに!初のユニバーサルな具現化ベースモデル、ロボットは「理解はできるができない」状態に別れを告げる

先週金曜日、知会君は微博で「来週は良いものがリリースされる」と発表した。 「来週」になって間もなく、...

彼女はウルトラマンを追い出すキーパーソンなのか? OpenAI CTOがビッグニュースを発表

OpenAI の内部紛争が 1 年経っても解決されていないとは思いもしませんでした。またしても爆発メ...

All Research: AIガバナンス市場規模は2027年に13億4,520万米ドルに達する

9月28日、市場調査会社オールリサーチが発表したレポートでは、2027年までに人工知能ガバナンス市場...

AIと機械学習における暗黙のアルゴリズムバイアス

[[226077]]オープンソースコミュニティを通じて何ができるでしょうか?アルゴリズムは私たちの世...

...

Google の Bard チャットボットがアップデートされ、リアルタイムで応答を生成できるようになりました

10 月 29 日現在、大規模言語モデル (LLM) では即座に回答を出すことができないため、質問を...