ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

2020年、カリフォルニア大学バークレー校、Google、カリフォルニア大学サンディエゴ校の研究者らは、数枚の静止画像を使用して複数の視点からリアルな3D画像を生成できる「NeRF」と呼ばれる2D画像から3Dへのモデルを提案した。改良モデル NeRF-W (NeRF in the Wild) は、光の変化や障害物の多い屋外環境にも適応し、わずか数分で 3D の観光名所を生成できます。

NeRF モデルのデモ。

NeRF-Wモデルのデモ。

ただし、これらの素晴らしい効果は非常に計算集約的です。各フレームのレンダリングには 30 秒かかり、単一の GPU でモデルをトレーニングするには 1 日かかります。そのため、その後の多くの論文では、特にレンダリングにおける計算コストの改善が図られました。しかし、モデルのトレーニングコストは大幅に削減されておらず、単一の GPU を使用したトレーニングには依然として数時間かかり、これが実装を制限する大きなボトルネックとなっています。

カリフォルニア大学バークレー校の研究者らは新しい論文でこの問題に取り組み、「プレノクセル」と呼ばれる新しい方法を提案した。新しい研究では、ニューラル ネットワークがなくても、放射フィールドを最初からトレーニングすることで NeRF と同じ生成品質を達成でき、最適化が 2 桁高速化されることが示されています。

  • 論文リンク: https://arxiv.org/pdf/2112.05131.pdf
  • プロジェクトホームページ: https://alexyu.net/plenoxels/
  • コードリンク: https://github.com/sxyu/svox2

モデルのシンプルさを活用して大幅な高速化を実現するカスタム CUDA 実装を提供します。制限付きシナリオでは、単一の Titan RTX GPU での Plenoxels の典型的な最適化時間は 11 分ですが、NeRF の場合は約 1 日です。前者は 100 倍以上の高速化を実現します。制限なしシナリオでは、Plenoxels の最適化時間は約 27 分ですが、NeRF++ の場合は約 4 日です。前者は 200 倍以上の高速化を実現します。 Plenoxels の実装は高速レンダリング用に最適化されていませんが、1 秒あたり 15 フレームのインタラクティブな速度で新しい視点をレンダリングできます。レンダリング速度を高速化したい場合は、最適化された Plenoxel モデルを PlenOctree (著者 Alex Yu らが ICCV 2021 論文で提案した新しい方法: https://alexyu.net/plenoctrees/) に変換できます。

具体的には、研究者らは、ニューラル ネットワークを使用せずに、ビューに依存するスパース ボクセル グリッドに基づく明示的なボクセル表現方法を提案しました。新しいモデルは、リアルな新しい視点をレンダリングでき、微分可能なレンダリング損失とトレーニング ビューのバリエーション正規化を使用して、調整された 2D 写真に対してエンドツーエンドの最適化を実行します。

このモデルはボクセルのスパース グリッドで構成されており、各ボクセルには不透明度と球面調和関数の係数情報が格納されているため、Plenoxel (プレノクティック ボリューム要素) と呼ばれています。これらの係数は補間され、完全なプレノプティック関数を空間内で連続的にモデル化します。単一の GPU で高解像度を実現するために、研究者は空のボクセルを削除し、粗から細への最適化戦略を採用しました。コア モデルは境界のあるボクセル グリッドですが、境界のないシーンを次の 2 つの方法でモデル化できます。1) 正規化されたデバイス座標を使用する (前向きのシーンの場合)。2) グリッドの周囲の背景を多球イメージでエンコードする (360° シーンの場合)。

前向きのシーンにおけるプレノクセルの効果。

360° シーンにおける Plenoxel の効果。

このアプローチは、データ表現、順方向モデル、正規化子、最適化子など、逆問題からの現実的なボクセル単位の再構築に標準ツールを使用できることを示しています。これらの各コンポーネントは非常にシンプルでありながら、SOTA 結果を達成できます。実験結果から、Neural Radiance Fields の重要な要素はニューラル ネットワークではなく、微分可能なボクセル レンダラーであることが示されました。

フレームワークの概要

プレノクセルは、各占有ボクセルコーナーにスカラー不透明度 σ と各カラーチャネルの球面調和関数係数のベクトルが格納されるスパースボクセルグリッドです。著者らはこの表現をプレノクセルと呼んでいます。任意の場所と視線方向における不透明度と色は、隣接するボクセルに格納された値の三線補間と、適切な視線方向における球面調和関数の係数の評価によって決定されます。キャリブレーションされた画像のセットが与えられると、トレーニング レイのレンダリング損失を使用してモデルが直接最適化されます。モデルのアーキテクチャを以下の図 2 に示します。

上の図 2 は、スパース Plenoxel モデル フレームワークの概念図です。物体またはシーンの画像セットが与えられると、研究者は各ボクセルの密度と球面調和関数の係数を使用して、(a) 疎ボクセル (Plenoxel) グリッドを再構築します。光をレンダリングするために、(b) 隣接するボクセルの係数の三線補間によって各サンプル ポイントの色と不透明度を計算します。また、(c)微分可能ボクセルレンダリングを使用して、これらのサンプルの色と不透明度を統合します。次に、トレーニング画像と全体的な変動正則化に対する標準MSE再構成損失を使用して、ボクセル係数を最適化できます(d)。

実験結果

研究者らは、合成された境界付きシーン、実際の境界のない前向きシーン、実際の境界のない 360° シーンでモデルのパフォーマンスを実証しました。彼らは、新しいモデルの最適化時間をこれまでのすべての方法 (リアルタイム レンダリングを含む) と比較し、新しいモデルが大幅に高速であることを発見しました。定量的な比較結果を表2に示し、視覚的な比較結果を図6、7、8に示します。

さらに、新しい方法では、図 5 に示すように、最適化の最初のエポック (所要時間は 1.5 分未満) の後でも高品質の結果を得ることができます。

<<:  人工知能技術が現代農業の発展を促進する

>>:  人工知能は仕事をなくしてしまうのでしょうか?マスク氏の提案を聞いてみましょう。

ブログ    
ブログ    

推薦する

3.15を利用して、あなたの周りの偽の人工知能を数えましょう

他のインターネットの概念と同様に、AI は人気が出ると数え切れないほどの支持者を獲得しました。彼らは...

GPT-4V オープンソース代替品!清華大学と浙江大学は、LLaVAやCogAgentなどのオープンソースの視覚モデルの爆発的な普及を先導した。

現在、GPT-4 Vision は言語理解と視覚処理において並外れた能力を発揮しています。ただし、パ...

...

人間はAIの課題にどう立ち向かうのか

経済学者が懸念している大きな問題は、人工知能が雇用にどのような影響を与えるかということです。人工知能...

Python 密度クラスタリング アルゴリズム - DBSCAN の実践

この記事の主な内容:序文DBSCAN クラスタリング アルゴリズムパラメータ選択DBSCANアルゴリ...

...

2024 年の産業用ロボットのトップ 10 のトレンドとイノベーション

産業用ロボットの世界では、イノベーションのペースが加速し続けており、毎年、製造、自動化、作業の方法を...

新しい物理学AIは量子コンピューティング革命の鍵となるかもしれない

海外メディアの報道によると、量子コンピューティングは間違いなく現在最もエキサイティングなテクノロジー...

...

企業向けローコードAI開発プラットフォーム

ソフトウェアとアプリケーションは今日世界を支配しており、ビジネスを成功させるにはトレンドに遅れずにつ...

オープンソースモデルの新記録:Mixtral 8x7B Instructを超えるモデルが登場

Llama、Llama 2 から Mixtral 8x7B まで、オープンソース モデルのパフォーマ...

...

AIと分析がIoT収益化の鍵となる理由

通信業界は現在、競争力を維持するために IoT を収益化するという厳しい課題に直面しており、高度なテ...

...