ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

2020年、カリフォルニア大学バークレー校、Google、カリフォルニア大学サンディエゴ校の研究者らは、数枚の静止画像を使用して複数の視点からリアルな3D画像を生成できる「NeRF」と呼ばれる2D画像から3Dへのモデルを提案した。改良モデル NeRF-W (NeRF in the Wild) は、光の変化や障害物の多い屋外環境にも適応し、わずか数分で 3D の観光名所を生成できます。

NeRF モデルのデモ。

NeRF-Wモデルのデモ。

ただし、これらの素晴らしい効果は非常に計算集約的です。各フレームのレンダリングには 30 秒かかり、単一の GPU でモデルをトレーニングするには 1 日かかります。そのため、その後の多くの論文では、特にレンダリングにおける計算コストの改善が図られました。しかし、モデルのトレーニングコストは大幅に削減されておらず、単一の GPU を使用したトレーニングには依然として数時間かかり、これが実装を制限する大きなボトルネックとなっています。

カリフォルニア大学バークレー校の研究者らは新しい論文でこの問題に取り組み、「プレノクセル」と呼ばれる新しい方法を提案した。新しい研究では、ニューラル ネットワークがなくても、放射フィールドを最初からトレーニングすることで NeRF と同じ生成品質を達成でき、最適化が 2 桁高速化されることが示されています。

  • 論文リンク: https://arxiv.org/pdf/2112.05131.pdf
  • プロジェクトホームページ: https://alexyu.net/plenoxels/
  • コードリンク: https://github.com/sxyu/svox2

モデルのシンプルさを活用して大幅な高速化を実現するカスタム CUDA 実装を提供します。制限付きシナリオでは、単一の Titan RTX GPU での Plenoxels の典型的な最適化時間は 11 分ですが、NeRF の場合は約 1 日です。前者は 100 倍以上の高速化を実現します。制限なしシナリオでは、Plenoxels の最適化時間は約 27 分ですが、NeRF++ の場合は約 4 日です。前者は 200 倍以上の高速化を実現します。 Plenoxels の実装は高速レンダリング用に最適化されていませんが、1 秒あたり 15 フレームのインタラクティブな速度で新しい視点をレンダリングできます。レンダリング速度を高速化したい場合は、最適化された Plenoxel モデルを PlenOctree (著者 Alex Yu らが ICCV 2021 論文で提案した新しい方法: https://alexyu.net/plenoctrees/) に変換できます。

具体的には、研究者らは、ニューラル ネットワークを使用せずに、ビューに依存するスパース ボクセル グリッドに基づく明示的なボクセル表現方法を提案しました。新しいモデルは、リアルな新しい視点をレンダリングでき、微分可能なレンダリング損失とトレーニング ビューのバリエーション正規化を使用して、調整された 2D 写真に対してエンドツーエンドの最適化を実行します。

このモデルはボクセルのスパース グリッドで構成されており、各ボクセルには不透明度と球面調和関数の係数情報が格納されているため、Plenoxel (プレノクティック ボリューム要素) と呼ばれています。これらの係数は補間され、完全なプレノプティック関数を空間内で連続的にモデル化します。単一の GPU で高解像度を実現するために、研究者は空のボクセルを削除し、粗から細への最適化戦略を採用しました。コア モデルは境界のあるボクセル グリッドですが、境界のないシーンを次の 2 つの方法でモデル化できます。1) 正規化されたデバイス座標を使用する (前向きのシーンの場合)。2) グリッドの周囲の背景を多球イメージでエンコードする (360° シーンの場合)。

前向きのシーンにおけるプレノクセルの効果。

360° シーンにおける Plenoxel の効果。

このアプローチは、データ表現、順方向モデル、正規化子、最適化子など、逆問題からの現実的なボクセル単位の再構築に標準ツールを使用できることを示しています。これらの各コンポーネントは非常にシンプルでありながら、SOTA 結果を達成できます。実験結果から、Neural Radiance Fields の重要な要素はニューラル ネットワークではなく、微分可能なボクセル レンダラーであることが示されました。

フレームワークの概要

プレノクセルは、各占有ボクセルコーナーにスカラー不透明度 σ と各カラーチャネルの球面調和関数係数のベクトルが格納されるスパースボクセルグリッドです。著者らはこの表現をプレノクセルと呼んでいます。任意の場所と視線方向における不透明度と色は、隣接するボクセルに格納された値の三線補間と、適切な視線方向における球面調和関数の係数の評価によって決定されます。キャリブレーションされた画像のセットが与えられると、トレーニング レイのレンダリング損失を使用してモデルが直接最適化されます。モデルのアーキテクチャを以下の図 2 に示します。

上の図 2 は、スパース Plenoxel モデル フレームワークの概念図です。物体またはシーンの画像セットが与えられると、研究者は各ボクセルの密度と球面調和関数の係数を使用して、(a) 疎ボクセル (Plenoxel) グリッドを再構築します。光をレンダリングするために、(b) 隣接するボクセルの係数の三線補間によって各サンプル ポイントの色と不透明度を計算します。また、(c)微分可能ボクセルレンダリングを使用して、これらのサンプルの色と不透明度を統合します。次に、トレーニング画像と全体的な変動正則化に対する標準MSE再構成損失を使用して、ボクセル係数を最適化できます(d)。

実験結果

研究者らは、合成された境界付きシーン、実際の境界のない前向きシーン、実際の境界のない 360° シーンでモデルのパフォーマンスを実証しました。彼らは、新しいモデルの最適化時間をこれまでのすべての方法 (リアルタイム レンダリングを含む) と比較し、新しいモデルが大幅に高速であることを発見しました。定量的な比較結果を表2に示し、視覚的な比較結果を図6、7、8に示します。

さらに、新しい方法では、図 5 に示すように、最適化の最初のエポック (所要時間は 1.5 分未満) の後でも高品質の結果を得ることができます。

<<:  人工知能技術が現代農業の発展を促進する

>>:  人工知能は仕事をなくしてしまうのでしょうか?マスク氏の提案を聞いてみましょう。

ブログ    

推薦する

...

デジタル変革、人工知能、そして生産性の問題

企業がデジタル変革を進める際に、生成 AI がいかにして企業の生産性を向上させることができるかについ...

機械学習の発展の歴史と啓蒙

[[188091]]近年、人工知能の目覚ましい発展、特にAlphaGoと韓国のチェスプレイヤー、イ・...

996の非効率性にノーと言いましょう: ChatGPTはコードコメントとドキュメントを簡単に処理するのに役立ちます

適切なコメントは、Python プロジェクトを成功させる上で非常に重要です。実際には、コメントを書く...

...

機械学習を始めるときによくある5つの間違い

[[195041]]機械学習を始めるにあたって、万能のアプローチは存在しません。私たちは皆、少しずつ...

機械学習とビジネスを組み合わせる上で最も重要なことは何でしょうか?

純粋に学術的な目的で機械学習モデルを構築することと、製造、金融サービス、小売、エンターテインメント、...

Googleが生成AIをオンラインショッピングに適用、実在のモデルが高精度な仮想衣装着せ替えを実現

グーグルは6月15日、オンラインショッピングツールに新たな生成AI技術を導入すると発表した。この技術...

畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

Facebook AI は、Transformer を完全にベースとし、畳み込みが不要で、トレーニン...

将来、AIと競争して仕事を得るための16の実践的なヒント

[[256943]]現在、多くの企業がすでに人工知能と機械学習を活用しており、これらのテクノロジーの...

AI+IoT: インテリジェント IoT (インダストリー 4.0 を含む) の需要が高い 5 つの業界

未来のスマートワールドでは、あらゆるものがモノのインターネットでつながり、あらゆるものがインテリジェ...

...

NASAのジェット推進研究所が人工知能に取り組んでいる様子をご覧ください

[51CTO.com クイック翻訳] ジェット推進研究所 (JPL) では、同僚がインテリジェントな...

ルカン氏と彼のポスドク研究員はarxivに論文を発表したが、redditのネットユーザーから「最初の写真は間違っている」と疑問視された。

ニューラル ネットワーク モデルのトレーニングの最大の欠点は、大量のトレーニング データが必要になる...