ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

2020年、カリフォルニア大学バークレー校、Google、カリフォルニア大学サンディエゴ校の研究者らは、数枚の静止画像を使用して複数の視点からリアルな3D画像を生成できる「NeRF」と呼ばれる2D画像から3Dへのモデルを提案した。改良モデル NeRF-W (NeRF in the Wild) は、光の変化や障害物の多い屋外環境にも適応し、わずか数分で 3D の観光名所を生成できます。

NeRF モデルのデモ。

NeRF-Wモデルのデモ。

ただし、これらの素晴らしい効果は非常に計算集約的です。各フレームのレンダリングには 30 秒かかり、単一の GPU でモデルをトレーニングするには 1 日かかります。そのため、その後の多くの論文では、特にレンダリングにおける計算コストの改善が図られました。しかし、モデルのトレーニングコストは大幅に削減されておらず、単一の GPU を使用したトレーニングには依然として数時間かかり、これが実装を制限する大きなボトルネックとなっています。

カリフォルニア大学バークレー校の研究者らは新しい論文でこの問題に取り組み、「プレノクセル」と呼ばれる新しい方法を提案した。新しい研究では、ニューラル ネットワークがなくても、放射フィールドを最初からトレーニングすることで NeRF と同じ生成品質を達成でき、最適化が 2 桁高速化されることが示されています。

  • 論文リンク: https://arxiv.org/pdf/2112.05131.pdf
  • プロジェクトホームページ: https://alexyu.net/plenoxels/
  • コードリンク: https://github.com/sxyu/svox2

モデルのシンプルさを活用して大幅な高速化を実現するカスタム CUDA 実装を提供します。制限付きシナリオでは、単一の Titan RTX GPU での Plenoxels の典型的な最適化時間は 11 分ですが、NeRF の場合は約 1 日です。前者は 100 倍以上の高速化を実現します。制限なしシナリオでは、Plenoxels の最適化時間は約 27 分ですが、NeRF++ の場合は約 4 日です。前者は 200 倍以上の高速化を実現します。 Plenoxels の実装は高速レンダリング用に最適化されていませんが、1 秒あたり 15 フレームのインタラクティブな速度で新しい視点をレンダリングできます。レンダリング速度を高速化したい場合は、最適化された Plenoxel モデルを PlenOctree (著者 Alex Yu らが ICCV 2021 論文で提案した新しい方法: https://alexyu.net/plenoctrees/) に変換できます。

具体的には、研究者らは、ニューラル ネットワークを使用せずに、ビューに依存するスパース ボクセル グリッドに基づく明示的なボクセル表現方法を提案しました。新しいモデルは、リアルな新しい視点をレンダリングでき、微分可能なレンダリング損失とトレーニング ビューのバリエーション正規化を使用して、調整された 2D 写真に対してエンドツーエンドの最適化を実行します。

このモデルはボクセルのスパース グリッドで構成されており、各ボクセルには不透明度と球面調和関数の係数情報が格納されているため、Plenoxel (プレノクティック ボリューム要素) と呼ばれています。これらの係数は補間され、完全なプレノプティック関数を空間内で連続的にモデル化します。単一の GPU で高解像度を実現するために、研究者は空のボクセルを削除し、粗から細への最適化戦略を採用しました。コア モデルは境界のあるボクセル グリッドですが、境界のないシーンを次の 2 つの方法でモデル化できます。1) 正規化されたデバイス座標を使用する (前向きのシーンの場合)。2) グリッドの周囲の背景を多球イメージでエンコードする (360° シーンの場合)。

前向きのシーンにおけるプレノクセルの効果。

360° シーンにおける Plenoxel の効果。

このアプローチは、データ表現、順方向モデル、正規化子、最適化子など、逆問題からの現実的なボクセル単位の再構築に標準ツールを使用できることを示しています。これらの各コンポーネントは非常にシンプルでありながら、SOTA 結果を達成できます。実験結果から、Neural Radiance Fields の重要な要素はニューラル ネットワークではなく、微分可能なボクセル レンダラーであることが示されました。

フレームワークの概要

プレノクセルは、各占有ボクセルコーナーにスカラー不透明度 σ と各カラーチャネルの球面調和関数係数のベクトルが格納されるスパースボクセルグリッドです。著者らはこの表現をプレノクセルと呼んでいます。任意の場所と視線方向における不透明度と色は、隣接するボクセルに格納された値の三線補間と、適切な視線方向における球面調和関数の係数の評価によって決定されます。キャリブレーションされた画像のセットが与えられると、トレーニング レイのレンダリング損失を使用してモデルが直接最適化されます。モデルのアーキテクチャを以下の図 2 に示します。

上の図 2 は、スパース Plenoxel モデル フレームワークの概念図です。物体またはシーンの画像セットが与えられると、研究者は各ボクセルの密度と球面調和関数の係数を使用して、(a) 疎ボクセル (Plenoxel) グリッドを再構築します。光をレンダリングするために、(b) 隣接するボクセルの係数の三線補間によって各サンプル ポイントの色と不透明度を計算します。また、(c)微分可能ボクセルレンダリングを使用して、これらのサンプルの色と不透明度を統合します。次に、トレーニング画像と全体的な変動正則化に対する標準MSE再構成損失を使用して、ボクセル係数を最適化できます(d)。

実験結果

研究者らは、合成された境界付きシーン、実際の境界のない前向きシーン、実際の境界のない 360° シーンでモデルのパフォーマンスを実証しました。彼らは、新しいモデルの最適化時間をこれまでのすべての方法 (リアルタイム レンダリングを含む) と比較し、新しいモデルが大幅に高速であることを発見しました。定量的な比較結果を表2に示し、視覚的な比較結果を図6、7、8に示します。

さらに、新しい方法では、図 5 に示すように、最適化の最初のエポック (所要時間は 1.5 分未満) の後でも高品質の結果を得ることができます。

<<:  人工知能技術が現代農業の発展を促進する

>>:  人工知能は仕事をなくしてしまうのでしょうか?マスク氏の提案を聞いてみましょう。

ブログ    
ブログ    

推薦する

HiLM-D: 自動運転のためのマルチモーダル大規模言語モデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

私の国のAI技術は世界をリードしており、人工知能時代のリーダーになるでしょう。アメリカは今回も準優勝になるのでしょうか?

ロボット時代の到来はそう遠くないかもしれない。少し前に、清華大学は「華志兵」という名のヒューマノイド...

2024 年に向けた 6 つの生成 AI 予測

アナリストの Mike Leone 氏は、オープンソースから規制の変化まで、生成 AI の今後を予測...

...

ドローン技術の飛躍的進歩とアプリケーションの革新が2017年に新たな時代を告げるかもしれない

いたるところで見られる「ドローン+自撮り・追尾撮影」、今年JD.comとAmazonが開始した「ドロ...

機械学習における 5 つの現実的な問題とビジネスへの影響

今日、多くの企業は大量のデータを迅速に処理する必要があります。同時に、競争環境は急速に進化しているた...

AIはスマートシティの人材採用に役割を果たすのでしょうか?

AI ツールとテクノロジーはスマート シティと IoT 主導の業界にとってゲームチェンジャーとなっ...

AIは観光業を良いビジネスにするでしょうか?

[[245713]]黄金の9月と銀の10月、観光業界は好景気の日々を待ち望んでいました。一方では、...

2019 年の人工知能のトレンド トップ 25!一つの記事が未来を予見する

人工知能の次なる展開は?先週、有名な組織 CBinsights のアナリストがさまざまな業界を分析し...

データベースは再び削除されましたが、今回はAIによって削除されました

最近、またデータベース削除事件が起こっていると聞きました。しかし、今回はこれまでとは異なります。作業...

宝くじに当たるのは雷に打たれるより難しいですか?確率を向上させるためにアルゴリズムを使ってみる

宝くじで生計を立てる可能性はどれくらいありますか? 2005年、MITの学生グループが集まり、ギャン...

市場規模は22億を超えるか?教育用ロボットは急速に発展している

教育は知識を伝える社会的活動として、国の人材育成システムや経済発展に影響を与え、国家の繁栄を促進しま...

人工知能を活用してビジネスを拡大するための 5 つの戦略

現時点では、インテリジェント技術の期待とリターンはまだ不明確であり、製品の創造性と投資を強化するため...