ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

2020 年はボリューメトリックニューラルレンダリングが爆発的に普及する年です。たとえば、NeRF は高品質のビュー合成結果を生成できますが、この方法ではシーンごとに最適化する必要があり、再構築に長い時間がかかります。一方、ディープマルチビューステレオ方式では、ネットワーク推論を通じてシーンのジオメトリを迅速に再構築できます。

南カリフォルニア大学と Adobe Research の研究者は、ニューラル 3D ポイントクラウドとそれに関連するニューラル機能を使用して、ステレオニューラルレンダリングとディープマルチビューステレオ法の利点を組み合わせて放射場をモデル化する Point-NeRF を提案しました。

この論文では、1000 個のポイントから完全なポイントクラウドが作成されます。

初期のCOLMAPポイントを徐々に改良して結果をレンダリングします。

レイマーチングベースのレンダリングパイプラインでは、シーン表面近くのニューラルポイント機能を集約することで、Point-NeRF を効率的にレンダリングできます。さらに、Point-NeRF は、事前トレーニング済みのディープネットワークを直接推論して初期化し、ニューラルポイントクラウドを生成することができます。この点群は微調整が可能で、NeRF のトレーニング時間よりも 30 倍高速であり、NeRF を超える視覚品質を再構築します。 Point-NeRF は他の 3D 再構築方法と組み合わせることができ、新しい剪定および成長メカニズムを通じてこれらの方法のエラーと外れ値を処理します。 DTU、NeRF Synthetics、ScanNet、Tanks and Temples データセットでの実験では、Point-NeRF が既存の方法を上回り、SOTA 結果を達成できることが示されています。

論文アドレス: https://arxiv.org/pdf/2201.08845.pdf
論文ホームページ: https://xharlie.github.io/projects/project_sites/pointnerf/

ポイントNeRF

Point-NeRF は、ポイントベースのニューラル放射フィールドであり、高品質のニューラルシーンの再構築とレンダリングのための新しい方法です。図 2 (b) にアーキテクチャ図を示します。

ボリュームレンダリングと放射場: 物理ベースのボリュームレンダリングは、微分可能なレイマーチングを介して数値的に計算できます。具体的には、ピクセルの放射輝度は、光線をピクセルに通し、光線に沿って {x_j | j = 1, ..., M} 内の M 個のシェーディングポイントをサンプリングし、ボリューム密度を使用して放射輝度を累積することによって計算できます。

ここで、τは体積透過率、σ_jとr_jはx_jにおける各シェーディングポイントjの体積密度と放射輝度、Δ_tは隣接するシェーディングサンプル間の距離です。 NeRF は、このような放射場を回帰するために多層パーセプトロン (MLP) を使用することを提案しています。この研究で提案された Point-NeRF は、ニューラルポイントクラウドを利用して体積特性を計算し、より高速で高品質なレンダリングを実現します。

ポイントベースの放射場: この研究では、P = {(p_i, fi_i, γ_i)|i = 1, …N} を使用してニューラルポイントクラウドを表します。ここで、P_I の各ポイントは i であり、ローカルシーンコンテンツをエンコードするニューラルフィーチャベクトル fi に関連付けられています。この研究では、各ポイントに信頼値γ_i∈[0,1]も割り当てられ、そのポイントが実際のシーンの表面の近くにある可能性を示しています。この研究では、この点群からの放射場を反転します。

任意の 3D 位置 x が与えられた場合、半径 R 内の K 個の隣接するニューラルポイントを照会します。ポイントベースの放射輝度フィールドは、視覚に依存する明るさ r (任意の視覚方向 d に沿って) と任意の影の位置 x での体積密度 σ を隣接するニューラルポイントから次のように回帰するニューラルモジュールとして抽象化できます。

この研究では、回帰のために複数のサブ MLP を備えた PointNet のようなニューラルネットワークを使用しました。全体として、この研究ではまず各神経ポイントに対して神経処理を実行し、次に複数ポイントの情報を集約して最終的な推定値を取得しました。

ポイントNeRF再構成

Point-NeRF 再構成パイプラインを使用すると、ポイントベースの放射線場を効率的に再構成できます。まず、シナリオ全体でトレーニングされたディープニューラルネットワークを使用して、直接ネットワーク推論を通じてポイントベースの初期フィールドを生成します。この初期フィールドは、ポイント成長およびプルーニング技術を通じて各シーンに対してさらに最適化され、最終的に高品質の放射フィールド再構築が実現します。図 3 は、初期予測とシーン最適化に対応する勾配更新を含むこのワークフローを示しています。

既知の画像 I_1、...、I_Q のセットとポイントクラウドが与えられた場合、各ポイントに対してランダムに初期化されたニューラル機能とレンダリング損失のある MLP (NeRF と同様) を最適化することで、Point-NeRF 表現を再構築できます。ただし、この純粋なシーンごとの最適化は既存のポイントクラウドに依存するため、非常に遅くなる可能性があります。

そこで本研究では、フィードフォワードニューラルネットワークを通じて、点の位置p_i、ニューラル特徴f_i、点の信頼度γ_iなど、すべてのニューラル点属性を予測し、効率的な再構築を実現するニューラル生成モジュールを提案する。短時間でレンダリング品質は NeRF よりも優れているか同等ですが、後者は最適化に時間がかかります (表 1 および 2 を参照)。

エンドツーエンドの再構築: この研究では、マルチビューのポイントクラウドを組み合わせて、最終的なニューラルポイントクラウドを取得します。レンダリング損失を使用して、ポイント生成ネットワークと表現ネットワークを最初から最後までトレーニングします (図 3 を参照)。これにより、生成モジュールは適切な初期放射場を生成できます。この研究では、適切な重みを使用して Point-NeRF 表現で MLP を初期化し、各シーンのフィッティング時間を大幅に節約します。

さらに、完全な生成モジュールの使用に加えて、私たちのパイプラインはCOLMAP [44]などの他の方法からのポイントクラウド再構築の使用もサポートしており、その場合でもモデル（MVSネットワークを除く）は各ポイントに対して意味のある初期の神経特徴を提供することができます。

実験

この研究では、まず DTU テストセットでモデルを評価し、PixelNeRF、IBRNet、MVSNeRF、NeRF を比較し、比較のために 10,000 回の反復ですべての方法を微調整しました。さらに、この研究では、Point-NeRF の最適化効率を実証するために 1k 回の反復のみを使用しました。具体的な結果は次のとおりです。

表 1 は、PSNR、SSIM、LPIPS などのさまざまな方法の定量的な比較です。図 6 はレンダリング結果を示しています。結果から、10,000 回の反復後、SSIM と LPIPS がそれぞれ 0.957 と 0.117 で最高値に達し、MVSNeRF と NeRF の結果よりも優れていることがわかります。 IBRNet は 31.35 とわずかに優れた PSNR 結果を生成しますが、図 6 に示すように、Point-NeRF はより正確なテクスチャの詳細とハイライトを復元できます。

一方、IBRNet の微調整コストも高く、同じ反復回数の場合、Point-NeRF の微調整よりも 1 時間長くかかり、5 倍の時間がかかります。これは、IBRNet が大規模なグローバル CNN に依存しているのに対し、Point-NeRF は最適化が容易なローカルポイント機能と MLP を利用しているからです。さらに重要なのは、ポイントベースの表現が実際のシーンの表面の近くに配置されているため、空のシーンでレイポイントをサンプリングする必要がなくなり、シーンごとに効率的な最適化が実現されることです。

IBRNet のより複雑な特徴抽出器は品質を向上させることができますが、メモリ使用量が増加し、トレーニング効率に影響します。さらに重要なことは、Point-NeRF 生成ネットワークがすでに、効率的な最適化をサポートする高品質の初期放射場を提供していることです。研究では、2 分/1K の微調整反復の後でも、Point-NeRF は MVSNeRF の最終的な 10k 反復結果に匹敵する非常に高い視覚品質を達成できることがわかりました。これは、Point-NeRF 法の高い再構築効率も証明しています。

Point-NeRF は DTU データセットでトレーニングされていますが、新しいデータセットにも適切に一般化できます。この研究では、NeRF合成データセットにおけるPoint-NeRFと他のSOTA手法との比較結果を示しています。定性的な結果は図7に、定量的な結果は表2に示されています。

実験結果によると、Point-NeRF_20K は PSNR、SSIM、LIPIPS が優れており、IBRNet の結果を大幅に上回っています。また、図 7 に示すように、この研究では、ジオメトリとテクスチャの詳細が向上した高品質のレンダリングも実現されています。

さまざまなシナリオとの比較: 20K 回の反復後の Point-NeRF は、200K 回のトレーニング反復後の NeRF の結果に非常に近いです。視覚的に言えば、Point-NeRF は、図 7 のイチジクのシーン (4 行目) のように、20K 回の反復処理を行った後で、すでにいくつかのケースでレンダリング結果が向上しています。 Point-NeRF_20K の最適化には 40 分しかかかりませんでしたが、NeRF では 20 時間以上かかりました。この 2 つを比較すると、Point-NeRF は 30 倍近く高速ですが、NSVF の最適化効果は Point-NeRF の 40 分よりわずかに優れているだけです。図 7 に示すように、Point-NeRF 200K の結果には最も多くの幾何学的およびテクスチャの詳細が含まれており、この方法だけがそれらを完全に復元できる方法です。

<<: 研究者は人工知能を使って、膨大なデータに隠された異常をリアルタイムで発見する

>>: GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します