ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

2020 年はボリューメトリック ニューラル レンダリングが爆発的に普及する年です。たとえば、NeRF は高品質のビュー合成結果を生成できますが、この方法ではシーンごとに最適化する必要があり、再構築に長い時間がかかります。一方、ディープマルチビューステレオ方式では、ネットワーク推論を通じてシーンのジオメトリを迅速に再構築できます。

南カリフォルニア大学と Adob​​e Research の研究者は、ニューラル 3D ポイント クラウドとそれに関連するニューラル機能を使用して、ステレオ ニューラル レンダリングとディープ マルチビュー ステレオ法の利点を組み合わせて放射場をモデル化する Point-NeRF を提案しました。

この論文では、1000 個のポイントから完全なポイント クラウドが作成されます。

初期のCOLMAPポイントを徐々に改良して結果をレンダリングします。

レイマーチングベースのレンダリングパイプラインでは、シーン表面近くのニューラルポイント機能を集約することで、Point-NeRF を効率的にレンダリングできます。さらに、Point-NeRF は、事前トレーニング済みのディープ ネットワークを直接推論して初期化し、ニューラル ポイント クラウドを生成することができます。この点群は微調整が可能で、NeRF のトレーニング時間よりも 30 倍高速であり、NeRF を超える視覚品質を再構築します。 Point-NeRF は他の 3D 再構築方法と組み合わせることができ、新しい剪定および成長メカニズムを通じてこれらの方法のエラーと外れ値を処理します。 DTU、NeRF Synthetics、ScanNet、Tanks and Temples データセットでの実験では、Point-NeRF が既存の方法を上回り、SOTA 結果を達成できることが示されています。

  • 論文アドレス: https://arxiv.org/pdf/2201.08845.pdf
  • 論文ホームページ: https://xharlie.github.io/projects/project_sites/pointnerf/

ポイントNeRF

Point-NeRF は、ポイントベースのニューラル放射フィールドであり、高品質のニューラルシーンの再構築とレンダリングのための新しい方法です。図 2 (b) にアーキテクチャ図を示します。

ボリューム レンダリングと放射場: 物理ベースのボリューム レンダリングは、微分可能なレイ マーチングを介して数値的に計算できます。具体的には、ピクセルの放射輝度は、光線をピクセルに通し、光線に沿って {x_j | j = 1, ..., M} 内の M 個のシェーディング ポイントをサンプリングし、ボリューム密度を使用して放射輝度を累積することによって計算できます。

ここで、τは体積透過率、σ_jとr_jはx_jにおける各シェーディングポイントjの体積密度と放射輝度、Δ_tは隣接するシェーディングサンプル間の距離です。 NeRF は、このような放射場を回帰するために多層パーセプトロン (MLP) を使用することを提案しています。この研究で提案された Point-NeRF は、ニューラル ポイント クラウドを利用して体積特性を計算し、より高速で高品質なレンダリングを実現します。

ポイントベースの放射場: この研究では、P = {(p_i, fi_i, γ_i)|i = 1, …N} を使用してニューラル ポイント クラウドを表します。ここで、P_I の各ポイントは i であり、ローカル シーン コンテンツをエンコードするニューラル フィーチャ ベクトル fi に関連付けられています。この研究では、各ポイントに信頼値γ_i∈[0,1]も割り当てられ、そのポイントが実際のシーンの表面の近くにある可能性を示しています。この研究では、この点群からの放射場を反転します。

任意の 3D 位置 x が与えられた場合、半径 R 内の K 個の隣接するニューラル ポイントを照会します。ポイントベースの放射輝度フィールドは、視覚に依存する明るさ r (任意の視覚方向 d に沿って) と任意の影の位置 x での体積密度 σ を隣接するニューラル ポイントから次のように回帰するニューラル モジュールとして抽象化できます。

この研究では、回帰のために複数のサブ MLP を備えた PointNet のようなニューラル ネットワークを使用しました。全体として、この研究ではまず各神経ポイントに対して神経処理を実行し、次に複数ポイントの情報を集約して最終的な推定値を取得しました。

ポイントNeRF再構成

Point-NeRF 再構成パイプラインを使用すると、ポイントベースの放射線場を効率的に再構成できます。まず、シナリオ全体でトレーニングされたディープ ニューラル ネットワークを使用して、直接ネットワーク推論を通じてポイントベースの初期フィールドを生成します。この初期フィールドは、ポイント成長およびプルーニング技術を通じて各シーンに対してさらに最適化され、最終的に高品質の放射フィールド再構築が実現します。図 3 は、初期予測とシーン最適化に対応する勾配更新を含むこのワークフローを示しています。

既知の画像 I_1、...、I_Q のセットとポイント クラウドが与えられた場合、各ポイントに対してランダムに初期化されたニューラル機能とレンダリング損失のある MLP (NeRF と同様) を最適化することで、Point-NeRF 表現を再構築できます。ただし、この純粋なシーンごとの最適化は既存のポイント クラウドに依存するため、非常に遅くなる可能性があります。

そこで本研究では、フィードフォワードニューラルネットワークを通じて、点の位置p_i、ニューラル特徴f_i、点の信頼度γ_iなど、すべてのニューラル点属性を予測し、効率的な再構築を実現するニューラル生成モジュールを提案する。短時間でレンダリング品質は NeRF よりも優れているか同等ですが、後者は最適化に時間がかかります (表 1 および 2 を参照)。

エンドツーエンドの再構築: この研究では、マルチビューのポイントクラウドを組み合わせて、最終的なニューラルポイントクラウドを取得します。レンダリング損失を使用して、ポイント生成ネットワークと表現ネットワークを最初から最後までトレーニングします (図 3 を参照)。これにより、生成モジュールは適切な初期放射場を生成できます。この研究では、適切な重みを使用して Point-NeRF 表現で MLP を初期化し、各シーンのフィッティング時間を大幅に節約します。

さらに、完全な生成モジュールの使用に加えて、私たちのパイプラインはCOLMAP [44]などの他の方法からのポイントクラウド再構築の使用もサポートしており、その場合でもモデル(MVSネットワークを除く)は各ポイントに対して意味のある初期の神経特徴を提供することができます。

実験

この研究では、まず DTU テスト セットでモデルを評価し、PixelNeRF、IBRNet、MVSNeRF、NeRF を比較し、比較のために 10,000 回の反復ですべての方法を微調整しました。さらに、この研究では、Point-NeRF の最適化効率を実証するために 1k 回の反復のみを使用しました。具体的な結果は次のとおりです。

表 1 は、PSNR、SSIM、LPIPS などのさまざまな方法の定量的な比較です。図 6 はレンダリング結果を示しています。結果から、10,000 回の反復後、SSIM と LPIPS がそれぞれ 0.957 と 0.117 で最高値に達し、MVSNeRF と NeRF の結果よりも優れていることがわかります。 IBRNet は 31.35 とわずかに優れた PSNR 結果を生成しますが、図 6 に示すように、Point-NeRF はより正確なテクスチャの詳細とハイライトを復元できます。

一方、IBRNet の微調整コストも高く、同じ反復回数の場合、Point-NeRF の微調整よりも 1 時間長くかかり、5 倍の時間がかかります。これは、IBRNet が大規模なグローバル CNN に依存しているのに対し、Point-NeRF は最適化が容易なローカル ポイント機能と MLP を利用しているからです。さらに重要なのは、ポイントベースの表現が実際のシーンの表面の近くに配置されているため、空のシーンでレイポイントをサンプリングする必要がなくなり、シーンごとに効率的な最適化が実現されることです。

IBRNet のより複雑な特徴抽出器は品質を向上させることができますが、メモリ使用量が増加し、トレーニング効率に影響します。さらに重要なことは、Point-NeRF 生成ネットワークがすでに、効率的な最適化をサポートする高品質の初期放射場を提供していることです。研究では、2 分/1K の微調整反復の後でも、Point-NeRF は MVSNeRF の最終的な 10k 反復結果に匹敵する非常に高い視覚品質を達成できることがわかりました。これは、Point-NeRF 法の高い再構築効率も証明しています。

Point-NeRF は DTU データセットでトレーニングされていますが、新しいデータセットにも適切に一般化できます。この研究では、NeRF合成データセットにおけるPoint-NeRFと他のSOTA手法との比較結果を示しています。定性的な結果は図7に、定量的な結果は表2に示されています。

実験結果によると、Point-NeRF_20K は PSNR、SSIM、LIPIPS が優れており、IBRNet の結果を大幅に上回っています。また、図 7 に示すように、この研究では、ジオメトリとテクスチャの詳細が向上した高品質のレンダリングも実現されています。

さまざまなシナリオとの比較: 20K 回の反復後の Point-NeRF は、200K 回のトレーニング反復後の NeRF の結果に非常に近いです。視覚的に言えば、Point-NeRF は、図 7 のイチジクのシーン (4 行目) のように、20K 回の反復処理を行った後で、すでにいくつかのケースでレンダリング結果が向上しています。 Point-NeRF_20K の最適化には 40 分しかかかりませんでしたが、NeRF では 20 時間以上かかりました。この 2 つを比較すると、Point-NeRF は 30 倍近く高速ですが、NSVF の最適化効果は Point-NeRF の 40 分よりわずかに優れているだけです。図 7 に示すように、Point-NeRF 200K の結果には最も多くの幾何学的およびテクスチャの詳細が含まれており、この方法だけがそれらを完全に復元できる方法です。

<<:  研究者は人工知能を使って、膨大なデータに隠された異常をリアルタイムで発見する

>>:  GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

このAIアルゴリズムの面接体験は非常に役立つ:Amazonは履歴書から面接まで実践的な経験を共有

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

WidthFormer: リアルタイム自動運転!変圧器ベースのBEVソリューションの量産を支援

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

テスラは最初にこの問題の矢面に立たされ、自動運転の安全性の問題が再び話題となっている。

今日、自動運転は自動車産業の発展と変革の重要な方向性の一つとなっています。自動運転技術が成熟するにつ...

NLP モデルは人間のレベルを超えるか?大きな詐欺に遭ったかもしれない

[[276457]]ビッグデータダイジェスト制作出典: thegradient編纂者:張瑞怡、呉帥、...

ニューラルネットワークに基づくマルウェア検出分析

今日、あらゆる業界にとって、「マルウェアを効果的に検出する方法」は、ネットワーク セキュリティに関す...

人工知能は「馴染みのものを殺す」ツールになるのでしょうか?

長い間、私の携帯電話のパッケージには主に 400 分の通話時間 + 500M のネットワーク トラフ...

...

Google と OpenAI の新しい研究: ダーウィンの進化論を人工知能アルゴリズムの設計にどのように活用するか?

現代の機械知能は自然を模倣することに基づいています。この分野の主な目標は、人間が生物学的に持つ強力な...

AIが広告部門に侵入、Google社員は職を失うことを懸念

12月24日、グーグルが社内の効率化のために人工知能(AI)ツールの導入を検討していると報じられた。...

サーバーが過負荷状態です! GANで生成された肖像油絵は人気があり、一瞬でルネッサンス時代に戻ることができます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

モデルA: おかげさまで0点にならずに済みました。モデルB: 私も同じです。

多種多様なレゴブロックを一つずつ積み重ねて、あらゆる種類の本物そっくりのキャラクターや風景などを作成...

...