ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

2020 年はボリューメトリック ニューラル レンダリングが爆発的に普及する年です。たとえば、NeRF は高品質のビュー合成結果を生成できますが、この方法ではシーンごとに最適化する必要があり、再構築に長い時間がかかります。一方、ディープマルチビューステレオ方式では、ネットワーク推論を通じてシーンのジオメトリを迅速に再構築できます。

南カリフォルニア大学と Adob​​e Research の研究者は、ニューラル 3D ポイント クラウドとそれに関連するニューラル機能を使用して、ステレオ ニューラル レンダリングとディープ マルチビュー ステレオ法の利点を組み合わせて放射場をモデル化する Point-NeRF を提案しました。

この論文では、1000 個のポイントから完全なポイント クラウドが作成されます。

初期のCOLMAPポイントを徐々に改良して結果をレンダリングします。

レイマーチングベースのレンダリングパイプラインでは、シーン表面近くのニューラルポイント機能を集約することで、Point-NeRF を効率的にレンダリングできます。さらに、Point-NeRF は、事前トレーニング済みのディープ ネットワークを直接推論して初期化し、ニューラル ポイント クラウドを生成することができます。この点群は微調整が可能で、NeRF のトレーニング時間よりも 30 倍高速であり、NeRF を超える視覚品質を再構築します。 Point-NeRF は他の 3D 再構築方法と組み合わせることができ、新しい剪定および成長メカニズムを通じてこれらの方法のエラーと外れ値を処理します。 DTU、NeRF Synthetics、ScanNet、Tanks and Temples データセットでの実験では、Point-NeRF が既存の方法を上回り、SOTA 結果を達成できることが示されています。

  • 論文アドレス: https://arxiv.org/pdf/2201.08845.pdf
  • 論文ホームページ: https://xharlie.github.io/projects/project_sites/pointnerf/

ポイントNeRF

Point-NeRF は、ポイントベースのニューラル放射フィールドであり、高品質のニューラルシーンの再構築とレンダリングのための新しい方法です。図 2 (b) にアーキテクチャ図を示します。

ボリューム レンダリングと放射場: 物理ベースのボリューム レンダリングは、微分可能なレイ マーチングを介して数値的に計算できます。具体的には、ピクセルの放射輝度は、光線をピクセルに通し、光線に沿って {x_j | j = 1, ..., M} 内の M 個のシェーディング ポイントをサンプリングし、ボリューム密度を使用して放射輝度を累積することによって計算できます。

ここで、τは体積透過率、σ_jとr_jはx_jにおける各シェーディングポイントjの体積密度と放射輝度、Δ_tは隣接するシェーディングサンプル間の距離です。 NeRF は、このような放射場を回帰するために多層パーセプトロン (MLP) を使用することを提案しています。この研究で提案された Point-NeRF は、ニューラル ポイント クラウドを利用して体積特性を計算し、より高速で高品質なレンダリングを実現します。

ポイントベースの放射場: この研究では、P = {(p_i, fi_i, γ_i)|i = 1, …N} を使用してニューラル ポイント クラウドを表します。ここで、P_I の各ポイントは i であり、ローカル シーン コンテンツをエンコードするニューラル フィーチャ ベクトル fi に関連付けられています。この研究では、各ポイントに信頼値γ_i∈[0,1]も割り当てられ、そのポイントが実際のシーンの表面の近くにある可能性を示しています。この研究では、この点群からの放射場を反転します。

任意の 3D 位置 x が与えられた場合、半径 R 内の K 個の隣接するニューラル ポイントを照会します。ポイントベースの放射輝度フィールドは、視覚に依存する明るさ r (任意の視覚方向 d に沿って) と任意の影の位置 x での体積密度 σ を隣接するニューラル ポイントから次のように回帰するニューラル モジュールとして抽象化できます。

この研究では、回帰のために複数のサブ MLP を備えた PointNet のようなニューラル ネットワークを使用しました。全体として、この研究ではまず各神経ポイントに対して神経処理を実行し、次に複数ポイントの情報を集約して最終的な推定値を取得しました。

ポイントNeRF再構成

Point-NeRF 再構成パイプラインを使用すると、ポイントベースの放射線場を効率的に再構成できます。まず、シナリオ全体でトレーニングされたディープ ニューラル ネットワークを使用して、直接ネットワーク推論を通じてポイントベースの初期フィールドを生成します。この初期フィールドは、ポイント成長およびプルーニング技術を通じて各シーンに対してさらに最適化され、最終的に高品質の放射フィールド再構築が実現します。図 3 は、初期予測とシーン最適化に対応する勾配更新を含むこのワークフローを示しています。

既知の画像 I_1、...、I_Q のセットとポイント クラウドが与えられた場合、各ポイントに対してランダムに初期化されたニューラル機能とレンダリング損失のある MLP (NeRF と同様) を最適化することで、Point-NeRF 表現を再構築できます。ただし、この純粋なシーンごとの最適化は既存のポイント クラウドに依存するため、非常に遅くなる可能性があります。

そこで本研究では、フィードフォワードニューラルネットワークを通じて、点の位置p_i、ニューラル特徴f_i、点の信頼度γ_iなど、すべてのニューラル点属性を予測し、効率的な再構築を実現するニューラル生成モジュールを提案する。短時間でレンダリング品質は NeRF よりも優れているか同等ですが、後者は最適化に時間がかかります (表 1 および 2 を参照)。

エンドツーエンドの再構築: この研究では、マルチビューのポイントクラウドを組み合わせて、最終的なニューラルポイントクラウドを取得します。レンダリング損失を使用して、ポイント生成ネットワークと表現ネットワークを最初から最後までトレーニングします (図 3 を参照)。これにより、生成モジュールは適切な初期放射場を生成できます。この研究では、適切な重みを使用して Point-NeRF 表現で MLP を初期化し、各シーンのフィッティング時間を大幅に節約します。

さらに、完全な生成モジュールの使用に加えて、私たちのパイプラインはCOLMAP [44]などの他の方法からのポイントクラウド再構築の使用もサポートしており、その場合でもモデル(MVSネットワークを除く)は各ポイントに対して意味のある初期の神経特徴を提供することができます。

実験

この研究では、まず DTU テスト セットでモデルを評価し、PixelNeRF、IBRNet、MVSNeRF、NeRF を比較し、比較のために 10,000 回の反復ですべての方法を微調整しました。さらに、この研究では、Point-NeRF の最適化効率を実証するために 1k 回の反復のみを使用しました。具体的な結果は次のとおりです。

表 1 は、PSNR、SSIM、LPIPS などのさまざまな方法の定量的な比較です。図 6 はレンダリング結果を示しています。結果から、10,000 回の反復後、SSIM と LPIPS がそれぞれ 0.957 と 0.117 で最高値に達し、MVSNeRF と NeRF の結果よりも優れていることがわかります。 IBRNet は 31.35 とわずかに優れた PSNR 結果を生成しますが、図 6 に示すように、Point-NeRF はより正確なテクスチャの詳細とハイライトを復元できます。

一方、IBRNet の微調整コストも高く、同じ反復回数の場合、Point-NeRF の微調整よりも 1 時間長くかかり、5 倍の時間がかかります。これは、IBRNet が大規模なグローバル CNN に依存しているのに対し、Point-NeRF は最適化が容易なローカル ポイント機能と MLP を利用しているからです。さらに重要なのは、ポイントベースの表現が実際のシーンの表面の近くに配置されているため、空のシーンでレイポイントをサンプリングする必要がなくなり、シーンごとに効率的な最適化が実現されることです。

IBRNet のより複雑な特徴抽出器は品質を向上させることができますが、メモリ使用量が増加し、トレーニング効率に影響します。さらに重要なことは、Point-NeRF 生成ネットワークがすでに、効率的な最適化をサポートする高品質の初期放射場を提供していることです。研究では、2 分/1K の微調整反復の後でも、Point-NeRF は MVSNeRF の最終的な 10k 反復結果に匹敵する非常に高い視覚品質を達成できることがわかりました。これは、Point-NeRF 法の高い再構築効率も証明しています。

Point-NeRF は DTU データセットでトレーニングされていますが、新しいデータセットにも適切に一般化できます。この研究では、NeRF合成データセットにおけるPoint-NeRFと他のSOTA手法との比較結果を示しています。定性的な結果は図7に、定量的な結果は表2に示されています。

実験結果によると、Point-NeRF_20K は PSNR、SSIM、LIPIPS が優れており、IBRNet の結果を大幅に上回っています。また、図 7 に示すように、この研究では、ジオメトリとテクスチャの詳細が向上した高品質のレンダリングも実現されています。

さまざまなシナリオとの比較: 20K 回の反復後の Point-NeRF は、200K 回のトレーニング反復後の NeRF の結果に非常に近いです。視覚的に言えば、Point-NeRF は、図 7 のイチジクのシーン (4 行目) のように、20K 回の反復処理を行った後で、すでにいくつかのケースでレンダリング結果が向上しています。 Point-NeRF_20K の最適化には 40 分しかかかりませんでしたが、NeRF では 20 時間以上かかりました。この 2 つを比較すると、Point-NeRF は 30 倍近く高速ですが、NSVF の最適化効果は Point-NeRF の 40 分よりわずかに優れているだけです。図 7 に示すように、Point-NeRF 200K の結果には最も多くの幾何学的およびテクスチャの詳細が含まれており、この方法だけがそれらを完全に復元できる方法です。

<<:  研究者は人工知能を使って、膨大なデータに隠された異常をリアルタイムで発見する

>>:  GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

ブログ    

推薦する

...

科学春節祭、それはBステーションに違いない:志会君のロボットアームが広漢宮殿を建設し、アカデミー会員の下半身が直接消えた

Bilibiliが科学春節祭-スーパーサイエンス祭を開催すると聞きました。この興奮を味わうには、現地...

中国初!最も人気のあるMoE大型モデルアプリがここにあります。無料でダウンロードでき、誰でもプレイできます。

MoE(Mixed of Experts)モデルは最近とても人気があるので、詳しく紹介する必要はな...

人工知能とはいったい何でしょうか?それは人間に取って代わるのでしょうか? AIのすべてを解説した本

[[379264]]人工知能(AI)の発展に伴い、機械が人間の労働に取って代わるというニュース報道が...

AWS CISO: GenAI は単なるツールであり、万能薬ではない

Chris Betz 氏は、サイバーセキュリティにおける GenAI の役割について恐れたり、過度に...

...

機械学習を学ぶ際に早い段階で知っておくべき3つのこと

私は長年、学界と産業界の両方で機械学習モデリングに取り組んできましたが、Scalable ML で「...

2021年にはAI機能を導入する企業がますます増える

[[360047]]今年、ほとんどの企業は、新型コロナウイルス感染症による混乱に対処し、リモートワー...

sklearn 機械学習の使い方を 5 分で解説します (パート 1)

[[205998]]皆さんのお役に立てれば幸いですので、この投稿を書くのは大変でした。機械学習とデ...

CoCoPIE 主任科学者との対話: AI は審判になれるが、ショーを乗っ取ることはできない | T Frontline

「サッカーのフィールドで最もタブーなことは、誰もが明らかなファウルに気づいているのに審判が見て見ぬ...

レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける

オランダのラドバウド大学は8月2日、MetaやOpenAIなどの企業が「オープンソース」という用語を...

...

言語学における人工知能技術の応用

1990年代初頭、中国の著名な学者である周海中氏は、人工知能技術がさまざまな分野で広く使用され、予想...

商用顔認識は一時停止できるのか?

顔認証を防ぐために、市民は営業所を訪れる際にヘルメットをかぶっている。「初の顔認証事件」で、裁判所は...

...