高いリアリティ、全体的な一貫性、優れた外観を備えたぼやけたターゲット向けの NeRF ソリューションがリリースされました

[[402913]]

オブジェクトの明るさが色やビューに大きく依存する多くの没入型 VR/AR アプリケーションでは、ぼやけた複雑なオブジェクトの非常にリアルなモデリングとレンダリングが非常に重要です。この論文では、上海科技大学の研究者らが、畳み込みニューラルレンダラーを使用して、ぼやけたオブジェクトの不透明度放射輝度フィールドを生成する新しい方式を提案しました。これは、明示的な不透明度監視と畳み込みメカニズムをニューラル放射輝度フィールドフレームワークに組み合わせて、高品質の外観を実現し、任意の新しい視点でグローバルに一貫したアルファマスクを生成する最初の方式です。

具体的には、この研究では、カメラ光線と画像平面に沿った効率的なサンプリング戦略を提案し、パッチ単位での効率的な放射フィールドのサンプリングと学習を可能にします。同時に、この研究では、パッチごとにハイブリッドな特徴埋め込みを生成し、ビューに一貫性のあるきめ細かい外観と不透明な出力を再構築する、新しいボリューム特徴統合スキームも提案しました。

さらに、本研究では、自己教師ありフレームワークで高周波の外観と不透明な詳細を同時に保存するために、パッチ単位の敵対的トレーニングスキームをさらに採用しています。この研究では、困難なぼやけたターゲットの高品質のカラーマップとアルファマップをキャプチャするための効率的なマルチビュー画像キャプチャシステムも提案されました。既存のデータセットと、難しいぼやけたオブジェクトを含む新しいデータセットに対する広範な実験により、本研究で提案された新しい方法により、さまざまなぼやけたオブジェクトに対して、非常にリアルで、全体的に一貫性があり、見栄えの良い不透明なフリービューレンダリングを実現できることが示されました。

論文アドレス: https://arxiv.org/abs/2104.01772

この研究の主な貢献は次のとおりです。

我々は、高周波および新規ビューにおけるぼやけた物体の全体的に一貫した外観と不透明度を再構築するための、新しい畳み込みニューラル放射フィールド生成方式を提案します。これは、これまでの最先端のパフォーマンスを大幅に上回ります。
畳み込みメカニズムを可能にするために、本研究では、効率的なサンプリング戦略、ハイブリッド特徴融合、およびパッチワイズ放射場学習のための自己教師付き敵対的トレーニングスキームを提案しました。
困難なぼやけたターゲットのカラーマップとアルファマップをキャプチャするための効率的なマルチビューシステムが提案されており、この研究でキャプチャされたデータセットは、さらなる研究を促進するために使用できます。

方法論フレームワーク

論文では、研究者らは新たに提案された畳み込みニューラル不透明度放射場（ConvNeRF）を詳しく紹介した。このモデルはキャプチャシステムの RGBA 入力に基づいており、次の図に示すように、新しいビューで非常にリアルで全体的に一貫した外観と不透明度のレンダリングを実現できます。

エンドツーエンドのConvNeRFパイプラインの概要

マルチビュー RGBA 画像が与えられた場合、効率的なレイサンプリングのために SFS (Shape-From-Silhouette) を使用してプロキシジオメトリを推測します。ボリューム空間内の各サンプルポイントの位置と方向が、多層パーセプトロン (MLP) ベースの特徴予測ネットワークに入力され、オブジェクトをグローバルレベルで特徴付けます。次に、近くの光線をローカルフィーチャパッチにマージし、畳み込みボリュームレンダラーを使用して RGB とマスクにデコードします。彼らは、最終出力に敵対的トレーニング戦略を使用して、細かい表面の詳細を促進します。参照フェーズでは、各パッチをレンダリングするのではなく、イメージ全体を一度にレンダリングします。

この方法の主なアイデアは、空間畳み込みメカニズムを使用して不透明な情報を明示的にエンコードし、Neural Radiance Field メソッド (NeRF) を改良して高周波の詳細をモデル化することです。研究者たちは、NeRF にヒントを得て、同様の暗黙的なニューラル放射フィールドを採用し、多層パーセプトロンを使用してシーンを表現し、キャスト光線の方向に沿って予測された密度と色の値を体積積分しました。

一方、ConvNeRF は空間畳み込み設計によって不透明度をさらに明示的にエンコードし、神経放射フィールドの再構成を大幅に改善します。この目的のために、研究者らはまず、カメラ光線に沿った事前の固有輪郭を利用するだけでなく、画像平面全体の空間情報をエンコードする効率的なサンプリング戦略を提案しました。次に、グローバルな幾何学的表現を使用して 3D 位置を高レベルの輝度特徴にマッピングし、外観と不透明度の機能を個別にモデル化する新しいボリューム融合スキームを通じてパッチごとのハイブリッド機能埋め込みを生成し、パッチ単位でより効率的な輝度フィールド学習を実現します。

最後に、軽量の U-Net を使用して特徴パッチをビュー一貫性のある外観と不透明度の出力にデコードし、さらにパッチ単位の敵対的トレーニングスキームを採用して、自己教師ありフレームワークで高頻度の外観と不透明度の詳細を保持します。

キャプチャシステム

この研究で使用されたキャプチャシステムは、難しいぼやけたオブジェクトの明示的な不透明度モデリングのための高品質のマルチビュー RGBA 画像を生成できます。

下のキャプチャシステム概要図に示すように、この方法のパイプラインには、使いやすいキャプチャデバイスと安定した検証および自動カットアウト方法が備わっています。

実験結果

この研究では、さまざまな毛皮の物体に対して ConvNeRF を評価しました。定量的および定性的な評価実験の結果は、私たちの方法が、以前の研究と比較して、高忠実度の外観の詳細をよりよく保持し、あらゆる新しいビューで全体的に一貫したアルファマスクを生成できることを示しています。この研究ではさらに、この方法の設計上の選択を検証するためにアブレーション実験を実施しました。

下の図 6 に示すように、研究者は Cat、Girl、Wolf データセットでこの手法を IBOH、NOPC、NeRF の自由視点 RGB と比較しました。この手法では、幾何学的な全体ビューの一貫性を保ちながら、猫の毛皮の質感、少女のブーツの模様、オオカミの毛皮の幾何学的詳細など、幾何学と外観の細かい詳細を再構築できることがわかった。 IBOH ではゴーストとエイリアシングが発生し、NOPC では過度のぼやけと幾何学的詳細の損失が発生し、NeRF では過度のノイズとぼやけが発生します。

下の図 7 は、Cat および Hairstyle 2 データセットにおけるこの方法の自由視点アルファ効果と IBOH、NOPC、および NeRF の比較を示しています。提案された方法は、最初の行に示すように、猫のひげなどの視線の不一致なアルファマスクから失われた部分的な不透明度を回復できることがわかりましたが、IBOH では重大なアーティファクトが発生して失敗します。この方法では、髪の毛の周りにひどいアーティファクトを生成する NOPC よりもシャープなアルファマスクが生成されます。しかし、NeRF は難しい Hairstyle 2 データセットでは失敗します。

定量的評価に関しては、研究者らはPSNR、LPIPS、SSIMを指標として使用し、いくつかの方法を定量的に評価しました。以下の表 1 および 2 に示すように、ConvNeRF は RGB とアルファの両方の結果で大幅なパフォーマンスの向上を実現します。

以下の表 3 は、この方法が SOTA パフォーマンスを達成する半透明 (つまり、0 < α < 1) 領域のすべてのデータセットの平均 PSNR を示しています。

<<: 人工知能は機械に流動的知能を与えることができるか？

>>: 脳をシミュレートする NLP、クヌース賞受賞: 文解析のためのニューロン集団計算