オブジェクトの明るさが色やビューに大きく依存する多くの没入型 VR/AR アプリケーションでは、ぼやけた複雑なオブジェクトの非常にリアルなモデリングとレンダリングが非常に重要です。この論文では、上海科技大学の研究者らが、畳み込みニューラル レンダラーを使用して、ぼやけたオブジェクトの不透明度放射輝度フィールドを生成する新しい方式を提案しました。これは、明示的な不透明度監視と畳み込みメカニズムをニューラル放射輝度フィールド フレームワークに組み合わせて、高品質の外観を実現し、任意の新しい視点でグローバルに一貫したアルファ マスクを生成する最初の方式です。 具体的には、この研究では、カメラ光線と画像平面に沿った効率的なサンプリング戦略を提案し、パッチ単位での効率的な放射フィールドのサンプリングと学習を可能にします。同時に、この研究では、パッチごとにハイブリッドな特徴埋め込みを生成し、ビューに一貫性のあるきめ細かい外観と不透明な出力を再構築する、新しいボリューム特徴統合スキームも提案しました。 さらに、本研究では、自己教師ありフレームワークで高周波の外観と不透明な詳細を同時に保存するために、パッチ単位の敵対的トレーニングスキームをさらに採用しています。この研究では、困難なぼやけたターゲットの高品質のカラーマップとアルファマップをキャプチャするための効率的なマルチビュー画像キャプチャシステムも提案されました。既存のデータセットと、難しいぼやけたオブジェクトを含む新しいデータセットに対する広範な実験により、本研究で提案された新しい方法により、さまざまなぼやけたオブジェクトに対して、非常にリアルで、全体的に一貫性があり、見栄えの良い不透明なフリービュー レンダリングを実現できることが示されました。 論文アドレス: https://arxiv.org/abs/2104.01772 この研究の主な貢献は次のとおりです。
方法論フレームワーク論文では、研究者らは新たに提案された畳み込みニューラル不透明度放射場(ConvNeRF)を詳しく紹介した。このモデルはキャプチャ システムの RGBA 入力に基づいており、次の図に示すように、新しいビューで非常にリアルで全体的に一貫した外観と不透明度のレンダリングを実現できます。 エンドツーエンドのConvNeRFパイプラインの概要 マルチビュー RGBA 画像が与えられた場合、効率的なレイ サンプリングのために SFS (Shape-From-Silhouette) を使用してプロキシ ジオメトリを推測します。ボリューム空間内の各サンプル ポイントの位置と方向が、多層パーセプトロン (MLP) ベースの特徴予測ネットワークに入力され、オブジェクトをグローバル レベルで特徴付けます。次に、近くの光線をローカル フィーチャ パッチにマージし、畳み込みボリューム レンダラーを使用して RGB とマスクにデコードします。彼らは、最終出力に敵対的トレーニング戦略を使用して、細かい表面の詳細を促進します。参照フェーズでは、各パッチをレンダリングするのではなく、イメージ全体を一度にレンダリングします。 この方法の主なアイデアは、空間畳み込みメカニズムを使用して不透明な情報を明示的にエンコードし、Neural Radiance Field メソッド (NeRF) を改良して高周波の詳細をモデル化することです。研究者たちは、NeRF にヒントを得て、同様の暗黙的なニューラル放射フィールドを採用し、多層パーセプトロンを使用してシーンを表現し、キャスト光線の方向に沿って予測された密度と色の値を体積積分しました。 一方、ConvNeRF は空間畳み込み設計によって不透明度をさらに明示的にエンコードし、神経放射フィールドの再構成を大幅に改善します。この目的のために、研究者らはまず、カメラ光線に沿った事前の固有輪郭を利用するだけでなく、画像平面全体の空間情報をエンコードする効率的なサンプリング戦略を提案しました。次に、グローバルな幾何学的表現を使用して 3D 位置を高レベルの輝度特徴にマッピングし、外観と不透明度の機能を個別にモデル化する新しいボリューム融合スキームを通じてパッチごとのハイブリッド機能埋め込みを生成し、パッチ単位でより効率的な輝度フィールド学習を実現します。 最後に、軽量の U-Net を使用して特徴パッチをビュー一貫性のある外観と不透明度の出力にデコードし、さらにパッチ単位の敵対的トレーニング スキームを採用して、自己教師ありフレームワークで高頻度の外観と不透明度の詳細を保持します。 キャプチャシステムこの研究で使用されたキャプチャ システムは、難しいぼやけたオブジェクトの明示的な不透明度モデリングのための高品質のマルチビュー RGBA 画像を生成できます。 下のキャプチャシステム概要図に示すように、この方法のパイプラインには、使いやすいキャプチャデバイスと安定した検証および自動カットアウト方法が備わっています。 実験結果この研究では、さまざまな毛皮の物体に対して ConvNeRF を評価しました。定量的および定性的な評価実験の結果は、私たちの方法が、以前の研究と比較して、高忠実度の外観の詳細をよりよく保持し、あらゆる新しいビューで全体的に一貫したアルファマスクを生成できることを示しています。この研究ではさらに、この方法の設計上の選択を検証するためにアブレーション実験を実施しました。 下の図 6 に示すように、研究者は Cat、Girl、Wolf データセットでこの手法を IBOH、NOPC、NeRF の自由視点 RGB と比較しました。この手法では、幾何学的な全体ビューの一貫性を保ちながら、猫の毛皮の質感、少女のブーツの模様、オオカミの毛皮の幾何学的詳細など、幾何学と外観の細かい詳細を再構築できることがわかった。 IBOH ではゴーストとエイリアシングが発生し、NOPC では過度のぼやけと幾何学的詳細の損失が発生し、NeRF では過度のノイズとぼやけが発生します。 下の図 7 は、Cat および Hairstyle 2 データセットにおけるこの方法の自由視点アルファ効果と IBOH、NOPC、および NeRF の比較を示しています。提案された方法は、最初の行に示すように、猫のひげなどの視線の不一致なアルファ マスクから失われた部分的な不透明度を回復できることがわかりましたが、IBOH では重大なアーティファクトが発生して失敗します。この方法では、髪の毛の周りにひどいアーティファクトを生成する NOPC よりもシャープなアルファ マスクが生成されます。しかし、NeRF は難しい Hairstyle 2 データセットでは失敗します。 定量的評価に関しては、研究者らはPSNR、LPIPS、SSIMを指標として使用し、いくつかの方法を定量的に評価しました。以下の表 1 および 2 に示すように、ConvNeRF は RGB とアルファの両方の結果で大幅なパフォーマンスの向上を実現します。 以下の表 3 は、この方法が SOTA パフォーマンスを達成する半透明 (つまり、0 < α < 1) 領域のすべてのデータセットの平均 PSNR を示しています。 |
>>: 脳をシミュレートする NLP、クヌース賞受賞: 文解析のためのニューロン集団計算
少し前に、Google Brain チームの論文「Attention Is All You Need...
空飛ぶ車というアイデアは何十年も私たちの想像力をかき立て、交通渋滞の上を飛ぶことができる未来のビジョ...
ニューラル ネットワークの最適化は本質的に非凸ですが、単純な勾配ベースの方法は常にこのような問題を解...
[[394114]]木を切る、狩りをする、家を建てるなどの長いゲームビデオを機械に見せるとします。モ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ますます成熟する人工知能は、新型コロナウイルス感染症対策の最前線で「逆転者」と呼ばれる特別な集団とな...
現代医学の発展は、病気の診断と治療のための新しいツール、テクノロジー、方法を開発してきた医師と科学者...
[[204536]] AIと企業にとってビッグデータの重要性とは何でしょうか?ビッグデータマイニング...
グーグルは6月15日、オンラインショッピングツールに新たな生成AI技術を導入すると発表した。この技術...
[[424271]]中国科学技術大学の研究者らは、教育コンテキスト認識型認知診断フレームワークを提案...