高いリアリティ、全体的な一貫性、優れた外観を備えたぼやけたターゲット向けの NeRF ソリューションがリリースされました

高いリアリティ、全体的な一貫性、優れた外観を備えたぼやけたターゲット向けの NeRF ソリューションがリリースされました

[[402913]]

オブジェクトの明るさが色やビューに大きく依存する多くの没入型 VR/AR アプリケーションでは、ぼやけた複雑なオブジェクトの非常にリアルなモデリングとレンダリングが非常に重要です。この論文では、上海科技大学の研究者らが、畳み込みニューラル レンダラーを使用して、ぼやけたオブジェクトの不透明度放射輝度フィールドを生成する新しい方式を提案しました。これは、明示的な不透明度監視と畳み込みメカニズムをニューラル放射輝度フィールド フレームワークに組み合わせて、高品質の外観を実現し、任意の新しい視点でグローバルに一貫したアルファ マスクを生成する最初の方式です。

具体的には、この研究では、カメラ光線と画像平面に沿った効率的なサンプリング戦略を提案し、パッチ単位での効率的な放射フィールドのサンプリングと学習を可能にします。同時に、この研究では、パッチごとにハイブリッドな特徴埋め込みを生成し、ビューに一貫性のあるきめ細かい外観と不透明な出力を再構築する、新しいボリューム特徴統合スキームも提案しました。

さらに、本研究では、自己教師ありフレームワークで高周波の外観と不透明な詳細を同時に保存するために、パッチ単位の敵対的トレーニングスキームをさらに採用しています。この研究では、困難なぼやけたターゲットの高品質のカラーマップとアルファマップをキャプチャするための効率的なマルチビュー画像キャプチャシステムも提案されました。既存のデータセットと、難しいぼやけたオブジェクトを含む新しいデータセットに対する広範な実験により、本研究で提案された新しい方法により、さまざまなぼやけたオブジェクトに対して、非常にリアルで、全体的に一貫性があり、見栄えの良い不透明なフリービュー レンダリングを実現できることが示されました。

論文アドレス: https://arxiv.org/abs/2104.01772

この研究の主な貢献は次のとおりです。

  • 我々は、高周波および新規ビューにおけるぼやけた物体の全体的に一貫した外観と不透明度を再構築するための、新しい畳み込みニューラル放射フィールド生成方式を提案します。これは、これまでの最先端のパフォーマンスを大幅に上回ります。
  • 畳み込みメカニズムを可能にするために、本研究では、効率的なサンプリング戦略、ハイブリッド特徴融合、およびパッチワイズ放射場学習のための自己教師付き敵対的トレーニングスキームを提案しました。
  • 困難なぼやけたターゲットのカラーマップとアルファマップをキャプチャするための効率的なマルチビューシステムが提案されており、この研究でキャプチャされたデータセットは、さらなる研究を促進するために使用できます。

方法論フレームワーク

論文では、研究者らは新たに提案された畳み込みニューラル不透明度放射場(ConvNeRF)を詳しく紹介した。このモデルはキャプチャ システムの RGBA 入力に基づいており、次の図に示すように、新しいビューで非常にリアルで全体的に一貫した外観と不透明度のレンダリングを実現できます。

エンドツーエンドのConvNeRFパイプラインの概要

マルチビュー RGBA 画像が与えられた場合、効率的なレイ サンプリングのために SFS (Shape-From-Silhouette) を使用してプロキシ ジオメトリを推測します。ボリューム空間内の各サンプル ポイントの位置と方向が、多層パーセプトロン (MLP) ベースの特徴予測ネットワークに入力され、オブジェクトをグローバル レベルで特徴付けます。次に、近くの光線をローカル フィーチャ パッチにマージし、畳み込みボリューム レンダラーを使用して RGB とマスクにデコードします。彼らは、最終出力に敵対的トレーニング戦略を使用して、細かい表面の詳細を促進します。参照フェーズでは、各パッチをレンダリングするのではなく、イメージ全体を一度にレンダリングします。

この方法の主なアイデアは、空間畳み込みメカニズムを使用して不透明な情報を明示的にエンコードし、Neural Radiance Field メソッド (NeRF) を改良して高周波の詳細をモデル化することです。研究者たちは、NeRF にヒントを得て、同様の暗黙的なニューラル放射フィールドを採用し、多層パーセプトロンを使用してシーンを表現し、キャスト光線の方向に沿って予測された密度と色の値を体積積分しました。

一方、ConvNeRF は空間畳み込み設計によって不透明度をさらに明示的にエンコードし、神経放射フィールドの再構成を大幅に改善します。この目的のために、研究者らはまず、カメラ光線に沿った事前の固有輪郭を利用するだけでなく、画像平面全体の空間情報をエンコードする効率的なサンプリング戦略を提案しました。次に、グローバルな幾何学的表現を使用して 3D 位置を高レベルの輝度特徴にマッピングし、外観と不透明度の機能を個別にモデル化する新しいボリューム融合スキームを通じてパッチごとのハイブリッド機能埋め込みを生成し、パッチ単位でより効率的な輝度フィールド学習を実現します。

最後に、軽量の U-Net を使用して特徴パッチをビュー一貫性のある外観と不透明度の出力にデコードし、さらにパッチ単位の敵対的トレーニング スキームを採用して、自己教師ありフレームワークで高頻度の外観と不透明度の詳細を保持します。

キャプチャシステム

この研究で使用されたキャプチャ システムは、難しいぼやけたオブジェクトの明示的な不透明度モデリングのための高品質のマルチビュー RGBA 画像を生成できます。

下のキャプチャシステム概要図に示すように、この方法のパイプラインには、使いやすいキャプチャデバイスと安定した検証および自動カットアウト方法が備わっています。

実験結果

この研究では、さまざまな毛皮の物体に対して ConvNeRF を評価しました。定量的および定性的な評価実験の結果は、私たちの方法が、以前の研究と比較して、高忠実度の外観の詳細をよりよく保持し、あらゆる新しいビューで全体的に一貫したアルファマスクを生成できることを示しています。この研究ではさらに、この方法の設計上の選択を検証するためにアブレーション実験を実施しました。

下の図 6 に示すように、研究者は Cat、Girl、Wolf データセットでこの手法を IBOH、NOPC、NeRF の自由視点 RGB と比較しました。この手法では、幾何学的な全体ビューの一貫性を保ちながら、猫の毛皮の質感、少女のブーツの模様、オオカミの毛皮の幾何学的詳細など、幾何学と外観の細かい詳細を再構築できることがわかった。 IBOH ではゴーストとエイリアシングが発生し、NOPC では過度のぼやけと幾何学的詳細の損失が発生し、NeRF では過度のノイズとぼやけが発生します。

下の図 7 は、Cat および Hairstyle 2 データセットにおけるこの方法の自由視点アルファ効果と IBOH、NOPC、および NeRF の比較を示しています。提案された方法は、最初の行に示すように、猫のひげなどの視線の不一致なアルファ マスクから失われた部分的な不透明度を回復できることがわかりましたが、IBOH では重大なアーティファクトが発生して失敗します。この方法では、髪の毛の周りにひどいアーティファクトを生成する NOPC よりもシャープなアルファ マスクが生成されます。しかし、NeRF は難しい Hairstyle 2 データセットでは失敗します。

定量的評価に関しては、研究者らはPSNR、LPIPS、SSIMを指標として使用し、いくつかの方法を定量的に評価しました。以下の表 1 および 2 に示すように、ConvNeRF は RGB とアルファの両方の結果で大幅なパフォーマンスの向上を実現します。

以下の表 3 は、この方法が SOTA パフォーマンスを達成する半透明 (つまり、0 < α < 1) 領域のすべてのデータセットの平均 PSNR を示しています。

<<:  人工知能は機械に流動的知能を与えることができるか?

>>:  脳をシミュレートする NLP、クヌース賞受賞: 文解析のためのニューロン集団計算

ブログ    
ブログ    

推薦する

...

インテリジェント運転の「人材不足」は大学の科目ゲームに閉じ込められている

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Testin Cloud Testingは、ビッグモデル+ソフトウェアテストの業界リーダーの技術革新の道を模索し始めました。

情報技術が急速に発展する時代において、ソフトウェア業界は活況を呈しており、高品質のソフトウェアに対す...

研究者:AIは将来「感情」を持つことが期待されており、関連する医療ハードウェア産業の発展に役立つ可能性がある

著名なAI研究者のジェフリー・ヒントン氏は、Googleを退職後、人工知能関連産業の研究に専念してい...

企業が機械学習アプリケーションから学ぶべき教訓

ビジネスの世界において機械学習 (ML) アプリケーションが継続的に宣伝され、大々的に宣伝されている...

AutoRLについてまだよく知らないという人は、オックスフォード大学、Google、その他の機関の12人以上の学者がレビューを書いています。

強化学習 (RL) とディープラーニングの組み合わせは、一連の印象的な結果をもたらし、(ディープ) ...

過剰に防御的?モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

最近、モスクワのバス運転手たちは少々パニックになっている。チャットグループでは、「バスの中でアジア人...

...

サービスロボット防疫シリーズ:食品の配達、消毒、誘導などにより、感染症の予防と抑制に貢献

新たな流行が猛烈に迫っており、特に河北省の流行は絶えず捜索されており、人々をパニックに陥れています。...

ロボットが家庭に入り込み、家事を引き受け始めています。あなたのお気に入りはどれですか?

【網易知能ニュース 3月18日】次回チェルシーでディナーを楽しんだ際、スーパーヨットの執事の慎重な...

...

ロボット警察がファンタジーを現実に変える

人工知能、コンピュータービジョン、モノのインターネット、その他の先進技術を備えたロボット警察は、法と...

Redis Chat (1): ナレッジグラフの構築

シナリオ: Redis インタビュー[[264477]] (インターネットからの写真)面接官: あな...

AIビジュアルクロスワードパズルが大ヒット!モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者:最近最もクールな拡散モデル

AIが描いたマリリン・モンローが180°回転してアインシュタインに? !これは、最近ソーシャル メデ...