NTUは、3枚の画像のみを使用して高品質の3Dシーンを合成するSparseNeRFを提案しています。

NTUは、3枚の画像のみを使用して高品質の3Dシーンを合成するSparseNeRFを提案しています。

ディープラーニングと 3D テクノロジーの発展により、Neural Radiance Fields (NeRF) は 3D シーンの再構築とリアルな新しいビューの合成において大きな進歩を遂げました。 2D ビューのセットを入力として与えると、ニューラル放射フィールドは暗黙的な関数を最適化することで 3D を表現できます。

ただし、高品質の新しいビューを合成するには、通常、トレーニングとして高密度のビューが必要です。多くの現実のシナリオでは、高密度のシーン ビューを収集することは、多くの場合、コストがかかり、時間がかかります。したがって、大幅なパフォーマンスの低下なしに、スパースビューから新しい視点画像を合成することを学習できるニューラル放射場法を研究する必要があります。

たとえば、入力が 3 つの透視画像のみの場合、次のアニメーションに示すように、実際の 3D シーンをトレーニングすることが期待されます。

スパースビュー画像から新しいビューを合成することは、特にテクスチャの少ない領域では、スパース 2D ビューが 3D 再構築に十分な制約を提供できないため、困難な問題です。NeRF をスパースビュー シーンに直接適用すると、パフォーマンスが大幅に低下します。

最近、いくつかの方法により、神経放射場 (NeRF) に基づくスパース 3D 再構成のパフォーマンスが大幅に向上しました。これらの方法は、次の 3 つのカテゴリに分類できます。

(1)最初のアプローチは、幾何学的制約(スパース性と連続性の正規化)と意味的制約に基づいています。たとえば、非表示の視点のレンダリングされた画像パッチのジオメトリと外観に正規化制約が追加されたり、各レイの密度にエントロピー制約と空間平滑性制約が課されたりします。ただし、シーンのレイアウトは通常複雑であるため、スパース性/連続性の幾何学的制約とスパース ビューのセマンティクスのみを利用すると、高品質の 3D 再構築を保証することはできません。

(2)2番目の方法は、類似のシナリオでの事前トレーニングに依存します。たとえば、畳み込み特徴マップ表現を通じて他のシーンから高レベルのセマンティクスを学習し、それを対象シーンで微調整することが提案されています。

(3)3番目の方法は、局所深度パッチの線形不変性または正確なスパースポイントクラウドを使用して神経放射場を制約するための追加の深度情報を使用する。たとえば、COLMAP アルゴリズムによって生成されたスパース 3D ポイントによって直接制約が生成されたり、高精度の深度スキャナーとマルチビュー ステレオ マッチング (MVS) アルゴリズムによって正確な深度マップが取得され、この深度マップと予測されたニューラル放射フィールド深度マップが線形不変になるように制約されたり、粗い深度マップ パッチのローカル スケール不変性が制約に使用されたりします。しかし、現実のシナリオでは、トレーニングされた深度推定モデルや消費者向け深度センサーによって取得された深度マップは通常、粗いものになります。スケール不変の深度制約仮定は、粗い深度マップに対しては十分に堅牢ではなく、スパース ポイント クラウドの数は通常、テクスチャの少ない領域を制約するには不十分です。

この目的のために、我々は、スパースビュー再構成における制約が不十分であるという問題を補うために、粗い深度マップからのより堅牢な 3D 事前分布を調査したいと考えています。この問題に対処するために、我々はニューラル放射フィールドベースのスパースビュー 3D 再構成である SparseNeRF を提案します。これは、粗い深度マップから堅牢な 3D 事前知識を抽出し、スパースビュー 3D 再構成のパフォーマンスを向上させるシンプルかつ効果的な方法です。この作品はICCV 2023に掲載されました。

  • プロジェクトのホームページ: https://sparsenerf.github.io/
  • コード: https://github.com/Wanggcong/SparseNeRF
  • 論文: https://arxiv.org/abs/2303.16196

研究の動機

実際のシーンの大まかな深度マップは、トレーニング済みの深度推定モデルや消費者向け深度センサーから簡単に取得できます。しかし、これらの大まかな深度マップから堅牢な深度手がかりを抽出する方法についての研究は十分に行われていません。単一視点の深度推定法は、大規模な単眼深度データセットと大規模な ViT モデルのおかげで、視覚パフォーマンスの点では有望なパフォーマンスを達成していますが、粗い深度注釈、データセットのバイアスなどにより、正確な 3D 深度情報を生成することはできません。この粗い深度情報は、ボクセル レンダリングに基づいて各ピクセルでシーンを再構築するときに、Neural Radiance Fields (NeRF) の密度予測と一致しません。 NeRF を監視するために粗い深度マップを直接スケーリングすると、良好な新しいビュー合成結果を達成できません。

方法論フレームワーク

上の図は私たちの方法のフレームワーク図を示しています。 SparseNeRF は主に、ニューラル放射フィールド (NeRF)、RGB カラー再構成モジュール、ディープ ソーティング蒸留モジュール、空間連続性蒸留モジュールの 4 つのコンポーネントで構成されています。具体的には、ニューラル放射輝度フィールドをバックボーン ネットワークとして使用し、色の再構築に MSE 損失を適用します。深度事前蒸留では、事前にトレーニングされた深度推定モデルから深度事前蒸留を行います。粗い深度マップから堅牢な深度事前分布を抽出するために、ローカル深度ランキング正規化と空間連続性正規化を提案します。

具体的には、大まかな深度事前分布を使用して NeRF を直接監視する代わりに、深度制約を緩和し、大まかな深度マップから堅牢なローカル深度順序を抽出して、NeRF の深度順序を大まかな深度マップの深度順序と一致させます。つまり、NeRF では絶対深度監視ではなく相対深度監視を実行します。ジオメトリの空間連続性を保証するために、NeRF モデルが粗い深度マップの空間連続性を模倣できるようにする空間連続性制約をさらに提案します。堅牢なスパース幾何学的制約は、深度ソート正規化や連続性正規化などの限られた数のビューを通じて取得され、最終的にはより優れた新しいビュー合成効果が実現されます。

注目すべきは、推論中に、私たちの方法 SparseNeRF は、トレーニング フェーズ中に事前トレーニング済みの深度推定モデルまたはコンシューマー グレードのセンサーからの深度事前分布のみを活用するため、実行時間が増加しないことです (図解されたフレームワークを参照)。さらに、SparseNeRF は、さまざまな NeRF バリアントに簡単に統合できるプラグアンドプレイ モジュールです。この観点を検証するために、これを FreeNeRF に統合しました。

主な貢献

(1)我々は、事前学習された深度推定モデルから局所深度順序付け事前分布を抽出するためのシンプルだが効果的な方法であるSparseNeRFを提案する。 SparseNeRF は、ローカル深度順序制約を通じて、スパース ビューポートからの新しいビュー合成のパフォーマンスを大幅に向上させ、既存のモデル (深層ベースの NeRF 方式を含む) を上回ります。シーンの幾何学的一貫性を保つために、NeRF の空間連続性が事前トレーニング済みの深度推定モデルの空間連続性と類似することを促す空間連続性制約を提案します。

(2)さらに、Azure Kinect、ZED 2、iPhone 13 Proの深度センサーからの粗い深度マップを含む新しいデータセットNVS-RGBDを提供します。

(3)LLFF、DTU、NVS-RGBDデータセットでの実験では、SparseNeRFがスパースビューポートに基づいて新しいビューを合成する際に最高のパフォーマンスを発揮することが示されています。

結果

トレーニングに 3 つのスパース パースペクティブ画像を使用すると、新しいパースペクティブ レンダリング ビデオを取得できます。

<<:  Google DeepMindは少なくとも21の新しい生成AI機能を開発中

>>:  他のモデルの重みを使用してニューラルネットワークをトレーニングすると、ニューロンを変更しても出力には影響しません。NVIDIAの魔法の研究

ブログ    
ブログ    
ブログ    

推薦する

ゲームの背後にあるAIストーリー:小規模サンプル学習と転移学習

2019年、人間と機械のゲームバトルにおいて、Open AI Fiveが圧倒的なパフォーマンスでD...

Baidu World 2018 の開会式で最初の切り札が切られました。Baidu AI City が新しい世界への機関車としてスタートしました!

スマートカーからスマート道路、スマートシティまで、「複雑な世界をよりシンプルに」という百度の使命によ...

覚えておいてください!私たちの未来に影響を与えるのはビッグデータや人工知能ではなくブロックチェーンです!

[[216863]]私たちの未来に影響を与えるそれは「ビッグデータ」でも「モノのインターネット」で...

AI時代なのに、まだビッグデータが分からない?

[[322803]]近年、IT 業界でどの技術方向が最もホットであるかと聞かれれば、それは ABC...

...

...

1 つの記事で NLP 実装の難しさを理解する

[51CTO.comからのオリジナル記事] 近年、自然言語処理技術は徐々に最も広く使用されている人工...

CNNの簡単な分析と、長年にわたるImageNetチャンピオンモデルの分析

[[189678]]今日は、ディープラーニングにおける畳み込みニューラル ネットワークのいくつかの原...

建築環境における人工知能:その可能性を実現するためのステップ

AI と自動化により、企業はさまざまな最適化ソフトウェアを使用して、冷房、暖房、発電を自動的に改善し...

人工知能を世界で初めて活用し、特発性肺線維症治療薬の新たなメカニズムを発見

Insilico Medicine は、人工知能を使用して特発性肺線維症治療薬の新しいメカニズムを世...

...

人工知能が美女を元の姿に戻す方法

誰もが美を愛しますが、誰もが生まれながらに美しさを持っているわけではないので、さまざまな種類の写真美...

人工知能が本格的に登場し、企業はその挑戦に挑む準備ができている

多くの企業は、短期的には利益が見込めないため、AIパイロットプロジェクトを推進できず、AIプロジェク...

AgentGPT: ブラウザ上の自律型 AI エージェント

翻訳者 |ブガッティレビュー | Chonglou AgentGPT Web は、ユーザーがカスタマ...