NTUは、3枚の画像のみを使用して高品質の3Dシーンを合成するSparseNeRFを提案しています。

ディープラーニングと 3D テクノロジーの発展により、Neural Radiance Fields (NeRF) は 3D シーンの再構築とリアルな新しいビューの合成において大きな進歩を遂げました。 2D ビューのセットを入力として与えると、ニューラル放射フィールドは暗黙的な関数を最適化することで 3D を表現できます。

ただし、高品質の新しいビューを合成するには、通常、トレーニングとして高密度のビューが必要です。多くの現実のシナリオでは、高密度のシーンビューを収集することは、多くの場合、コストがかかり、時間がかかります。したがって、大幅なパフォーマンスの低下なしに、スパースビューから新しい視点画像を合成することを学習できるニューラル放射場法を研究する必要があります。

たとえば、入力が 3 つの透視画像のみの場合、次のアニメーションに示すように、実際の 3D シーンをトレーニングすることが期待されます。

スパースビュー画像から新しいビューを合成することは、特にテクスチャの少ない領域では、スパース 2D ビューが 3D 再構築に十分な制約を提供できないため、困難な問題です。NeRF をスパースビューシーンに直接適用すると、パフォーマンスが大幅に低下します。

最近、いくつかの方法により、神経放射場 (NeRF) に基づくスパース 3D 再構成のパフォーマンスが大幅に向上しました。これらの方法は、次の 3 つのカテゴリに分類できます。

（１）最初のアプローチは、幾何学的制約（スパース性と連続性の正規化）と意味的制約に基づいています。たとえば、非表示の視点のレンダリングされた画像パッチのジオメトリと外観に正規化制約が追加されたり、各レイの密度にエントロピー制約と空間平滑性制約が課されたりします。ただし、シーンのレイアウトは通常複雑であるため、スパース性/連続性の幾何学的制約とスパースビューのセマンティクスのみを利用すると、高品質の 3D 再構築を保証することはできません。

（２）２番目の方法は、類似のシナリオでの事前トレーニングに依存します。たとえば、畳み込み特徴マップ表現を通じて他のシーンから高レベルのセマンティクスを学習し、それを対象シーンで微調整することが提案されています。

（３）３番目の方法は、局所深度パッチの線形不変性または正確なスパースポイントクラウドを使用して神経放射場を制約するための追加の深度情報を使用する。たとえば、COLMAP アルゴリズムによって生成されたスパース 3D ポイントによって直接制約が生成されたり、高精度の深度スキャナーとマルチビューステレオマッチング (MVS) アルゴリズムによって正確な深度マップが取得され、この深度マップと予測されたニューラル放射フィールド深度マップが線形不変になるように制約されたり、粗い深度マップパッチのローカルスケール不変性が制約に使用されたりします。しかし、現実のシナリオでは、トレーニングされた深度推定モデルや消費者向け深度センサーによって取得された深度マップは通常、粗いものになります。スケール不変の深度制約仮定は、粗い深度マップに対しては十分に堅牢ではなく、スパースポイントクラウドの数は通常、テクスチャの少ない領域を制約するには不十分です。

この目的のために、我々は、スパースビュー再構成における制約が不十分であるという問題を補うために、粗い深度マップからのより堅牢な 3D 事前分布を調査したいと考えています。この問題に対処するために、我々はニューラル放射フィールドベースのスパースビュー 3D 再構成である SparseNeRF を提案します。これは、粗い深度マップから堅牢な 3D 事前知識を抽出し、スパースビュー 3D 再構成のパフォーマンスを向上させるシンプルかつ効果的な方法です。この作品はICCV 2023に掲載されました。

プロジェクトのホームページ: https://sparsenerf.github.io/
コード: https://github.com/Wanggcong/SparseNeRF
論文: https://arxiv.org/abs/2303.16196

研究の動機

実際のシーンの大まかな深度マップは、トレーニング済みの深度推定モデルや消費者向け深度センサーから簡単に取得できます。しかし、これらの大まかな深度マップから堅牢な深度手がかりを抽出する方法についての研究は十分に行われていません。単一視点の深度推定法は、大規模な単眼深度データセットと大規模な ViT モデルのおかげで、視覚パフォーマンスの点では有望なパフォーマンスを達成していますが、粗い深度注釈、データセットのバイアスなどにより、正確な 3D 深度情報を生成することはできません。この粗い深度情報は、ボクセルレンダリングに基づいて各ピクセルでシーンを再構築するときに、Neural Radiance Fields (NeRF) の密度予測と一致しません。 NeRF を監視するために粗い深度マップを直接スケーリングすると、良好な新しいビュー合成結果を達成できません。

方法論フレームワーク

上の図は私たちの方法のフレームワーク図を示しています。 SparseNeRF は主に、ニューラル放射フィールド (NeRF)、RGB カラー再構成モジュール、ディープソーティング蒸留モジュール、空間連続性蒸留モジュールの 4 つのコンポーネントで構成されています。具体的には、ニューラル放射輝度フィールドをバックボーンネットワークとして使用し、色の再構築に MSE 損失を適用します。深度事前蒸留では、事前にトレーニングされた深度推定モデルから深度事前蒸留を行います。粗い深度マップから堅牢な深度事前分布を抽出するために、ローカル深度ランキング正規化と空間連続性正規化を提案します。

具体的には、大まかな深度事前分布を使用して NeRF を直接監視する代わりに、深度制約を緩和し、大まかな深度マップから堅牢なローカル深度順序を抽出して、NeRF の深度順序を大まかな深度マップの深度順序と一致させます。つまり、NeRF では絶対深度監視ではなく相対深度監視を実行します。ジオメトリの空間連続性を保証するために、NeRF モデルが粗い深度マップの空間連続性を模倣できるようにする空間連続性制約をさらに提案します。堅牢なスパース幾何学的制約は、深度ソート正規化や連続性正規化などの限られた数のビューを通じて取得され、最終的にはより優れた新しいビュー合成効果が実現されます。

注目すべきは、推論中に、私たちの方法 SparseNeRF は、トレーニングフェーズ中に事前トレーニング済みの深度推定モデルまたはコンシューマーグレードのセンサーからの深度事前分布のみを活用するため、実行時間が増加しないことです (図解されたフレームワークを参照)。さらに、SparseNeRF は、さまざまな NeRF バリアントに簡単に統合できるプラグアンドプレイモジュールです。この観点を検証するために、これを FreeNeRF に統合しました。

主な貢献

（１）我々は、事前学習された深度推定モデルから局所深度順序付け事前分布を抽出するためのシンプルだが効果的な方法であるSparseNeRFを提案する。 SparseNeRF は、ローカル深度順序制約を通じて、スパースビューポートからの新しいビュー合成のパフォーマンスを大幅に向上させ、既存のモデル (深層ベースの NeRF 方式を含む) を上回ります。シーンの幾何学的一貫性を保つために、NeRF の空間連続性が事前トレーニング済みの深度推定モデルの空間連続性と類似することを促す空間連続性制約を提案します。

（2）さらに、Azure Kinect、ZED 2、iPhone 13 Proの深度センサーからの粗い深度マップを含む新しいデータセットNVS-RGBDを提供します。

（３）LLFF、DTU、NVS-RGBDデータセットでの実験では、SparseNeRFがスパースビューポートに基づいて新しいビューを合成する際に最高のパフォーマンスを発揮することが示されています。

結果

トレーニングに 3 つのスパースパースペクティブ画像を使用すると、新しいパースペクティブレンダリングビデオを取得できます。

<<: Google DeepMindは少なくとも21の新しい生成AI機能を開発中

>>: 他のモデルの重みを使用してニューラルネットワークをトレーニングすると、ニューロンを変更しても出力には影響しません。NVIDIAの魔法の研究

ブログ

NTUは、3枚の画像のみを使用して高品質の3Dシーンを合成するSparseNeRFを提案しています。

研究の動機

方法論フレームワーク

主な貢献

結果

機械学習入門

2021年に注目すべき5つのAIと機械学習のトレンド

自動運転車は私たちの生活をどのように変えるのでしょうか?

ディープラーニングパーセプトロンの原理の詳しい説明

AIビッグモデルにおける言語の不平等：英語は最も安価、他の言語ははるかに高価

人工知能のトレンドに遅れないようにするには、Python と C/C++ のどちらを学ぶべきでしょうか?答えはここにあります

機械学習の未来

畳み込みニューラルネットワーク（CNN）を使用して、最大95％の精度で皮膚がんを検出します。

推薦する

ソフトウェアと自動化機器が持続可能性と回復力を向上させる方法

著者の半数以上が中国人です！ Google Researchの画像表現モデルALIGNがImageNetを支配

OpenAI主任科学者：ChatGPTはすでに意識を示しており、将来人間はAIと融合するだろう

自動運転を利用したい人はどれくらいいるでしょうか？

清華大学の卒業生は大きな貢献をしました！ Google、14のタスクで初の大規模一般医療モデルSOTAをリリース

K平均法アルゴリズム Java実装クラスタ分析 681 三国志の将軍

オープンソースのAIがディープラーニングを使用して、顔の表情の特徴に基づいて画像のキャプションを生成

IDC、2021年以降のITトレンドトップ10を発表

機械は人間に似ているほど良いのでしょうか?科学サブ出版物：ヒューマノイドマシンに常に監視されていると愚かになる

GPT-Engineerは一夜にして人気になりました！ 1 つのプロンプトでコードベース全体を生成し、GitHub のスター数が 19,000 に急上昇

ハーバード大学とコロンビア大学が、AlphaFold 2 のプライベートトレーニングデータの問題を解決するために 1,600 万個のタンパク質配列をオープンソース化しました。