少し前に、CVPR 2022 が今年の論文採択結果を発表しましたが、これは提出された論文がようやく沈黙期間を乗り越えたことを意味します。多くの著者が嘆きました。「ついに、ソーシャルメディアで論文について語ることができるようになった!」 本日ご紹介する論文は、Google Research とハーバード大学が発表したものです。 Google の研究科学者であり、論文の第一著者であるジョン・バロン氏は、Mip-NeRF 360 というモデルを開発したと述べました。このモデルは、境界のないシーンのリアルなレンダリングを生成し、360° のリアルな効果と美しい深度マップを実現できます。 効果の写真をいくつか紹介します。 VR ヘルメットでこのような優れた効果が得られるようになるのはいつでしょうか? 著者は、「NeRF はすでにブラウザ (http://nerf.live) またはデスクトップ GPU (https://nvlabs.github.io/instant-ngp/) でリアルタイムにレンダリングできるので、VR ヘッドセットに搭載することも可能でしょう」と答えました。 論文概要Neural Radiance Fields (NeRF) は、座標ベースの多層パーセプトロン (MLP) の重み内でシーンの体積密度と色をエンコードすることにより、シーンの非常にリアルなレンダリングを合成します。このアプローチは現実的なビュー合成において大きな進歩をもたらした[30]。ただし、NeRF は 3D ポイントを使用して MLP の入力をモデル化するため、異なる解像度のビューをレンダリングするときにエイリアシングが発生します。 この問題に基づいて、Mip-NeRFはNeRFを拡張し、円錐に沿った体積錐台について推論する必要がなくなりました[3]。これにより品質は向上しますが、NeRF と mipNeRF は、カメラが任意の方向を向いていたり、シーンのコンテンツがどこにでも配置されている可能性がある、境界のないシーンの処理に課題を抱えています。 本論文では、研究者らは、これらの無制限のシーンのリアルなレンダリングを生成できる mip-NeRF の拡張である mip-NeRF 360 を提案しています (図 1)。 NeRF のようなモデルを大規模な境界のないシーンに適用すると、次の 3 つの重要な問題が発生します。
上記の問題に基づいて、研究者らは、非線形シーンパラメータ化、オンライン蒸留、および新しい歪みベースの正則化を使用して、無制限のシーンによってもたらされる課題を克服する mip-NeRF の拡張モデルを提案しました。この新しいモデルは、カメラが一点を中心に 360 度回転するシーンを研究対象としているため「mip-NeRF 360」と呼ばれ、mip-NeRF と比較して平均二乗誤差が 54% 削減され、非常に複雑で境界のない現実世界のシーンに対してリアルな合成ビューと詳細な深度マップを生成できます。
技術詳細mip-NeRF を無制限のシーンでうまく機能させるには 3 つの主な問題があり、この論文の 3 つの主な貢献はこれらの問題に対処することを目的としています。次に、著者が提供している解説動画を通して理解してみましょう。 最初の問題は表現に関するものです。Mip-NeRF は、境界のないシーンではなく、境界のある座標空間に適用できます。研究者は、カルマン フィルターの拡張版のような方法を使用して、mip-NeRF のガウス関数を非ユークリッド空間に歪めました。 2 つ目の問題は、シーンが通常詳細であることです。境界のないシーンに mip-NeRF を使用する場合は、ネットワークを大きくすることができますが、これによりトレーニング速度が低下します。そのため、研究者らは最適化フェーズで、空間サイズを制限するために小さな MLP をトレーニングすることを提案しました。これにより、トレーニングが 3 倍高速化されます。 3 番目の問題は、シーンが大きくなると、3D 再構築の結果がぼやけてアーティファクトが発生することです。この問題に対処するために、研究者らは mip-NeRF の光線間隔専用の新しい正規化子を導入しました。 まず最初の質問についてお話ししましょう。3 台のカメラがある平坦なシーンを例に挙げてみましょう。mip-NeRF では、これらのカメラはシーンにガウス関数を投影します。大きなシーンでは、これによりガウス関数が原点から離れて長くなります。これは、mip-NeRF が境界のある座標空間に基づく必要があり、ガウス関数がある程度等方性であるためです。 この問題を解決するために、研究者は、青い円(影響を受けない領域)の外側の座標をオレンジ色の円(収縮した領域)にスムーズにマッピングする歪み関数を定義しました。ワープ関数は、mip-NeRF におけるガウス非線形間隔の影響を排除することを目的としています。 この歪みを mip-NeRF のガウス関数に適用するために、研究者らはカルマン フィルターの拡張バージョンを使用しました。これにより、境界のないシーンをオレンジ色の円内に収まるように制限できるようになりました。オレンジ色の円は、座標が MLP への入力となる非ユークリッド空間です。 この論文のオンライン蒸留モデルを理解するには、まず mip-NeRF がどのようにトレーニングされ、サンプリングされるかを紹介する必要があります。 mip-NeRF では、まず、ヒストグラムのエンドポイントとして理解できる、ほぼ均一に分布した間隔のセットを定義する必要があります。図に示すように、各間隔のガウス分布が mlp に入力され、ヒストグラムの重み w^c と色 c^c が取得されます。次に、これらの色に重み付けして、ピクセルの色 C^c を取得します。これらの重みは、新しい間隔のセットを取得するために再サンプリングされ、シーン内のコンテンツがある場所にエンドポイントがクラスター化されます。 この再サンプリングは複数回実行できますが、便宜上、ここでは 1 回のみを示しています。この新しい間隔のデータは同じ MLP に送られ、新しい重みと色のセットが取得され、次に重み付けされてピクセルの色 C^f が取得されます。 mip-NeRF は、レンダリングされたすべてのピクセル値と入力画像の実際のピクセル値の間の再構築損失を単純に最小化します。最終的なイメージをレンダリングするために微妙な色だけを使用するのは非常に無駄です。 粗いレンダリングに教師あり学習が必要な唯一の理由は、細かいヒストグラムのサンプリングをガイドするためであり、この観察がモデルのトレーニングとサンプリングのプロセスの動機となります。研究者たちは、均一に分布したヒストグラムのセットから始めて、それを提案された MLP に入力し、色のない重みのセットを生成します。 これらの重みは再サンプリングされ、このプロセスは複数回繰り返すことができますが、ビデオには 1 つの再サンプリングのみが表示されます。彼らが提案した mlp によって生成された間隔の最終セットは、mip-NeRF のものとまったく同じように動作する別の mlp に入力され、彼らはこれを NeRF mlp と呼んでいます。 NeRF mlp は、ピクセルの色をレンダリングするために使用できる重みと色のセットを提供します。 研究者たちは、教師あり学習を使用して、ピクセルレンダリングによって得られた色を実際の写真の色に近づける予定です。提案された MLP を監督して画像を再構築する代わりに、監督された出力重みを NeRF MLP の出力重みと一致させました。この設定では、小さい mlp には非常に頻繁にアクセスするだけで済みますが、大きい NeRF mlp にはそれほど頻繁にアクセスする必要はありません。 モデルが機能するためには、異なるビンのヒストグラムが互いに一致するようにする損失関数が必要でした。これを説明するために、上の図に示すように、左側に真の 1 次元分布を作成し、右側に真の分布の 2 つのヒストグラムを作成しました。 2 つのヒストグラムは同じ分布を示しているため、研究者は、上の強調表示された区間の重みは、下のヒストグラムでそれと重なり合う区間の重みの合計を超えてはならないなど、それらの関係について強力な主張を行うことができます。この事実に基づいて、1 つのヒストグラムの重みを使用して、別のヒストグラムの重みの上限を構築できます。 繰り返しになりますが、両方のヒストグラムが同じ真の分布を捉えるためには、上限を確立する必要があります。 そのため、トレーニング中に、研究者は、提案された mlp と NeRF mlp によって生成されたヒストグラムの間に損失を構築し、ここで赤で示されている境界に違反する超過分にペナルティを課しました。このようにして、彼らは提案された MLP が有効な上限が何であるかを学習するように促します。 あいまいさの問題を解決するために使用される新しいモデルのコンポーネントは、nerf mlp によって学習されたボリューム シーン密度に基づいた、レイ ヒストグラムの単純な正規化子です。レイに沿ったすべてのポイント間の加重絶対距離を単純に最小化して、各ヒストグラムがデルタ関数に可能な限り近くなるように促します。ここで示した二重積分は計算が簡単ではありませんが、計算が簡単な適切な閉じた形式を導出することができます。 実験結果表1はデータセット内のテスト画像の平均PSNR、SSIM [46]、LPIPS [49]を示しています。提案されたモデルは、これまでのすべての NeRF のようなモデルを大幅に上回っており、トレーニング時間はわずか 1.92 倍であるにもかかわらず、平均二乗誤差は mip-NeRF に比べて 54% 減少していることがわかります。 表 2 では、研究者が自転車のシナリオでモデルのアブレーション研究を実施し、その結果をまとめています。 A) L_prop を削除すると、MLP は完全に監視されていないため、壊滅的な障害が発生します。 B) L_dist を削除すると、アーティファクトが発生して画像の品質が低下します (図 5 を参照)。 C) ミルデンホールら[30]が提案した正則化器は密度にガウスノイズ(σ = 1)を注入しますが、私たちの正則化器ほど効果的ではありません。 D) 提案された MLP を削除し、単一の MLP を使用してシーンと重みの両方をモデル化すると、パフォーマンスは低下しませんが、提案された MLP と比較してトレーニング時間が約 2 倍に増加します。 E) MLP を削除し、mip-NeRF アプローチ (すべての粗いスケールで L_prop の代わりに L_recon を適用) を使用して提案モデルをトレーニングすると、速度と精度が低下しますが、これは研究者が使用した監督戦略を正当化します。 F) 小さな NeRF MLP (1024 個の隠れユニットではなく 256 個の隠れユニット) を使用すると、トレーニングが高速化されますが、品質は低下します。これは、詳細なシーンをモデル化する場合の大容量 MLP の価値を示しています。 G) IPEを完全に削除し、NeRFの位置エンコーディング[30]を使用するとパフォーマンスが低下し、NeRFの代わりにmip-NeRFの価値が示されます。 H) シーンを制限するために収縮を排除し、位置エンコードの頻度を増やすと、精度と速度が低下します。 I) DONeRF[31]で提案されたパラメータ化と対数光線間隔を使用すると精度が低下します。 J) NeRF++[48]で提案されたデュアルMLPパラメータ化は、この論文の手法よりも優れた性能を発揮しますが、MLPの検証時間が2倍になるため、トレーニング時間が2倍になるというコストがかかります(一定のモデル容量を維持するために、研究者は2つのMLPの隠れユニットの数を√2で割ります)。 詳細については原文論文を参照してください。 |
<<: 単一のGPUではGPT-3をトレーニングすることはできませんが、これを使用するとハイパーパラメータを調整できます。
画像分類を始めたいが、どこから始めればよいか分からない。どの事前トレーニング済みネットワークを使用す...
建設分野では、ロボット工学は効率性と労働安全を向上させる能力があるため、注目すべきイノベーションであ...
[[402075]]序文Bisect は、リストをソートしたままリストに要素を挿入するアルゴリズムを...
脳コンピューターインターフェースは、言語の読み取りに加えて、人間の脳内の画像をリアルタイムで読み取る...
[[412546]]量子コンピューティング + 機械学習は分子シミュレーションの分野でどのような火花...
「携帯電話で注文すれば、1時間以内に商品が自宅に届く」という即時消費が「無人」時代の到来を告げた。本...
習総書記は「人工知能の発展における潜在的リスクの評価と予防を強化し、国民の利益と国家の安全を守り、人...
エッジコンピューティングの進歩とますます高性能化するチップにより、人工知能(AI)は広域ネットワーク...
私たちはプライバシーがますます少なくなる世界に住んでいます。今日、ネット上で拡散されたこのビデオは多...
次のような経験をしたことはありませんか。求人検索サイトで仕事の希望に関するアンケートに答えると、サイ...
Microsoft Research Asia (MSRA) と Orient Overseas C...
1990年代にレコメンドシステムが誕生して以来、2024年時点で32年の開発の歴史があります。過去...
第3回HUAWEI CONNECT 2018が2018年10月10日に上海万博展示コンベンションセン...
近年、人工知能技術は急速に発展し、ますます多くの分野でその急速な発展の勢いと大きな可能性を発揮してい...
\上記で紹介したヒープ構造では、データを部分的にしかソートできません。つまり、一部の要素のソートし...