4K 品質の 3D 合成ビデオはもはやスライドショーにならず、新しい方法でレンダリング速度が 30 倍以上向上

4K 品質の 60 フレームのビデオは一部のアプリでメンバーシップがなければ視聴できませんが、AI 研究者はすでに非常に滑らかな画像を持つ 4K レベルの 3D ダイナミック合成ビデオを実現しています。

現実世界では、私たちが目にするビデオのほとんどは 2D です。このようなビデオを見るとき、俳優の間を歩いたり、空間の隅に歩いたりするなど、視聴角度を選択する方法はありません。 VR や AR デバイスの登場により、この欠点は補われました。これらのデバイスが提供する 3D 動画では、視点を変えたり、自由に動き回ったりできるため、没入感が大幅に高まります。

しかし、このような 3D のダイナミックシーンの合成は、画質と滑らかさの両面で常に難しい点でした。

最近、浙江大学、湘岩科技、アントグループの研究者らがこの問題に異議を唱えた。「4K4D: 4K解像度でのリアルタイム4Dビュー合成」と題した論文では、高解像度の3D動的シーン合成のレンダリング速度を大幅に向上させた4K4Dと呼ばれるポイントクラウド表現手法を提案しました。具体的には、RTX 4090 GPU を使用すると、4K 解像度で 80 FPS のフレームレートでレンダリングでき、1080p 解像度では 400 FPS のフレームレートに到達できます。全体として、従来の方法よりも 30 倍以上高速になり、SOTA レンダリング品質を実現します。

以下は論文の紹介です。

論文概要

論文リンク: https://arxiv.org/pdf/2310.11448.pdf
プロジェクトリンク: https://zju3dv.github.io/4k4d/

動的ビュー合成は、キャプチャされたビデオから動的な 3D シーンを再構築し、没入型の仮想リプレイを作成することを目的としています。これは、コンピュータービジョンとコンピューターグラフィックスで長年研究されてきた問題です。この技術の有用性の鍵となるのは、高い忠実度でリアルタイムにレンダリングする能力であり、VR/AR、スポーツ放送、芸術的なパフォーマンスのキャプチャへの応用が可能になります。従来の方法では、動的な 3D シーンをテクスチャメッシュのシーケンスとして表現し、複雑なハードウェアを使用して再構築します。したがって、通常は制御された環境に限定されます。

最近、暗黙的なニューラル表現は、微分可能なレンダリングを介して RGB ビデオから動的な 3D シーンを再構築することに大きな成功を収めています。たとえば、「マルチビュービデオからのニューラル 3D ビデオ合成」では、ターゲットシーンを動的放射フィールドとしてモデル化し、ボリュームレンダリングを使用して画像を合成し、入力画像と比較して最適化します。印象的な動的ビュー合成結果にもかかわらず、既存の方法では、高価なネットワーク評価のために、1080p 解像度で画像をレンダリングするのに数秒、場合によっては数分もかかることがよくあります。

静的ビュー合成方法にヒントを得た動的ビュー合成方法の中には、ネットワーク評価のコストや回数を削減することでレンダリング速度を向上させるものもあります。これらの戦略により、MLP マップは前景の動的キャラクターを 41.7 fps でレンダリングできます。ただし、MLP マップのリアルタイムパフォーマンスは中解像度 (384×512) の画像を合成した場合にのみ実現できるため、レンダリング速度の課題は依然として残っています。 4K 解像度で画像をレンダリングすると、速度はわずか 1.3 FPS に低下しました。

この論文では、研究者らは、動的な 3D シーンをモデル化およびレンダリングするための新しいニューラル表現 4K4D を提案しました。図 1 に示すように、4K4D はレンダリング速度において従来の動的ビュー合成方法を大幅に上回り、レンダリング品質においても競争力があります。

著者らは、彼らの核となる革新は 4D ポイントクラウド表現とハイブリッド外観モデルにあると述べています。具体的には、動的なシーンの場合、空間カービングアルゴリズムを使用して粗いポイントクラウドシーケンスを取得し、各ポイントの位置を学習可能なベクトルとしてモデル化します。また、4D 特徴グリッドを導入し、各ポイントに特徴ベクトルを割り当て、それを MLP ネットワークに入力して、ポイントの半径、密度、球面調和関数 (SH) 係数を予測しました。 4D フィーチャグリッドは、ポイントクラウドに空間正規化を自然に適用し、最適化をより堅牢にします。研究者は 4K4D に基づいて、ハードウェアラスタライゼーションを使用して前例のないレンダリング速度を実現する、微分可能な深度ピーリングアルゴリズムを開発しました。

研究者たちは、MLP ベースの SH モデルでは動的なシーンの外観を表現するのが難しいことを発見しました。この問題を緩和するために、SH モデルと組み合わせてシーンの外観を表現する画像混合モデルも導入されました。重要な設計は、画像ブレンディングネットワークを視線方向から独立させ、トレーニング後に事前計算してレンダリング速度を向上させることです。この戦略は、両刃の剣として、画像混合モデルを視線方向に沿って離散化します。連続 SH モデルを使用すると、この問題を解決できます。 SHモデルのみを使用する3Dガウススプラッティングと比較して、研究者が提案したハイブリッド外観モデルは、入力画像によってキャプチャされた情報を最大限に活用し、レンダリング品質を効果的に向上させます。

新しい方法の有効性を検証するために、研究者らは、NHR、ENeRF-Outdoo、DNA-Rendering、Neural3DV など、広く使用されているいくつかのマルチビュー動的新ビュー合成データセットで 4K4D を評価しました。広範囲にわたる実験により、4K4D はレンダリング速度が桁違いに速いだけでなく、レンダリング品質の面でも SOTA 技術を大幅に上回っていることがわかっています。この新しい方法では、RTX 4090 GPU を使用して、DNA-Rendering データセットで 1080p の解像度で 400 FPS を達成し、ENeRF-Outdoor データセットで 4k の解像度で 80 FPS を達成します。

方法の紹介

動的な 3D シーンをキャプチャしたマルチビュービデオに基づいて、ターゲットシーンを再構築し、ビュー合成をリアルタイムで実行することを目指します。モデルアーキテクチャ図を図 2 に示します。

次に、4D 埋め込み、幾何学モデル、外観モデルの観点から、ポイントクラウドを使用して動的シーンをモデリングするための関連知識を紹介します。

4D 埋め込み: 対象シーンの粗いポイントクラウドが与えられた場合、ニューラルネットワークと特徴メッシュを使用して、その動的なジオメトリと外観を表現します。具体的には、本論文ではまず 6 つの特徴平面 θ_xy、θ_xz、θ_yz、θ_tx、θ_ty、θ_tz を定義し、K 平面戦略を採用してこれらの 6 つの平面を使用して 4D 特徴フィールド Θ(x, t) をモデル化します。

幾何学モデル: 粗いポイントクラウドに基づいて、各ポイントの 3 つの属性 (エントリ)、つまり位置 p ∈ R^3、半径 r ∈ R、密度 σ ∈ R を学習することによって、動的シーンの幾何学が表現されます。次に、これらの点を利用して、空間点 x の体積密度が計算されます。点の位置 p は最適化可能なベクトルとしてモデル化されます。半径rと密度σは、式(1)の特徴ベクトルfをMLPネットワークに入力することによって予測されます。

外観モデル: 図 2c に示すように、この論文では、画像混合技術と球面調和関数 (SH) モデルを使用してハイブリッド外観モデルを構築します。画像混合技術は離散ビュー外観 c_ibr を表し、SH モデルは連続ビュー依存外観 c_sh を表します。 t 番目のフレームの点 x の場合、視線方向 d における色は次のようになります。

マイクロデプスピーリング

この論文で提案された動的シーン表現は、深度ピーリングアルゴリズムの助けを借りて画像にレンダリングできます。

研究者らは、K 個のレンダリングパスで構成される深度ピーリングアルゴリズムを実装するためのカスタムシェーダーを開発しました。つまり、特定のピクセル u に対して、研究者は複数の処理ステップを実行し、最終的に K 回のレンダリングの後、ピクセル u はソートされたポイントのセット {x_k|k = 1、...、K} を取得しました。

これらの点 {x_k|k = 1, ..., K} に基づいて、ボリュームレンダリングにおけるピクセル u の色表現は次のように得られます。

トレーニング中、レンダリングされたピクセルカラー C(u) が与えられ、それを実際のピクセルカラー C_gt(u) と比較し、次の損失関数を使用してエンドツーエンドでモデルを最適化します。

さらに、この論文では知覚損失も適用しています。

そしてマスクの紛失：

最終的な損失関数は次のように定義されます。

実験と結果

この論文では、DNA-Rendering、ENeRF-Outdoor、NHR、Neural3DV データセットで 4K4D メソッドを評価します。

DNA-Rendering データセットの結果を表 1 に示します。結果から、4K4D レンダリングは SOTA パフォーマンスの ENeRF よりも 30 倍以上高速であり、レンダリング品質も優れていることがわかります。

DNA レンダリングデータセットの定性的な結果を図 5 に示します。KPlanes では 4D の動的シーンの詳細な外観と形状を復元できませんが、他の画像ベースの方法では高品質の外観が生成されます。ただし、これらの方法では、オクルージョンやエッジの周囲がぼやけた結果になりやすく、画質が低下します。対照的に、4K4D では、200 FPS を超える高忠実度のレンダリングを生成できます。

次に、実験では、ENeRFOutdoor データセットに対するさまざまな方法の定性的および定量的結果を示します。表 2 に示すように、4K4D は 140 FPS を超えるレンダリングでも大幅に優れた結果を実現します。

ENeRF などの他の方法ではぼやけた結果が生成されますが、IBRNet のレンダリング結果には、図 3 に示すように、画像の端の周りに黒いアーティファクトが含まれます。K-Planse では、動的な人体やさまざまな背景領域を再構築できません。

表 6 は、微分可能な深度ピーリングアルゴリズムの有効性を示しています。4K4D は、CUDA ベースの方法よりも 7 倍以上高速です。

この論文では、表 7 に、異なる解像度での異なるハードウェア (RTX 3060、3090、4090) 上の 4K4D のレンダリング速度も報告しています。

詳細については、元の論文を参照してください。

<<: OpenAIの画像検出ツールが公開され、CTO: AI生成画像の99%を認識可能

>>: