4K 品質の 60 フレームのビデオは一部のアプリでメンバーシップがなければ視聴できませんが、AI 研究者はすでに非常に滑らかな画像を持つ 4K レベルの 3D ダイナミック合成ビデオを実現しています。 現実世界では、私たちが目にするビデオのほとんどは 2D です。このようなビデオを見るとき、俳優の間を歩いたり、空間の隅に歩いたりするなど、視聴角度を選択する方法はありません。 VR や AR デバイスの登場により、この欠点は補われました。これらのデバイスが提供する 3D 動画では、視点を変えたり、自由に動き回ったりできるため、没入感が大幅に高まります。 しかし、このような 3D のダイナミック シーンの合成は、画質と滑らかさの両面で常に難しい点でした。 最近、浙江大学、湘岩科技、アントグループの研究者らがこの問題に異議を唱えた。 「4K4D: 4K解像度でのリアルタイム4Dビュー合成」と題した論文では、高解像度の3D動的シーン合成のレンダリング速度を大幅に向上させた4K4Dと呼ばれるポイントクラウド表現手法を提案しました。具体的には、RTX 4090 GPU を使用すると、4K 解像度で 80 FPS のフレーム レートでレンダリングでき、1080p 解像度では 400 FPS のフレーム レートに到達できます。全体として、従来の方法よりも 30 倍以上高速になり、SOTA レンダリング品質を実現します。 以下は論文の紹介です。 論文概要
動的ビュー合成は、キャプチャされたビデオから動的な 3D シーンを再構築し、没入型の仮想リプレイを作成することを目的としています。これは、コンピューター ビジョンとコンピューター グラフィックスで長年研究されてきた問題です。この技術の有用性の鍵となるのは、高い忠実度でリアルタイムにレンダリングする能力であり、VR/AR、スポーツ放送、芸術的なパフォーマンスのキャプチャへの応用が可能になります。従来の方法では、動的な 3D シーンをテクスチャ メッシュのシーケンスとして表現し、複雑なハードウェアを使用して再構築します。したがって、通常は制御された環境に限定されます。 最近、暗黙的なニューラル表現は、微分可能なレンダリングを介して RGB ビデオから動的な 3D シーンを再構築することに大きな成功を収めています。たとえば、「マルチビュー ビデオからのニューラル 3D ビデオ合成」では、ターゲット シーンを動的放射フィールドとしてモデル化し、ボリューム レンダリングを使用して画像を合成し、入力画像と比較して最適化します。印象的な動的ビュー合成結果にもかかわらず、既存の方法では、高価なネットワーク評価のために、1080p 解像度で画像をレンダリングするのに数秒、場合によっては数分もかかることがよくあります。 静的ビュー合成方法にヒントを得た動的ビュー合成方法の中には、ネットワーク評価のコストや回数を削減することでレンダリング速度を向上させるものもあります。これらの戦略により、MLP マップは前景の動的キャラクターを 41.7 fps でレンダリングできます。ただし、MLP マップのリアルタイム パフォーマンスは中解像度 (384×512) の画像を合成した場合にのみ実現できるため、レンダリング速度の課題は依然として残っています。 4K 解像度で画像をレンダリングすると、速度はわずか 1.3 FPS に低下しました。 この論文では、研究者らは、動的な 3D シーンをモデル化およびレンダリングするための新しいニューラル表現 4K4D を提案しました。図 1 に示すように、4K4D はレンダリング速度において従来の動的ビュー合成方法を大幅に上回り、レンダリング品質においても競争力があります。 著者らは、彼らの核となる革新は 4D ポイント クラウド表現とハイブリッド外観モデルにあると述べています。具体的には、動的なシーンの場合、空間カービング アルゴリズムを使用して粗いポイント クラウド シーケンスを取得し、各ポイントの位置を学習可能なベクトルとしてモデル化します。また、4D 特徴グリッドを導入し、各ポイントに特徴ベクトルを割り当て、それを MLP ネットワークに入力して、ポイントの半径、密度、球面調和関数 (SH) 係数を予測しました。 4D フィーチャ グリッドは、ポイント クラウドに空間正規化を自然に適用し、最適化をより堅牢にします。研究者は 4K4D に基づいて、ハードウェア ラスタライゼーションを使用して前例のないレンダリング速度を実現する、微分可能な深度ピーリング アルゴリズムを開発しました。 研究者たちは、MLP ベースの SH モデルでは動的なシーンの外観を表現するのが難しいことを発見しました。この問題を緩和するために、SH モデルと組み合わせてシーンの外観を表現する画像混合モデルも導入されました。重要な設計は、画像ブレンディング ネットワークを視線方向から独立させ、トレーニング後に事前計算してレンダリング速度を向上させることです。この戦略は、両刃の剣として、画像混合モデルを視線方向に沿って離散化します。連続 SH モデルを使用すると、この問題を解決できます。 SHモデルのみを使用する3Dガウススプラッティングと比較して、研究者が提案したハイブリッド外観モデルは、入力画像によってキャプチャされた情報を最大限に活用し、レンダリング品質を効果的に向上させます。 新しい方法の有効性を検証するために、研究者らは、NHR、ENeRF-Outdoo、DNA-Rendering、Neural3DV など、広く使用されているいくつかのマルチビュー動的新ビュー合成データセットで 4K4D を評価しました。広範囲にわたる実験により、4K4D はレンダリング速度が桁違いに速いだけでなく、レンダリング品質の面でも SOTA 技術を大幅に上回っていることがわかっています。この新しい方法では、RTX 4090 GPU を使用して、DNA-Rendering データセットで 1080p の解像度で 400 FPS を達成し、ENeRF-Outdoor データセットで 4k の解像度で 80 FPS を達成します。 方法の紹介動的な 3D シーンをキャプチャしたマルチビュー ビデオに基づいて、ターゲット シーンを再構築し、ビュー合成をリアルタイムで実行することを目指します。モデルアーキテクチャ図を図 2 に示します。 次に、4D 埋め込み、幾何学モデル、外観モデルの観点から、ポイント クラウドを使用して動的シーンをモデリングするための関連知識を紹介します。 4D 埋め込み: 対象シーンの粗いポイント クラウドが与えられた場合、ニューラル ネットワークと特徴メッシュを使用して、その動的なジオメトリと外観を表現します。具体的には、本論文ではまず 6 つの特徴平面 θ_xy、θ_xz、θ_yz、θ_tx、θ_ty、θ_tz を定義し、K 平面戦略を採用してこれらの 6 つの平面を使用して 4D 特徴フィールド Θ(x, t) をモデル化します。 幾何学モデル: 粗いポイント クラウドに基づいて、各ポイントの 3 つの属性 (エントリ)、つまり位置 p ∈ R^3、半径 r ∈ R、密度 σ ∈ R を学習することによって、動的シーンの幾何学が表現されます。次に、これらの点を利用して、空間点 x の体積密度が計算されます。点の位置 p は最適化可能なベクトルとしてモデル化されます。半径rと密度σは、式(1)の特徴ベクトルfをMLPネットワークに入力することによって予測されます。 外観モデル: 図 2c に示すように、この論文では、画像混合技術と球面調和関数 (SH) モデルを使用してハイブリッド外観モデルを構築します。画像混合技術は離散ビュー外観 c_ibr を表し、SH モデルは連続ビュー依存外観 c_sh を表します。 t 番目のフレームの点 x の場合、視線方向 d における色は次のようになります。 マイクロデプスピーリング この論文で提案された動的シーン表現は、深度ピーリングアルゴリズムの助けを借りて画像にレンダリングできます。 研究者らは、K 個のレンダリング パスで構成される深度ピーリング アルゴリズムを実装するためのカスタム シェーダーを開発しました。つまり、特定のピクセル u に対して、研究者は複数の処理ステップを実行し、最終的に K 回のレンダリングの後、ピクセル u はソートされたポイントのセット {x_k|k = 1、...、K} を取得しました。 これらの点 {x_k|k = 1, ..., K} に基づいて、ボリュームレンダリングにおけるピクセル u の色表現は次のように得られます。 トレーニング中、レンダリングされたピクセルカラー C(u) が与えられ、それを実際のピクセルカラー C_gt(u) と比較し、次の損失関数を使用してエンドツーエンドでモデルを最適化します。 さらに、この論文では知覚損失も適用しています。 そしてマスクの紛失: 最終的な損失関数は次のように定義されます。 実験と結果この論文では、DNA-Rendering、ENeRF-Outdoor、NHR、Neural3DV データセットで 4K4D メソッドを評価します。 DNA-Rendering データセットの結果を表 1 に示します。結果から、4K4D レンダリングは SOTA パフォーマンスの ENeRF よりも 30 倍以上高速であり、レンダリング品質も優れていることがわかります。 DNA レンダリング データセットの定性的な結果を図 5 に示します。KPlanes では 4D の動的シーンの詳細な外観と形状を復元できませんが、他の画像ベースの方法では高品質の外観が生成されます。ただし、これらの方法では、オクルージョンやエッジの周囲がぼやけた結果になりやすく、画質が低下します。対照的に、4K4D では、200 FPS を超える高忠実度のレンダリングを生成できます。 次に、実験では、ENeRFOutdoor データセットに対するさまざまな方法の定性的および定量的結果を示します。表 2 に示すように、4K4D は 140 FPS を超えるレンダリングでも大幅に優れた結果を実現します。 ENeRF などの他の方法ではぼやけた結果が生成されますが、IBRNet のレンダリング結果には、図 3 に示すように、画像の端の周りに黒いアーティファクトが含まれます。K-Planse では、動的な人体やさまざまな背景領域を再構築できません。 表 6 は、微分可能な深度ピーリング アルゴリズムの有効性を示しています。4K4D は、CUDA ベースの方法よりも 7 倍以上高速です。 この論文では、表 7 に、異なる解像度での異なるハードウェア (RTX 3060、3090、4090) 上の 4K4D のレンダリング速度も報告しています。 詳細については、元の論文を参照してください。 |
<<: OpenAIの画像検出ツールが公開され、CTO: AI生成画像の99%を認識可能
過去2年間で、「スマートホーム」はほぼすべての家電メーカーが必ず話題にし、自社製品になくてはならない...
2022年3月、DeepMindの論文「計算最適化大規模言語モデルのトレーニング」では、構築されたC...
データによれば、我が国の人口は過去 10 年間にわたり緩やかな増加傾向を維持し続けており、我が国は依...
「まだ非常に初期段階です。」これは、自動運転技術の現在の開発について、多くの業界関係者がYiou氏に...
高度な持続的脅威は、その多様な形態、持続性、対立、隠蔽を特徴とし、現在、大手企業が脅威監視において直...
2月4日、アマゾンクラウドコンピューティング人工知能研究所の研究者らは、インターネット上の大量のコン...
[[358162]]コアリーディング人工知能は、世界的な科学技術革命と産業変革の新たな流れを導く重...
現在、ビジョントランスフォーマー (ViT) の分野には 2 つの大きな問題点があります。1. Vi...
学生時代、私は Huya の面接を受けたことがあります。今でもはっきりと覚えている面接の質問がありま...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
史上最速の大規模モデル推論を実現するには、1171万ドル(8410万元)の費用がかかりますか? ? ...