4K 品質の 3D 合成ビデオはもはやスライドショーにならず、新しい方法でレンダリング速度が 30 倍以上向上

4K 品質の 3D 合成ビデオはもはやスライドショーにならず、新しい方法でレンダリング速度が 30 倍以上向上

4K 品質の 60 フレームのビデオは一部のアプリでメンバーシップがなければ視聴できませんが、AI 研究者はすでに非常に滑らかな画像を持つ 4K レベルの 3D ダイナミック合成ビデオを実現しています。

現実世界では、私たちが目にするビデオのほとんどは 2D です。このようなビデオを見るとき、俳優の間を歩いたり、空間の隅に歩いたりするなど、視聴角度を選択する方法はありません。 VR や AR デバイスの登場により、この欠点は補われました。これらのデバイスが提供する 3D 動画では、視点を変えたり、自由に動き回ったりできるため、没入感が大幅に高まります。

しかし、このような 3D のダイナミック シーンの合成は、画質と滑らかさの両面で常に難しい点でした。

最近、浙江大学、湘岩科技、アントグループの研究者らがこの問題に異議を唱えた。 「4K4D: 4K解像度でのリアルタイム4Dビュー合成」と題した論文では、高解像度の3D動的シーン合成のレンダリング速度を大幅に向上させた4K4Dと呼ばれるポイントクラウド表現手法を提案しました。具体的には、RTX 4090 GPU を使用すると、4K 解像度で 80 FPS のフレーム レートでレンダリングでき、1080p 解像度では 400 FPS のフレーム レートに到達できます。全体として、従来の方法よりも 30 倍以上高速になり、SOTA レンダリング品質を実現します。

以下は論文の紹介です。

論文概要


  • 論文リンク: https://arxiv.org/pdf/2310.11448.pdf
  • プロジェクトリンク: https://zju3dv.github.io/4k4d/

動的ビュー合成は、キャプチャされたビデオから動的な 3D シーンを再構築し、没入型の仮想リプレイを作成することを目的としています。これは、コンピューター ビジョンとコンピューター グラフィックスで長年研究されてきた問題です。この技術の有用性の鍵となるのは、高い忠実度でリアルタイムにレンダリングする能力であり、VR/AR、スポーツ放送、芸術的なパフォーマンスのキャプチャへの応用が可能になります。従来の方法では、動的な 3D シーンをテクスチャ メッシュのシーケンスとして表現し、複雑なハードウェアを使用して再構築します。したがって、通常は制御された環境に限定されます。

最近、暗黙的なニューラル表現は、微分可能なレンダリングを介して RGB ビデオから動的な 3D シーンを再構築することに大きな成功を収めています。たとえば、「マルチビュー ビデオからのニューラル 3D ビデオ合成」では、ターゲット シーンを動的放射フィールドとしてモデル化し、ボリューム レンダリングを使用して画像を合成し、入力画像と比較して最適化します。印象的な動的ビュー合成結果にもかかわらず、既存の方法では、高価なネットワーク評価のために、1080p 解像度で画像をレンダリングするのに数秒、場合によっては数分もかかることがよくあります。

静的ビュー合成方法にヒントを得た動的ビュー合成方法の中には、ネットワーク評価のコストや回数を削減することでレンダリング速度を向上させるものもあります。これらの戦略により、MLP マップは前景の動的キャラクターを 41.7 fps でレンダリングできます。ただし、MLP マップのリアルタイム パフォーマンスは中解像度 (384×512) の画像を合成した場合にのみ実現できるため、レンダリング速度の課題は依然として残っています。 4K 解像度で画像をレンダリングすると、速度はわずか 1.3 FPS に低下しました。

この論文では、研究者らは、動的な 3D シーンをモデル化およびレンダリングするための新しいニューラル表現 4K4D を提案しました。図 1 に示すように、4K4D はレンダリング速度において従来の動的ビュー合成方法を大幅に上回り、レンダリング品質においても競争力があります。

著者らは、彼らの核となる革新は 4D ポイント クラウド表現とハイブリッド外観モデルにあると述べています。具体的には、動的なシーンの場合、空間カービング アルゴリズムを使用して粗いポイント クラウド シーケンスを取得し、各ポイントの位置を学習可能なベクトルとしてモデル化します。また、4D 特徴グリッドを導入し、各ポイントに特徴ベクトルを割り当て、それを MLP ネットワークに入力して、ポイントの半径、密度、球面調和関数 (SH) 係数を予測しました。 4D フィーチャ グリッドは、ポイント クラウドに空間正規化を自然に適用し、最適化をより堅牢にします。研究者は 4K4D に基づいて、ハードウェア ラスタライゼーションを使用して前例のないレンダリング速度を実現する、微分可能な深度ピーリング アルゴリズムを開発しました。

研究者たちは、MLP ベースの SH モデルでは動的なシーンの外観を表現するのが難しいことを発見しました。この問題を緩和するために、SH モデルと組み合わせてシーンの外観を表現する画像混合モデルも導入されました。重要な設計は、画像ブレンディング ネットワークを視線方向から独立させ、トレーニング後に事前計算してレンダリング速度を向上させることです。この戦略は、両刃の剣として、画像混合モデルを視線方向に沿って離散化します。連続 SH モデルを使用すると、この問題を解決できます。 SHモデルのみを使用する3Dガウススプラッティングと比較して、研究者が提案したハイブリッド外観モデルは、入力画像によってキャプチャされた情報を最大限に活用し、レンダリング品質を効果的に向上させます。

新しい方法の有効性を検証するために、研究者らは、NHR、ENeRF-Outdoo、DNA-Rendering、Neural3DV など、広く使用されているいくつかのマルチビュー動的新ビュー合成データセットで 4K4D を評価しました。広範囲にわたる実験により、4K4D はレンダリング速度が桁違いに速いだけでなく、レンダリング品質の面でも SOTA 技術を大幅に上回っていることがわかっています。この新しい方法では、RTX 4090 GPU を使用して、DNA-Rendering データセットで 1080p の解像度で 400 FPS を達成し、ENeRF-Outdoor データセットで 4k の解像度で 80 FPS を達成します。

方法の紹介

動的な 3D シーンをキャプチャしたマルチビュー ビデオに基づいて、ターゲット シーンを再構築し、ビュー合成をリアルタイムで実行することを目指します。モデルアーキテクチャ図を図 2 に示します。

次に、4D 埋め込み、幾何学モデル、外観モデルの観点から、ポイント クラウドを使用して動的シーンをモデリングするための関連知識を紹介します。

4D 埋め込み: 対象シーンの粗いポイント クラウドが与えられた場合、ニューラル ネットワークと特徴メッシュを使用して、その動的なジオメトリと外観を表現します。具体的には、本論文ではまず 6 つの特徴平面 θ_xy、θ_xz、θ_yz、θ_tx、θ_ty、θ_tz を定義し、K 平面戦略を採用してこれらの 6 つの平面を使用して 4D 特徴フィールド Θ(x, t) をモデル化します。

幾何学モデル: 粗いポイント クラウドに基づいて、各ポイントの 3 つの属性 (エントリ)、つまり位置 p ∈ R^3、半径 r ∈ R、密度 σ ∈ R を学習することによって、動的シーンの幾何学が表現されます。次に、これらの点を利用して、空間点 x の体積密度が計算されます。点の位置 p は最適化可能なベクトルとしてモデル化されます。半径rと密度σは、式(1)の特徴ベクトルfをMLPネットワークに入力することによって予測されます。

外観モデル: 図 2c に示すように、この論文では、画像混合技術と球面調和関数 (SH) モデルを使用してハイブリッド外観モデルを構築します。画像混合技術は離散ビュー外観 c_ibr を表し、SH モデルは連続ビュー依存外観 c_sh を表します。 t 番目のフレームの点 x の場合、視線方向 d における色は次のようになります。

マイクロデプスピーリング

この論文で提案された動的シーン表現は、深度ピーリングアルゴリズムの助けを借りて画像にレンダリングできます。

研究者らは、K 個のレンダリング パスで構成される深度ピーリング アルゴリズムを実装するためのカスタム シェーダーを開発しました。つまり、特定のピクセル u に対して、研究者は複数の処理ステップを実行し、最終的に K 回のレンダリングの後、ピクセル u はソートされたポイントのセット {x_k|k = 1、...、K} を取得しました。

これらの点 {x_k|k = 1, ..., K} に基づいて、ボリュームレンダリングにおけるピクセル u の色表現は次のように得られます。

トレーニング中、レンダリングされたピクセルカラー C(u) が与えられ、それを実際のピクセルカラー C_gt(u) と比較し、次の損失関数を使用してエンドツーエンドでモデルを最適化します。

さらに、この論文では知覚損失も適用しています。

そしてマスクの紛失:

最終的な損失関数は次のように定義されます。

実験と結果

この論文では、DNA-Rendering、ENeRF-Outdoor、NHR、Neural3DV データセットで 4K4D メソッドを評価します。

DNA-Rendering データセットの結果を表 1 に示します。結果から、4K4D レンダリングは SOTA パフォーマンスの ENeRF よりも 30 倍以上高速であり、レンダリング品質も優れていることがわかります。

DNA レンダリング データセットの定性的な結果を図 5 に示します。KPlanes では 4D の動的シーンの詳細な外観と形状を復元できませんが、他の画像ベースの方法では高品質の外観が生成されます。ただし、これらの方法では、オクルージョンやエッジの周囲がぼやけた結果になりやすく、画質が低下します。対照的に、4K4D では、200 FPS を超える高忠実度のレンダリングを生成できます。

次に、実験では、ENeRFOutdoor データセットに対するさまざまな方法の定性的および定量的結果を示します。表 2 に示すように、4K4D は 140 FPS を超えるレンダリングでも大幅に優れた結果を実現します。

ENeRF などの他の方法ではぼやけた結果が生成されますが、IBRNet のレンダリング結果には、図 3 に示すように、画像の端の周りに黒いアーティファクトが含まれます。K-Planse では、動的な人体やさまざまな背景領域を再構築できません。

表 6 は、微分可能な深度ピーリング アルゴリズムの有効性を示しています。4K4D は、CUDA ベースの方法よりも 7 倍以上高速です。

この論文では、表 7 に、異なる解像度での異なるハードウェア (RTX 3060、3090、4090) 上の 4K4D のレンダリング速度も報告しています。

詳細については、元の論文を参照してください。

<<:  OpenAIの画像検出ツールが公開され、CTO: AI生成画像の99%を認識可能

>>: 

ブログ    
ブログ    
ブログ    

推薦する

教育を強化するための人工知能の新たな方向性とは?

AlphaGoが数年前にプロの囲碁プレイヤーに勝利して以来、人工知能はメディアで最もよく使われる言...

人工知能は良いものだが、企業はAIの適用時に4つの大きな間違いを犯している。

問題は正確には何ですか? これらのエラーを回避する方法はありますか?今日、人工知能 (AI)、機械学...

Python における 7 つの主要なキーワード抽出アルゴリズムのベンチマーク

私はキーワード抽出タスクのための効率的なアルゴリズムを探していました。 目標は、データ コーパスが急...

130年の歴史を持つアメリカのブランド、カーハートがAIを活用して売上を伸ばす方法

戦略的利益のために AI を活用している企業の中に、アメリカの衣料品会社 Carhartt がありま...

教師なし学習のための最も重要な12のアルゴリズムとその使用例

教師なし学習は、教師あり学習とは対照的に、もう 1 つの主流の機械学習方法です。教師なし学習では、デ...

Google AIが新世代の「物体検出」システムをリリース

[[319182]] 3月19日、Google BrainとAIチームは今週、EfficientDe...

機械学習チームにはより優れた特徴エンジニアリング技術が必要

機械学習向けにデータ機能を最適化する機能エンジニアリングのスキルは、データサイエンスそのものと同じく...

...

自動運転にはセンサーがいくつ必要ですか?

センサーのコストは15ドルから1ドルまで幅があり、自動車メーカーは、車両を完全に自動運転にするにはど...

プログラマーが使用する基本アルゴリズムトップ10

[[188736]]アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hal...

NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

最近、米国のトップ 10 テクノロジー ブログの 1 つである Latent Space が、終了し...

IBM、生成AIの基礎モデルを発表

IBM Granite ファミリーの基礎モデルは、生成 AI を自然言語およびコーディング タスクに...

Baiduの李振宇氏:Apollo 3.0のリリースはApolloのオープン性の新たな出発点です

自動車業界から大きな注目を集めるアポロオープンプラットフォームは、新たな量産時代を迎えました。 7月...

中国人民大学高陵人工知能学院のネイチャーサブジャーナル:マルチモーダル基本モデルを使用して汎用人工知能への移行を試みている

最近、中国人民大学高陵人工知能学院の陸志武教授、孫昊准教授、温継栄学院長教授が共同責任著者として国際...