AI研究も印象派から学べるのでしょうか？これらの生きているような人物は3Dモデルであることが判明した

19 世紀には、絵画、彫刻、版画などの分野で印象派の芸術運動が広まりました。その特徴は「形をほとんど伝えない、短く断続的な筆遣い」で、これが後に印象派となりました。簡単に言えば、印象派の筆致は修正されておらず、目に見えるもので、形式的な精密さを追求していません。ぼかしも合理的です。光と色に関する科学的な概念を絵画に導入し、伝統的な固有の色の概念を革新しました。

D3GA では、作者の目標はその逆を行い、写真のようにリアルな表現を作成することでした。 D3GA では、作者は「セグメント化されたブラシストローク」の現代版としてガウススプラッティングを創造的に使用し、仮想キャラクターのリアルタイムで安定した構造と外観を作成します。

印象派の画家モネの代表作「印象・日の出」。

アバター構築の場合、作成主導型（つまり、新しいコンテンツを生成してアニメーション化できる）のリアルな人間のアバターには、単眼方式の精度不足のため、現在、高密度のマルチビューデータが必要です。さらに、既存の技術は、正確な 3D 登録を含む複雑な前処理に依存しています。ただし、これらの登録を取得するには反復が必要であり、エンドツーエンドのパイプラインに統合するのは困難です。正確な登録を必要とせず、Neural Radiance Fields (NeRF) に基づく他のアプローチは、リアルタイムレンダリングには遅すぎたり、衣服のアニメーションに問題があったりすることがよくあります。

Kerbl らは、従来の Surface Splatting レンダリング手法に基づいて 3D Gaussian Splatting (3DGS) を導入しました。ニューラル放射フィールドに基づく最先端の方法と比較すると、このアプローチはより高速なフレームレートでより高品質の画像をレンダリングし、高精度の 3D 初期化を必要としません。

ただし、3DGS は静的なシーン用に設計されています。動的なシーンをレンダリングするために時間条件付きガウススプラッティングを提案する人もいますが、これらのモデルは以前に観察されたコンテンツを再生することしかできないため、新しい動きや見たことのない動きを表現するのには適していません。

著者らは、駆動されたニューラル放射輝度フィールドに基づいて、放射輝度フィールドの代わりに 3D ガウス分布を使用して、正規化された空間に配置し、3D の人間の外観と変形をモデル化します。パフォーマンスが向上するだけでなく、ガウススプラッティングではカメラレイサンプリングヒューリスティックを使用する必要がありません。

残る問題は、これらのケージの変形を引き起こす信号を定義することです。仮想キャラクターを駆動するための現在の最先端技術では、RGB-D 画像や複数のカメラなどの高密度の入力信号が必要ですが、これらの方法は伝送帯域幅が比較的低い状況では適用できない可能性があります。この研究では、著者らは、スケルトンの関節角度や四元数の形式の 3D 顔キーポイントなど、人間の姿勢に基づいたよりコンパクトな入力を採用しています。

幅広い体型、動き、衣服（体にフィットする衣服だけでなく）を網羅した 9 つの高品質マルチビューシーケンスで被写体固有のモデルをトレーニングすることで、あらゆる被写体に対して新しいポーズでキャラクターイメージを操作できるようになりました。

方法の概要

論文リンク: https://arxiv.org/pdf/2311.08581.pdf
プロジェクトリンク: https://zielon.github.io/d3ga/

仮想キャラクターを動的にボリューム化する現在の方法では、変形空間から標準空間にポイントをマッピングするか、フォワードマッピングのみに依存します。バックプロジェクションに基づく方法は、エラーが発生しやすいバックプロパゲーションを必要とし、視点に依存する効果をモデル化する際に問題があるため、正準空間でエラーが蓄積される傾向があります。

そのため、著者らは前方のみのマッピングアプローチを採用することにしました。 D3GA は 3DGS に基づいており、ニューラル表現とケージによって拡張され、仮想キャラクターの各動的部分の色と形状を個別にモデル化します。

D3GA は、3D ポーズ ϕ、顔埋め込み κ、視点 dk、標準ケージ v (および自動的にデコードされた色の特徴 hi) を使用して、最終レンダリング C¯ と補助セグメンテーションレンダリング P¯ を生成します。左側の入力は、各アバターパーツに対して 3 つのネットワーク (ΨMLP、ΠMLP、ΓMLP) を介して処理され、ケージ変位 ∆v、ガウス変形 bi、qi、si、および色/透明度 ci、oi が生成されます。

ケージ変形によってガウス変形が正規化された後、式 9 を使用して最終画像にラスタライズされます。

実験結果

D3GA は、SSIM、PSNR、知覚メトリック LPIPS などのメトリックに基づいて評価されます。表 1 は、LBS のみを使用する方法 (つまり、フレームごとに 3D データをスキャンする必要がない方法) の中で、D3GA が PSNR と SSIM の点で最高のパフォーマンスを発揮し、トレーニング信号が貧弱でテスト画像がないにもかかわらず (DVA は 200 台のカメラすべてを使用してテストされています)、これらのメトリックですべての FFD 方法よりも優れており、BD FFD に次ぐ性能であることを示しています。

定性的な比較では、D3GA は他の最先端の方法よりも、衣服、特にスカートやスウェットパンツのようなゆったりとした衣服のモデリングに優れていることが示されています (図 4)。 FFD は Free Deformable Mesh の略で、LBS メッシュよりも豊富なトレーニング信号が含まれています (図 9)。

ボリュームベースの方法と比較して、私たちの方法は仮想キャラクターの衣服を分離することができ、衣服も操作可能です。図 5 は、特定の衣服登録モジュールを必要とせずに、スケルトンの関節角度のみで各衣服層を制御できることを示しています。

<<:

>>: 8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。