AI研究も印象派から学べるのでしょうか?これらの生きているような人物は3Dモデルであることが判明した

AI研究も印象派から学べるのでしょうか?これらの生きているような人物は3Dモデルであることが判明した

19 世紀には、絵画、彫刻、版画などの分野で印象派の芸術運動が広まりました。その特徴は「形をほとんど伝えない、短く断続的な筆遣い」で、これが後に印象派となりました。簡単に言えば、印象派の筆致は修正されておらず、目に見えるもので、形式的な精密さを追求していません。ぼかしも合理的です。光と色に関する科学的な概念を絵画に導入し、伝統的な固有の色の概念を革新しました。

D3GA では、作者の目標はその逆を行い、写真のようにリアルな表現を作成することでした。 D3GA では、作者は「セグメント化されたブラシストローク」の現代版としてガウススプラッティングを創造的に使用し、仮想キャラクターのリアルタイムで安定した構造と外観を作成します。

印象派の画家モネの代表作「印象・日の出」。


アバター構築の場合、作成主導型(つまり、新しいコンテンツを生成してアニメーション化できる)のリアルな人間のアバターには、単眼方式の精度不足のため、現在、高密度のマルチビュー データが必要です。さらに、既存の技術は、正確な 3D 登録を含む複雑な前処理に依存しています。ただし、これらの登録を取得するには反復が必要であり、エンドツーエンドのパイプラインに統合するのは困難です。正確な登録を必要とせず、Neural Radiance Fields (NeRF) に基づく他のアプローチは、リアルタイム レンダリングには遅すぎたり、衣服のアニメーションに問題があったりすることがよくあります。

Kerbl らは、従来の Surface Splatting レンダリング手法に基づいて 3D Gaussian Splatting (3DGS) を導入しました。ニューラル放射フィールドに基づく最先端の方法と比較すると、このアプローチはより高速なフレーム レートでより高品質の画像をレンダリングし、高精度の 3D 初期化を必要としません。

ただし、3DGS は静的なシーン用に設計されています。動的なシーンをレンダリングするために時間条件付きガウススプラッティングを提案する人もいますが、これらのモデルは以前に観察されたコンテンツを再生することしかできないため、新しい動きや見たことのない動きを表現するのには適していません。

著者らは、駆動されたニューラル放射輝度フィールドに基づいて、放射輝度フィールドの代わりに 3D ガウス分布を使用して、正規化された空間に配置し、3D の人間の外観と変形をモデル化します。パフォーマンスが向上するだけでなく、ガウス スプラッティングではカメラ レイ サンプリング ヒューリスティックを使用する必要がありません。

残る問題は、これらのケージの変形を引き起こす信号を定義することです。仮想キャラクターを駆動するための現在の最先端技術では、RGB-D 画像や複数のカメラなどの高密度の入力信号が必要ですが、これらの方法は伝送帯域幅が比較的低い状況では適用できない可能性があります。この研究では、著者らは、スケルトンの関節角度や四元数の形式の 3D 顔キーポイントなど、人間の姿勢に基づいたよりコンパクトな入力を採用しています。

幅広い体型、動き、衣服(体にフィットする衣服だけでなく)を網羅した 9 つの高品質マルチビュー シーケンスで被写体固有のモデルをトレーニングすることで、あらゆる被写体に対して新しいポーズでキャラクター イメージを操作できるようになりました。

方法の概要


  • 論文リンク: https://arxiv.org/pdf/2311.08581.pdf
  • プロジェクトリンク: https://zielon.github.io/d3ga/

仮想キャラクターを動的にボリューム化する現在の方法では、変形空間から標準空間にポイントをマッピングするか、フォワード マッピングのみに依存します。バックプロジェクションに基づく方法は、エラーが発生しやすいバックプロパゲーションを必要とし、視点に依存する効果をモデル化する際に問題があるため、正準空間でエラーが蓄積される傾向があります。

そのため、著者らは前方のみのマッピングアプローチを採用することにしました。 D3GA は 3DGS に基づいており、ニューラル表現とケージによって拡張され、仮想キャラクターの各動的部分の色と形状を個別にモデル化します。

D3GA は、3D ポーズ ϕ、顔埋め込み κ、視点 dk、標準ケージ v (および自動的にデコードされた色の特徴 hi) を使用して、最終レンダリング C¯ と補助セグメンテーション レンダリング P¯ を生成します。左側の入力は、各アバターパーツに対して 3 つのネットワーク (ΨMLP、ΠMLP、ΓMLP) を介して処理され、ケージ変位 ∆v、ガウス変形 bi、qi、si、および色/透明度 ci、oi が生成されます。

ケージ変形によってガウス変形が正規化された後、式 9 を使用して最終画像にラスタライズされます。

実験結果

D3GA は、SSIM、PSNR、知覚メトリック LPIPS などのメトリックに基づいて評価されます。表 1 は、LBS のみを使用する方法 (つまり、フレームごとに 3D データをスキャンする必要がない方法) の中で、D3GA が PSNR と SSIM の点で最高のパフォーマンスを発揮し、トレーニング信号が貧弱でテスト画像がないにもかかわらず (DVA は 200 台のカメラすべてを使用してテストされています)、これらのメトリックですべての FFD 方法よりも優れており、BD FFD に次ぐ性能であることを示しています。

定性的な比較では、D3GA は他の最先端の方法よりも、衣服、特にスカートやスウェットパンツのようなゆったりとした衣服のモデリングに優れていることが示されています (図 4)。 FFD は Free Deformable Mesh の略で、LBS メッシュよりも豊富なトレーニング信号が含まれています (図 9)。


ボリュームベースの方法と比較して、私たちの方法は仮想キャラクターの衣服を分離することができ、衣服も操作可能です。図 5 は、特定の衣服登録モジュールを必要とせずに、スケルトンの関節角度のみで各衣服層を制御できることを示しています。


<<: 

>>:  8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。

ブログ    
ブログ    
ブログ    

推薦する

...

小売環境におけるAIとIoTの長期的な応用

IoT カメラは、小売環境をより効率的かつ顧客に優しく、そして何よりもセキュリティと安全性を高めるこ...

データマイニングのためのK平均法アルゴリズムのグラフィカルな説明

K-means クラスタリング アルゴリズム 中国語名は「K-means クラスタリング アルゴリズ...

AI投資から利益を得るための3つの鍵

人工知能 (AI) の専門家や機械学習 (ML) サービスの利用可能性が高まるにつれて、AI は多く...

人工知能は伝染病の予防と制御に役立ちます。正確にスクリーニングし、伝染病を推測し、ウイルスの発生源を追跡することができます。

感染予防・抑制の過程では、高リスクグループとスーパースプレッダーを迅速に特定し、感染の進行状況を正確...

なぜ人工知能は技術的な問題ではなく、社会的な研究の問題なのでしょうか?

[[252833]]無人スーパーで買い物をすることに慣れている人なら、ある日のある瞬間、他のスーパ...

13歳の天才少年がAIスピーカーを開発。2010年代以降の世代は単純ではない

現代のティーンエイジャーにとってクールなものは何でしょうか?おそらくそれは AJ シューズを履くこと...

インテリジェントAIのサポートにより、Xiaomi YoupinはYESOUL Wild Beast高反発腹筋ホイールをクラウドファンディング

YESOUL高反発腹筋ローラーは、1月7日よりXiaomi Youpinでクラウドファンディングで販...

...

...

ロビン・リーは、最後の自慢を達成した後、今日の百度世界大会でさらに 3 つの目標を設定しました。

[[248365]] 7月4日に開催された百度AI開発者会議で、ロビン・リー氏は「以前自慢していた...

...

米陸軍は航空機、戦車、VR訓練にデジタルツインプロジェクトを導入している

将来のサプライチェーンにおける 3D プリント技術の潜在的な役割を判断するために、米国陸軍は UH-...

イタリアの規制当局はChatGPTがEUのプライバシー法に違反していると主張

海外メディアの報道によると、1月31日、イタリアの規制当局は、OpenAIの人工知能チャットボット「...

OpenAIがChatGPTをアップデート:画像と音声入力をサポート

最近、OpenAI は ChatGPT の新バージョンのリリースを発表し、音声入力と画像入力という ...