AI研究も印象派から学べるのでしょうか?これらの生きているような人物は3Dモデルであることが判明した

AI研究も印象派から学べるのでしょうか?これらの生きているような人物は3Dモデルであることが判明した

19 世紀には、絵画、彫刻、版画などの分野で印象派の芸術運動が広まりました。その特徴は「形をほとんど伝えない、短く断続的な筆遣い」で、これが後に印象派となりました。簡単に言えば、印象派の筆致は修正されておらず、目に見えるもので、形式的な精密さを追求していません。ぼかしも合理的です。光と色に関する科学的な概念を絵画に導入し、伝統的な固有の色の概念を革新しました。

D3GA では、作者の目標はその逆を行い、写真のようにリアルな表現を作成することでした。 D3GA では、作者は「セグメント化されたブラシストローク」の現代版としてガウススプラッティングを創造的に使用し、仮想キャラクターのリアルタイムで安定した構造と外観を作成します。

印象派の画家モネの代表作「印象・日の出」。


アバター構築の場合、作成主導型(つまり、新しいコンテンツを生成してアニメーション化できる)のリアルな人間のアバターには、単眼方式の精度不足のため、現在、高密度のマルチビュー データが必要です。さらに、既存の技術は、正確な 3D 登録を含む複雑な前処理に依存しています。ただし、これらの登録を取得するには反復が必要であり、エンドツーエンドのパイプラインに統合するのは困難です。正確な登録を必要とせず、Neural Radiance Fields (NeRF) に基づく他のアプローチは、リアルタイム レンダリングには遅すぎたり、衣服のアニメーションに問題があったりすることがよくあります。

Kerbl らは、従来の Surface Splatting レンダリング手法に基づいて 3D Gaussian Splatting (3DGS) を導入しました。ニューラル放射フィールドに基づく最先端の方法と比較すると、このアプローチはより高速なフレーム レートでより高品質の画像をレンダリングし、高精度の 3D 初期化を必要としません。

ただし、3DGS は静的なシーン用に設計されています。動的なシーンをレンダリングするために時間条件付きガウススプラッティングを提案する人もいますが、これらのモデルは以前に観察されたコンテンツを再生することしかできないため、新しい動きや見たことのない動きを表現するのには適していません。

著者らは、駆動されたニューラル放射輝度フィールドに基づいて、放射輝度フィールドの代わりに 3D ガウス分布を使用して、正規化された空間に配置し、3D の人間の外観と変形をモデル化します。パフォーマンスが向上するだけでなく、ガウス スプラッティングではカメラ レイ サンプリング ヒューリスティックを使用する必要がありません。

残る問題は、これらのケージの変形を引き起こす信号を定義することです。仮想キャラクターを駆動するための現在の最先端技術では、RGB-D 画像や複数のカメラなどの高密度の入力信号が必要ですが、これらの方法は伝送帯域幅が比較的低い状況では適用できない可能性があります。この研究では、著者らは、スケルトンの関節角度や四元数の形式の 3D 顔キーポイントなど、人間の姿勢に基づいたよりコンパクトな入力を採用しています。

幅広い体型、動き、衣服(体にフィットする衣服だけでなく)を網羅した 9 つの高品質マルチビュー シーケンスで被写体固有のモデルをトレーニングすることで、あらゆる被写体に対して新しいポーズでキャラクター イメージを操作できるようになりました。

方法の概要


  • 論文リンク: https://arxiv.org/pdf/2311.08581.pdf
  • プロジェクトリンク: https://zielon.github.io/d3ga/

仮想キャラクターを動的にボリューム化する現在の方法では、変形空間から標準空間にポイントをマッピングするか、フォワード マッピングのみに依存します。バックプロジェクションに基づく方法は、エラーが発生しやすいバックプロパゲーションを必要とし、視点に依存する効果をモデル化する際に問題があるため、正準空間でエラーが蓄積される傾向があります。

そのため、著者らは前方のみのマッピングアプローチを採用することにしました。 D3GA は 3DGS に基づいており、ニューラル表現とケージによって拡張され、仮想キャラクターの各動的部分の色と形状を個別にモデル化します。

D3GA は、3D ポーズ ϕ、顔埋め込み κ、視点 dk、標準ケージ v (および自動的にデコードされた色の特徴 hi) を使用して、最終レンダリング C¯ と補助セグメンテーション レンダリング P¯ を生成します。左側の入力は、各アバターパーツに対して 3 つのネットワーク (ΨMLP、ΠMLP、ΓMLP) を介して処理され、ケージ変位 ∆v、ガウス変形 bi、qi、si、および色/透明度 ci、oi が生成されます。

ケージ変形によってガウス変形が正規化された後、式 9 を使用して最終画像にラスタライズされます。

実験結果

D3GA は、SSIM、PSNR、知覚メトリック LPIPS などのメトリックに基づいて評価されます。表 1 は、LBS のみを使用する方法 (つまり、フレームごとに 3D データをスキャンする必要がない方法) の中で、D3GA が PSNR と SSIM の点で最高のパフォーマンスを発揮し、トレーニング信号が貧弱でテスト画像がないにもかかわらず (DVA は 200 台のカメラすべてを使用してテストされています)、これらのメトリックですべての FFD 方法よりも優れており、BD FFD に次ぐ性能であることを示しています。

定性的な比較では、D3GA は他の最先端の方法よりも、衣服、特にスカートやスウェットパンツのようなゆったりとした衣服のモデリングに優れていることが示されています (図 4)。 FFD は Free Deformable Mesh の略で、LBS メッシュよりも豊富なトレーニング信号が含まれています (図 9)。


ボリュームベースの方法と比較して、私たちの方法は仮想キャラクターの衣服を分離することができ、衣服も操作可能です。図 5 は、特定の衣服登録モジュールを必要とせずに、スケルトンの関節角度のみで各衣服層を制御できることを示しています。


<<: 

>>:  8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。

ブログ    

推薦する

2018 年に最も人気のあるディープラーニング フレームワークはどれでしょうか?この科学的なランキングからわかることは

ディープラーニングは、機械学習の分野で最も注目されているテクノロジーです。ディープラーニング フレー...

...

...

オンラインショッピングに革命が起こりました! Googleの最新AIモデルでは、姿勢を変えずにワンクリックで服を試着できる

ワンクリック着せ替えがGoogleで実現しました!このAIフィッティングモデルTryOnDiffus...

飲食店がセルフオーダー機や配達ロボットを導入すれば「無人飲食店」になるのでしょうか?

ケータリング業界における人件費は、事業者を悩ませる大きな問題です。レストランなどのケータリングのシナ...

ソフトウェアプログラマー試験: 関数の最大値を見つけるための標準的な遺伝的アルゴリズム

Dim N2 (30) Longは2の累乗されたデータを格納するために使用されるDim Script...

欧州はAI規制を推進

先週、欧州の議員らは画期的な人工知能規制であるEU AI法案を圧倒的多数で賛成票を投じた。この法案は...

...

ネイチャーが中国のAIの現状を分析。2030年に世界をリードできるか?

ネイチャー誌の最近の分析記事では、中国の人工知能研究は質の面で急速な進歩を遂げているが、影響力の大き...

リアルタイムスタイル転送、モバイル端末で実行、顔エフェクトで遊ぶ新しい方法

今年、フェイシャルビデオエフェクトは世界中で再び大人気になりました。年初にやった「蟻の歯黒」(人間の...

清華大学、マイクロソフトなど大学がリマインダーエンジニアを排除? LLMと進化的アルゴリズムを組み合わせて強力なプロンプト最適化ツールを作成する

LLM の機能と従来のアルゴリズムを組み合わせることで、どのような火花が生まれるのでしょうか?清華大...

Androidスマートフォンを開くと、画面全体に「Big Model」という3つの単語が表示されます。

最近では、Android メーカーは大きなモデルなしで携帯電話の発表会を開催しようとはしません。 O...

クラウドコンピューティングと人工知能が伝統的な医学を覆すのは時間の問題だ

2016年1月、国家衛生計画出産委員会は専門医向けの「5+3+x」標準化研修システムを発行しました。...

ゼロワンエブリシングYi-34B-Chat微調整モデルがオンラインになり、複数の権威あるリストに掲載されました

最近、業界の多くの大規模なモデルベンチマークが、「強度値」のアップデートの新たなラウンドを導入しまし...