死角なしの360度!カリフォルニア大学バークレー校、中国で3DHMフレームワークをリリース:1枚の写真であらゆるビデオアクションを模倣可能

死角なしの360度!カリフォルニア大学バークレー校、中国で3DHMフレームワークをリリース:1枚の写真であらゆるビデオアクションを模倣可能

任意のポーズの写真を入力し、写真の人物に「指定された動画」の動きを真似してもらうのは簡単ではありません。モデルは体の動きを真似るだけでなく、動作中の人物の服装や外見の変化もモデル化する必要があります。

写真

入力画像が正面からで、模倣されたビデオアクションに向きを変えることが含まれる場合、モデルは衣服の背面がどのように見えるか、回転中に衣服がどのようにはためくかを「想像」する必要もあります。

この問題に対処するため、カリフォルニア大学バークレー校の研究者らは、単一の画像からテクスチャ マップを完成させ、ビデオ内の俳優の動きを模倣する 3D 人間をレンダリングすることで 3D 人間の動きを合成する、2 段階の拡散モデル ベースのフレームワーク 3DHM を提案しました。

写真

論文アドレス: https://arxiv.org/abs/2401.10889

3DHM モデルには 2 つのコア コンポーネントが含まれています。

1. 人体や衣服の目に見えない部分についての予備知識を学びます。

研究者たちは、充填拡散モデルを使用して、特定の単一画像内の見えない部分を幻覚的に表現し、その後、テクスチャマップ空間でモデルをトレーニングして、ポーズと視点を変えずにサンプリング効率を向上させました。

2. 適切な衣服とテクスチャを使用して、さまざまな体のポーズをレンダリングします。

研究者らは、3D の人間のポーズによって制御される拡散モデルに基づくレンダリング パイプラインを開発しました。このパイプラインは、衣服、髪の毛、見えない部分の適切な塗りつぶしなど、さまざまなポーズの対象人物のリアルなレンダリングを生成できます。

この方法では、ターゲットの動きに忠実で、視覚的に入力に近い一連の 3D ポーズを生成できます。また、3D コントロールでは、さまざまな合成カメラ軌跡を使用してキャラクターをレンダリングすることもできます。

実験結果によると、従来の方法と比較して、私たちの方法は長時間の動作やさまざまな困難な姿勢を生成する際に、より弾力性があることがわかりました。

動く合成人間

写真

テクスチャマップの修復

最初の段階のモデルの目標は、なりすまし者の目に見えない領域に色を付けることによって、信憑性のある完全なテクスチャ マップを生成することです。

研究者たちはまず入力画像上に 3D メッシュをレンダリングし、次に 4DHumans の方法に従って各可視三角形の色をサンプリングして部分的に可視のテクスチャ マップを抽出しました。

入力

まず、一般的な方法を使用してピクセルとサーフェス間の対応関係を推測し、単一の RGB 画像から 3D メッシュ テクスチャを抽出するための不完全な UV テクスチャ マップを構築します。可視性マスクも計算され、3D で表示されるピクセルと表示されないピクセルが表示されます。

ターゲット

モデリングの目的は完全なテクスチャマップを生成することなので、ビデオデータを使用して疑似的に完全なテクスチャマップを生成します。

4DHumans は時間の経過に伴って人間を追跡できるため、内部のテクスチャ マップを継続的に更新し、可視領域の移動平均として表現します。

しかし、より鮮明な画像を生成するには、移動平均よりもメディアンフィルタリングの方が生成タスクに適していることを研究者らは発見した。この技術はどんなビデオにも適用できるが、この段階では2,205本の人間のビデオが使用された。それぞれの人間のビデオでは、まずビデオの各フレームからテクスチャマップの一部が抽出された。

各ビデオには 360 度の人間の視点が含まれているため、ビデオ全体から疑似完全なテクスチャ マップが計算され、第 1 段階のターゲット出力として設定され、具体的にはビデオ テクスチャ マップの可視部分の全体的な中央値が抽出されます。

モデル

研究者らは、画像補完タスクで優れたパフォーマンスを発揮する安定拡散インペインティング モデルを直接微調整しました。

写真

部分的なテクスチャ マップと対応する可視性マスクを入力し、復元された人間の予測マップを取得します。テキスト エンコーダー ブランチをロックし、固定された安定した拡散モデルの入力テキストとして常に「実際の人間」を使用します。訓練されたモデルはInpainting Diffusionと呼ばれる。

ヒューマンレンダリング

第 2 段階の目標は、俳優の動作を模倣した人物のリアルなレンダリングを取得することです。

中間レンダリング(ステージ 1 の俳優のポーズとテクスチャ マップに基づいてレンダリング)は人体のさまざまな動きを反映できますが、これらの SMPL メッシュ レンダリングは人体に密着しているため、衣服、髪型、体型をリアルにレンダリングすることはできません。

たとえば、入力がスカートをはいた女の子が踊っているシーンである場合、中間レンダリングでは「ダンス」と表示されますが、SMPL メッシュ レンダリングではスカートをアニメーション化できません。

完全な自己教師方式でモデルをトレーニングするために、研究者は俳優が模倣者であると仮定しました。結局のところ、優れた俳優は優れた模倣者であるはずです。次に、4DHumansから任意のビデオとポーズシーケンスを取得し、任意の単一フレームを取得して、ステージ1から完全なテクスチャマップを取得し、3Dポーズにテクスチャマップをレンダリングすることで中間レンダリングを取得できます。

中間レンダリングと実際の RGB 画像のペアデータを使用することで、第 2 段階の拡散モデルをトレーニングするための条件として大量のペアデータを収集できます。

入力

ステージ 1 で生成されたテクスチャ マップは、まず俳優の 3D ボディ メッシュ シーケンスに (完全に) 適用され、俳優の動きを模倣する中間レンダリングが実行されます。

この時点での中間レンダリングでは、3D メッシュに一致する衣服 (下着) のみが反映され、スカート、冬用ジャケット、帽子の膨らんだ部分など、SMPL ボディの外側のテクスチャは反映されないことに注意することが重要です。

完全な衣服の質感を持つ人体を得るために、研究者らは得られた中間レンダリングと人体の元の画像をレンダリング拡散に入力し、リアルな外観を持つ新しい人体のポーズをレンダリングしました。

ターゲット

データ収集時に俳優は模倣者と想定されるため、直接的な 3D 監視信号なしで、中間レンダリングと実際の RGB 画像のペアデータに基づいて大量のデータでモデルをトレーニングできます。

モデル

ControlNet と同様に、研究者は、3D 条件を処理するために、安定拡散モデル エンコーダーの重みを制御可能なブランチ (トレーニング可能なコピー) として直接複製しました。

事前学習済みの安定拡散モデルを固定し、ノイズ潜在点(64×64)を入力します。同時に、テクスチャマップされた3D人体と時刻tの元の人体写真を固定VAEエンコーダーに入力し、条件付け潜在点としてテクスチャマップされた3D人体潜在コード(64×64)と外観潜在コード(64×64)を取得します。

次に、これら 2 つの条件付き潜在コードは、レンダリング拡散制御可能ブランチに送られます。このブランチの主な設計原理は、人間の入力からテクスチャを学習し、トレーニング中にノイズ除去を介してテクスチャ マップされた 3D 人間に適用することです。

目標は、ステージ 1 で生成 (テクスチャ マッピング) された 3D ボディから、鮮やかなテクスチャを持つ実際の人物をレンダリングすることです。

写真

出力潜在画像は、拡散ステップ手順と固定 VAE デコーダーを通じて取得され、ピクセル空間に処理されます。

最初のステージと同様に、テキストエンコーダーブランチはロックされており、「実際の人間が演技している」が常に固定された安定した拡散モデルの入力テキストとして使用されます。

トレーニングされたモデルはレンダリング拡散モデルと呼ばれ、出力はフレームごとに予測されます。

実験結果

ベースラインと比較

比較に使用される sota モデルには、DreamPose、DisCo、ControlNet (ポーズ精度の比較) が含まれます。

公平を期すために、すべての方法の推論ステップは 50 に設定されています。

フレーム単位の生成品質

研究者らは、解像度 256×256 の 50 本の未知の人間のビデオで構成される 2K2K テスト データセットで 3DHM と他の方法を比較しました。

各キャラクターのビデオは 30 フレームで撮影され、0 度から 360 度までの各見えない人物のさまざまな視点を表現し、12 度ごとに 1 フレームが撮影されるため、各モデルの予測機能と一般化機能をより適切に評価できます。

写真

結果から、3DHM はさまざまな指標において他のベースライン メソッドよりも優れていることがわかります。

ビデオレベルの生成品質

3DHM の時間的一貫性を検証するために、研究者らは、画像レベルの評価と同じテスト セットとベースライン実装の結果も報告しています。

画像レベルの比較とは異なり、連続する 16 フレームごとに連結され、困難な視点にある見えない人物それぞれのサンプルが形成されます。

角度の範囲は 150 度から 195 度で、各モデルの予測および一般化能力をより適切に評価するために 3 度ごとにフレームが撮影されます。

50 本のビデオの全体的な平均スコア結果によると、3DHM はフレームごとにトレーニングおよびテストされているにもかかわらず、以前の方法に比べて依然として大きな利点があり、3DHM が 3 次元制御の時間的一貫性を維持する上で優れたパフォーマンスを発揮することも示されています。

ポーズの正確さ

モデルの有効性をさらに評価するために、研究者らはまず、高度な 3D ポーズ推定モデル 4DHumans を使用して、さまざまな方法で生成された人間のビデオから 3D ポーズを推定し、次に同じデータセット設定を使用して、抽出されたポーズを対象ビデオの 3D ポーズと比較しました。

ControlNet は画像を入力しないため、研究者は「実際の人間が演技している」という同じプロンプトとそれに対応するオープンポーズを条件として入力することを選択しました。

写真

結果から、3DHM は提供された 3D ポーズに従って動く人物を非常に正確に合成できることがわかります。同時に、以前の方法では、ポーズからピクセルへのマッピングを直接予測することで、同じパフォーマンスを達成できない可能性があります。

また、DisCO と ControlNet が Openpose によって制御され、DreamPose が DensePose によって制御されているにもかかわらず、3DHM は 2D と 3D の両方のメトリックで優れた結果を達成していることもわかります。

参考文献:

https://arxiv.org/abs/2401.10889

<<:  AI時代が到来。プロの写真家は淘汰されるのか?

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

サイバーセキュリティにおける生体認証:データ保護の強化

今日のデジタル時代では、広大なインターネット上での絶え間ない情報交換により、前例のないサイバーセキュ...

...

データが新たな石油なら、AIは新たな核兵器だ

人工知能 (AI) とビッグデータは以前から存在しており、さまざまな分野での応用により、世界中の組織...

...

SQL SERVER データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

前回の「SQL SERVER データ マイニングと列の使用方法の理解」に続き、今回はSQL SERV...

StarCraft II の共同競技ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習の問題を解決

マルチエージェント強化学習 (MARL) は、各エージェントのポリシー改善の方向性を特定するだけでな...

TensorFlow2を使用して細胞画像が感染しているかどうかを判断する方法を教えます

[[405128]]このチュートリアルでは、TensorFlow (Keras API) を使用して...

2020 年の RPA の 7 つの主要トレンド: AI の有効化からより戦略的な拡張まで

ロボティック プロセス オートメーション (RPA) サービス プロバイダーである Blue Pri...

...

...

推薦システムに関する6つの衝撃的な「秘密」

1990年代にレコメンドシステムが誕生して以来、2024年時点で32年の開発の歴史があります。過去...

顔認識モデルをゼロから構築する(例と Python コード付き)

01 はじめにFacebook に写真をアップロードするたびに、プラットフォームが顔認識アルゴリズ...

ディープマインドは数人の大物を採用し、ニューヨークにAI研究チームを設立する予定だ

2014年、Googleはイギリスの人工知能研究所DeepMindを買収した。現在、DeepMind...