死角なしの360度！カリフォルニア大学バークレー校、中国で3DHMフレームワークをリリース：1枚の写真であらゆるビデオアクションを模倣可能

任意のポーズの写真を入力し、写真の人物に「指定された動画」の動きを真似してもらうのは簡単ではありません。モデルは体の動きを真似るだけでなく、動作中の人物の服装や外見の変化もモデル化する必要があります。

写真

入力画像が正面からで、模倣されたビデオアクションに向きを変えることが含まれる場合、モデルは衣服の背面がどのように見えるか、回転中に衣服がどのようにはためくかを「想像」する必要もあります。

この問題に対処するため、カリフォルニア大学バークレー校の研究者らは、単一の画像からテクスチャマップを完成させ、ビデオ内の俳優の動きを模倣する 3D 人間をレンダリングすることで 3D 人間の動きを合成する、2 段階の拡散モデルベースのフレームワーク 3DHM を提案しました。

写真

論文アドレス: https://arxiv.org/abs/2401.10889

3DHM モデルには 2 つのコアコンポーネントが含まれています。

1. 人体や衣服の目に見えない部分についての予備知識を学びます。

研究者たちは、充填拡散モデルを使用して、特定の単一画像内の見えない部分を幻覚的に表現し、その後、テクスチャマップ空間でモデルをトレーニングして、ポーズと視点を変えずにサンプリング効率を向上させました。

2. 適切な衣服とテクスチャを使用して、さまざまな体のポーズをレンダリングします。

研究者らは、3D の人間のポーズによって制御される拡散モデルに基づくレンダリングパイプラインを開発しました。このパイプラインは、衣服、髪の毛、見えない部分の適切な塗りつぶしなど、さまざまなポーズの対象人物のリアルなレンダリングを生成できます。

この方法では、ターゲットの動きに忠実で、視覚的に入力に近い一連の 3D ポーズを生成できます。また、3D コントロールでは、さまざまな合成カメラ軌跡を使用してキャラクターをレンダリングすることもできます。

実験結果によると、従来の方法と比較して、私たちの方法は長時間の動作やさまざまな困難な姿勢を生成する際に、より弾力性があることがわかりました。

動く合成人間

写真

テクスチャマップの修復

最初の段階のモデルの目標は、なりすまし者の目に見えない領域に色を付けることによって、信憑性のある完全なテクスチャマップを生成することです。

研究者たちはまず入力画像上に 3D メッシュをレンダリングし、次に 4DHumans の方法に従って各可視三角形の色をサンプリングして部分的に可視のテクスチャマップを抽出しました。

入力

まず、一般的な方法を使用してピクセルとサーフェス間の対応関係を推測し、単一の RGB 画像から 3D メッシュテクスチャを抽出するための不完全な UV テクスチャマップを構築します。可視性マスクも計算され、3D で表示されるピクセルと表示されないピクセルが表示されます。

ターゲット

モデリングの目的は完全なテクスチャマップを生成することなので、ビデオデータを使用して疑似的に完全なテクスチャマップを生成します。

4DHumans は時間の経過に伴って人間を追跡できるため、内部のテクスチャマップを継続的に更新し、可視領域の移動平均として表現します。

しかし、より鮮明な画像を生成するには、移動平均よりもメディアンフィルタリングの方が生成タスクに適していることを研究者らは発見した。この技術はどんなビデオにも適用できるが、この段階では2,205本の人間のビデオが使用された。それぞれの人間のビデオでは、まずビデオの各フレームからテクスチャマップの一部が抽出された。

各ビデオには 360 度の人間の視点が含まれているため、ビデオ全体から疑似完全なテクスチャマップが計算され、第 1 段階のターゲット出力として設定され、具体的にはビデオテクスチャマップの可視部分の全体的な中央値が抽出されます。

モデル

研究者らは、画像補完タスクで優れたパフォーマンスを発揮する安定拡散インペインティングモデルを直接微調整しました。

写真

部分的なテクスチャマップと対応する可視性マスクを入力し、復元された人間の予測マップを取得します。テキストエンコーダーブランチをロックし、固定された安定した拡散モデルの入力テキストとして常に「実際の人間」を使用します。訓練されたモデルはInpainting Diffusionと呼ばれる。

ヒューマンレンダリング

第 2 段階の目標は、俳優の動作を模倣した人物のリアルなレンダリングを取得することです。

中間レンダリング（ステージ 1 の俳優のポーズとテクスチャマップに基づいてレンダリング）は人体のさまざまな動きを反映できますが、これらの SMPL メッシュレンダリングは人体に密着しているため、衣服、髪型、体型をリアルにレンダリングすることはできません。

たとえば、入力がスカートをはいた女の子が踊っているシーンである場合、中間レンダリングでは「ダンス」と表示されますが、SMPL メッシュレンダリングではスカートをアニメーション化できません。

完全な自己教師方式でモデルをトレーニングするために、研究者は俳優が模倣者であると仮定しました。結局のところ、優れた俳優は優れた模倣者であるはずです。次に、4DHumansから任意のビデオとポーズシーケンスを取得し、任意の単一フレームを取得して、ステージ1から完全なテクスチャマップを取得し、3Dポーズにテクスチャマップをレンダリングすることで中間レンダリングを取得できます。

中間レンダリングと実際の RGB 画像のペアデータを使用することで、第 2 段階の拡散モデルをトレーニングするための条件として大量のペアデータを収集できます。

入力

ステージ 1 で生成されたテクスチャマップは、まず俳優の 3D ボディメッシュシーケンスに (完全に) 適用され、俳優の動きを模倣する中間レンダリングが実行されます。

この時点での中間レンダリングでは、3D メッシュに一致する衣服 (下着) のみが反映され、スカート、冬用ジャケット、帽子の膨らんだ部分など、SMPL ボディの外側のテクスチャは反映されないことに注意することが重要です。

完全な衣服の質感を持つ人体を得るために、研究者らは得られた中間レンダリングと人体の元の画像をレンダリング拡散に入力し、リアルな外観を持つ新しい人体のポーズをレンダリングしました。

ターゲット

データ収集時に俳優は模倣者と想定されるため、直接的な 3D 監視信号なしで、中間レンダリングと実際の RGB 画像のペアデータに基づいて大量のデータでモデルをトレーニングできます。

モデル

ControlNet と同様に、研究者は、3D 条件を処理するために、安定拡散モデルエンコーダーの重みを制御可能なブランチ (トレーニング可能なコピー) として直接複製しました。

事前学習済みの安定拡散モデルを固定し、ノイズ潜在点（64×64）を入力します。同時に、テクスチャマップされた3D人体と時刻tの元の人体写真を固定VAEエンコーダーに入力し、条件付け潜在点としてテクスチャマップされた3D人体潜在コード（64×64）と外観潜在コード（64×64）を取得します。

次に、これら 2 つの条件付き潜在コードは、レンダリング拡散制御可能ブランチに送られます。このブランチの主な設計原理は、人間の入力からテクスチャを学習し、トレーニング中にノイズ除去を介してテクスチャマップされた 3D 人間に適用することです。

目標は、ステージ 1 で生成 (テクスチャマッピング) された 3D ボディから、鮮やかなテクスチャを持つ実際の人物をレンダリングすることです。

写真

出力潜在画像は、拡散ステップ手順と固定 VAE デコーダーを通じて取得され、ピクセル空間に処理されます。

最初のステージと同様に、テキストエンコーダーブランチはロックされており、「実際の人間が演技している」が常に固定された安定した拡散モデルの入力テキストとして使用されます。

トレーニングされたモデルはレンダリング拡散モデルと呼ばれ、出力はフレームごとに予測されます。

実験結果

ベースラインと比較

比較に使用される sota モデルには、DreamPose、DisCo、ControlNet (ポーズ精度の比較) が含まれます。

公平を期すために、すべての方法の推論ステップは 50 に設定されています。

フレーム単位の生成品質

研究者らは、解像度 256×256 の 50 本の未知の人間のビデオで構成される 2K2K テストデータセットで 3DHM と他の方法を比較しました。

各キャラクターのビデオは 30 フレームで撮影され、0 度から 360 度までの各見えない人物のさまざまな視点を表現し、12 度ごとに 1 フレームが撮影されるため、各モデルの予測機能と一般化機能をより適切に評価できます。

写真

結果から、3DHM はさまざまな指標において他のベースラインメソッドよりも優れていることがわかります。

ビデオレベルの生成品質

3DHM の時間的一貫性を検証するために、研究者らは、画像レベルの評価と同じテストセットとベースライン実装の結果も報告しています。

画像レベルの比較とは異なり、連続する 16 フレームごとに連結され、困難な視点にある見えない人物それぞれのサンプルが形成されます。

角度の範囲は 150 度から 195 度で、各モデルの予測および一般化能力をより適切に評価するために 3 度ごとにフレームが撮影されます。

50 本のビデオの全体的な平均スコア結果によると、3DHM はフレームごとにトレーニングおよびテストされているにもかかわらず、以前の方法に比べて依然として大きな利点があり、3DHM が 3 次元制御の時間的一貫性を維持する上で優れたパフォーマンスを発揮することも示されています。

ポーズの正確さ

モデルの有効性をさらに評価するために、研究者らはまず、高度な 3D ポーズ推定モデル 4DHumans を使用して、さまざまな方法で生成された人間のビデオから 3D ポーズを推定し、次に同じデータセット設定を使用して、抽出されたポーズを対象ビデオの 3D ポーズと比較しました。

ControlNet は画像を入力しないため、研究者は「実際の人間が演技している」という同じプロンプトとそれに対応するオープンポーズを条件として入力することを選択しました。

写真

結果から、3DHM は提供された 3D ポーズに従って動く人物を非常に正確に合成できることがわかります。同時に、以前の方法では、ポーズからピクセルへのマッピングを直接予測することで、同じパフォーマンスを達成できない可能性があります。

また、DisCO と ControlNet が Openpose によって制御され、DreamPose が DensePose によって制御されているにもかかわらず、3DHM は 2D と 3D の両方のメトリックで優れた結果を達成していることもわかります。

参考文献:

https://arxiv.org/abs/2401.10889

<<: AI時代が到来。プロの写真家は淘汰されるのか？

>>:

ブログ

学者がインテリジェンス、モデルとデータAI、デジタルトランスフォーメーションについて語る。このAIイベントには技術的な内容が含まれている。

死角なしの360度！カリフォルニア大学バークレー校、中国で3DHMフレームワークをリリース：1枚の写真であらゆるビデオアクションを模倣可能

動く合成人間

テクスチャマップの修復

入力

ターゲット

モデル

ヒューマンレンダリング

入力

ターゲット

モデル

実験結果

ベースラインと比較

ポーズの正確さ

人工知能はビッグデータの保存と管理の効率をどのように向上させるのでしょうか?

Facebook がひっそりと AI 技術ツールを開発: 自動的にコードをスキャンして脆弱性を発見

OpenAIのアルトマン氏、Nvidiaへの依存を減らすため中東の投資家とチップ協力について協議

学者がインテリジェンス、モデルとデータAI、デジタルトランスフォーメーションについて語る。このAIイベントには技術的な内容が含まれている。

RPAとは何ですか?ビジネスプロセス自動化の革命

人工知能技術とアプリケーションを徹底的に分析し、人工知能産業チェーンを効果的に理解します。

推薦する

AI チャットボットと自動テストの重要性

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

我が国の自動販売機の現状と展望はどうなっているのでしょうか？ Pinshi Intelligentは新たな戦略を持っています

大量ユーザーポイントのランキングアルゴリズムに関する議論

世界錬金術時代が始まった？ MIT、住宅や道路を無制限のバッテリーに変える「カーボンセメント」スーパーキャパシタを開発

AI時代のRedis

さまざまな機械学習アルゴリズムの選択の考え方を説明する記事

我が国の独自開発OS micROSがリリースされました！このロボットの「心と脳」は単純ではない

NVIDIA の最も強力な汎用大型モデル Nemotron-4 が登場! 15Bが62Bに勝ち、ターゲットはA100/H100です。

人工知能の 10 大トレンドのうち、予想もしなかったものはどれですか?

英国を拠点とするサマドは、eVTOL飛行試験と新型貨物ドローンの開発を進めている。

基本的なプログラミングアルゴリズムを簡単に習得する（I）

OpenAIがロボットチームを解散、創設者は「これまでで最高の決断」と語る