一枚のポートレートからビデオを生成しましょう!中国チームが3D顔動画生成モデルを提案、SOTAを達成

一枚のポートレートからビデオを生成しましょう!中国チームが3D顔動画生成モデルを提案、SOTAを達成

[[417461]]

人間の顔を使って面白いビデオを生成するにはどうすればいいでしょうか?

[[417462]]

もちろん、ただ頭をくっつけただけの粗雑な GIF を意味しているわけではありません。

顔ビデオの生成では通常、顔画像のスパースランドマークと生成的敵対ネットワーク (GAN) を組み合わせて使用​​します。

しかし、まばらな顔の特徴点から生成されたこのような顔画像ビデオでは、通常、多くの問題が発生します。

たとえば、画質の低下、画像の歪み、アイデンティティの変化、表現の不一致などです。

したがって、これらの問題を解決するために、本論文の著者らは、再構築された 3D 顔動的情報を使用して顔ビデオの生成をガイドします。

論文アドレス: https://ieeexplore.ieee.org/abstract/document/9439899

arXiv バージョン: https://arxiv.org/pdf/2105.14678.pdf

3D 顔ダイナミクスでは、人の表情や動きがより繊細になり、非常にリアルな顔動画の生成を導く強力な事前知識として役立ちます。

本論文では、単一の顔画像の 3D モーション シーケンスを予測するための 3D モーション予測および顔ビデオ生成モデル (FaceAnime) を設計しました。

3D ダイナミック シーケンスの肌の詳細は、スパース テクスチャ マッピング アルゴリズムを通じてさらにレンダリングされ、最後に条件付き生成的敵対ネットワークを使用して顔ビデオの生成がガイドされます。

実験結果によると、FaceAnime は単一の静止顔画像から、他の方法よりも優れた、忠実度の高い、アイデンティティ不変の顔動画を生成できます。

背景と貢献

現在の顔ビデオ生成方法では、一般的に、スパースな顔のランドマークを使用して画像やビデオの生成をガイドします。

しかし、著者は、スパースな 2 次元の特徴点を使用して顔画像/ビデオを生成することには明らかな欠点があると考えています。

  1. 顔の特徴点がまばらだと、顔画像の幾何学的形状をうまく表現できず、顔全体の形状や顔の構造の詳細が失われ、合成画像の歪みや品質低下を引き起こす可能性があります。
  2. 疎な 2 次元特徴点には、ソースの顔画像の内容情報が含まれないため、生成された画像がトレーニング セットのみを含む顔画像に過剰適合される可能性があります。
  3. ビデオ生成プロセス中に顔のアイデンティティ情報が保持される必要がありますが、スパースな 2D 特徴点にはアイデンティティ情報がないため、合成結果でアイデンティティが簡単に変更されてしまいます。

したがって、本論文はこれらの側面において次のような貢献をする。

  • 画像/ビデオのガイド付き生成に広く使用されている 2D のスパース顔ランドマークとは異なり、この論文では主に、豊富な顔情報を含む 3D 動的情報を使用した顔ビデオ生成タスクを検討します。
  • 3D 動的予測 (3DDP) ネットワークは、時空間的に連続した 3D 動的シーケンスを予測するように設計されています。
  • 予測された 3D 動的シーケンスをレンダリングし、それを顔画像/ビデオの生成をガイドするための事前情報として使用するためのスパース テクスチャ マッピング アルゴリズムが提案されています。
  • この記事では、ランダムな方法と制御可能な方法の両方を使用してビデオ生成タスクを実行し、提案された方法の有効性を検証します。

方法の説明

本論文で提案する FaceAnime は、3D 動的予測ネットワーク (3DDP) と事前ガイド付き顔生成ネットワーク (Prior-Guided Face Generation、PGFG) で構成されています。

まず、この方法では、3D モーフィング モデル (3DMM) に基づいて単一の顔画像を 3D で再構築します。次に、3DDP ネットワークが画像の将来の 3D 動的シーケンスを予測し、スパース テクスチャ マッピングを使用して動的シーケンスをレンダリングします。最後に、PGFG ネットワークを使用して対応する顔の生成を完了します。

FaceAnimeの全体フレームワーク、3DDPネットワーク部分

FaceAnimeの全体的なフレームワーク、PGFGネットワ​​ーク部分

3D顔再構成とスパーステクスチャマッピング

3D モーフィングモデル (3DMM) は、2D 顔画像から対応する 3D 顔を予測するために使用されます。

これらのうち、3D 面を記述する頂点は、2D 面内の一連の直交ベースラインに線形重み付けすることによって取得できます。

このうち、S バーは平均面、As は形状主成分基底、as は対応する形状係数、Aexp は表現主成分基底、aexp は対応する表現係数です。

逆に、3D の面の頂点は変換によって 2D 画像平面にマッピングすることもでき、対応する式は次のように表すことができます。

このうち、Vは2D平面上の3D頂点のマッピング座標を表し、∏は固定直交マッピング行列、Prは対応する回転行列、tはオフセットベクトルです。

マッピングされたランドマークと検出されたランドマーク間の l2 距離を最小化することで、最終的に 3DMM の係数を取得できます。

ソース顔画像 (Source Face) が与えられた場合、再構成された 3DMM 係数を変更することでその 3D 形状を任意に変更でき、変更された 3DMM 係数によってターゲット顔のスパース テクスチャを取得できます。

顔の再ターゲット タスクでは、修正された 3DMM 係数は参照顔ビデオ フレームから取得できますが、顔予測タスクでは、LSTM モジュールによって予測されます。

高密度テクスチャ事前情報がテクスチャ マッピングで強くなりすぎて、ターゲット アクションで望ましくない結果が生じるのを防ぐため、この論文では、さまざまな顔の動きの変化に適応するために、テクスチャ マッピング プロセスで間隔サンプリング、つまりスパース テクスチャ マッピングを採用しています。

異なる3DMM係数に対して得られた異なる3D顔再構成とスパースマッピング結果

特定のタスクのみを対象とするこれまでのビデオ生成とは異なり、本論文では、顔ビデオの再ターゲット、ビデオ予測、ターゲット駆動型ビデオ予測という 3 つの異なる生成タスクを提案しました。

リターゲティングタスクでは、著者らは予測に 3DDP を使用する代わりに、参照ビデオを使用してシーケンス変異情報を提供します。

ビデオ予測:

観測された動的シーケンス (3DMM 係数) が与えられると、LSTM はそれを次のようにエンコードします。

合理的な動作を予測するために、LSTM はまず多数の動作入力を学習し、姿勢シーケンス内の動作の種類と時間の経過に伴う変化を認識する必要があります。

トレーニング プロセス中に、将来の動的シーケンスは次のように生成されます。

ここで、dt ハットは予測された 3DMM 係数を表し、時刻 t における 3D ダイナミクスを表します。

上記の式に基づいて、モデルは初期の動的 d0 から合理的な将来のシーケンスを学習できます。

目標主導のビデオ予測:

LSTM の場合、ターゲット ガイド モーション生成を実現するには、モデルにソース ダイナミックとターゲット ダイナミックの 2 つの入力が必要です。

ビデオ予測とは異なり、著者らはタイマーを使用してターゲットダイナミクスの重みを再調整しました。

全体的な LSTM 予測は次のように表現できます。

ここで、dT はターゲット ダイナミクスを表し、T は予測長です。つまり、t=0 はシーケンスの開始時間を表し、t=T はシーケンスの終了時間を表します。

損失関数:

ソースの顔画像が与えられた場合、著者は 2DAL モデルを使用して対応する 3DMM 係数を回帰し、初期の 3D 動的 d0 を表します。次に、モデルは d0 を観測して係数シーケンス d1:T ハットを生成します。

トレーニングプロセス中、著者は教師あり学習のために 3DMM 係数損失と 3D 頂点損失の 2 つの損失関数を使用しました。

3DMM 係数損失は、予測された 3DMM 係数と実際の 3DMM 係数間のユークリッド距離として定義されます。

3D 頂点損失は次のように定義されます。

このうち、v1+tハットとv1+tは、それぞれ予測係数と標準係数に対応する顔の3次元頂点情報である。全体的な損失関数は次のように表すことができます。

事前ガイドによる顔生成: 提案されたスパース テクスチャ マップに基づいて、ソース顔画像を使用して予測された 3D ダイナミクスをレンダリングします。ここでは、スパース テクスチャが顔の生成をガイドするための事前情報として使用されます。

記事で言及されているネットワーク PGFG (Prior-Guided Face Generation Network) は、主に条件付き GANp ネットワークで構成されています。

PGFG ネットワークの構造:

PGFG ジェネレータ G には、ソース面 Is、Is に対応するテクスチャ プライオリティ ps、およびターゲット pt のテクスチャ プライオリティの 3 つの入力があります。

ここで、著者はターゲットテクスチャの事前分布ptを事前ガイダンスとして直接使用するのではなく、事前分布残差を使用して顔生成をガイドし、動き残差を特徴空間E(pt)-E(ps)で取得できます。最終的な顔は次のとおりです。

異なる空間位置での特徴情報をさらに活用するために、エンコーダーとデコーダーの両方が Dense ブロックで構成されています。

識別器には、ターゲットの顔画像のテクスチャ事前分布と、生成された顔とターゲットの顔の組み合わせである入力 [pt, It ハット] と [pt, It] の 2 つの入力があります。

損失関数:

ネットワーク PGFG は、画像ピクセル間の損失 Limg、敵対的損失 Ladv、および識別情報損失 Lid という 3 つの損失関数によって監視されます。

識別情報の損失において、R は事前にトレーニングされた顔認識モデルであることに注意してください。ネットワーク全体の損失関数は次のとおりです。

結果と分析

著者らは、顔のビデオリダイレクト、ビデオ予測、ターゲット駆動型ビデオ予測という 3 つのタスクについて多数の実験を実施しました。

フェイスビデオリダイレクト:

このタスクでは、著者らは、顔の表情の方向転換と頭のスピーチの方向転換という 2 つのサブタスクに関する実験を実施しました。

実験では、提案された FaceAnime モデルが、ソースの顔画像の表情や動作をターゲット画像に効果的にリダイレクトし、対応する姿勢や発話表現を生成できることが示されました。

FaceAnimeの表情リダイレクト(a)とヘッドスピーチリダイレクト(b)の実験結果

顔動画予測:

このタスクには、ビデオ予測とターゲット駆動型ビデオ予測という 2 つのサブタスクが含まれます。

実験中、各予測タスクについて、著者は顔画像テストセット IJB-C から抽出した 1 つの顔画像をランダムに選択しました。

ビデオテストでは、著者らはまず 3DDP ネットワークを使用してソースの顔からモーションシーケンスを予測し、次にこのシーケンスを使用して顔ビデオの生成をガイドします。

ターゲット誘導顔予測タスクには、2 つの入力画像が必要です。 1 つはソース面、もう 1 つはターゲット面です。

3DDP ネットワークは、ソースの顔からターゲットの顔へのスムーズな動きの変化を予測し、顔ビデオの生成をガイドするために使用されます。

FaceAnimeビデオ生成結果

FaceAnimeの目標主導型ビデオ生成の結果

提案された方法の先進性を実証するために、著者らは同様のタスクに対する他のアルゴリズムの結果とも比較しました。

FaceAnimeと他の方法の比較結果

それに比べて、FaceAnime は高品質でリアルな顔のビデオシーケンスを生成できるだけでなく、生成されたビデオ画像は参照ビデオの顔の表情や姿勢の変化を正確に復元し、顔の識別情報をより適切に維持することができます。

広範囲にわたる実験により、著者らが提案した方法は、参照ビデオのポーズと表情の変化をソースの顔に再配置でき、ランダムな顔画像に対して、妥当な将来のビデオシーケンスを生成できることが示されています。

他の最先端の顔生成方法と比較して、提案された方法は、高品質でアイデンティティを保持する顔を生成する上でより優れた結果を実現します。

著者について

Tu Xiaoguangは2020年に中国電子科技大学で博士号を取得しました。 2018年から2020年まで、シンガポール国立大学の学習・視覚研究所の客員研究員として、Feng Jiashi博士の指導を受けました。彼の研究対象には、凸最適化、コンピューター ビジョン、ディープラーニングなどがあります。

Yingtian Zou は、シンガポール国立大学コンピューター学部の博士課程の学生です。 2018年に中国武漢華中科技大学でコンピューターサイエンスの学士号を取得しました。彼の研究対象は、コンピューター ビジョン、実用的な機械学習アルゴリズムとその理論です。

趙建氏は2012年に北京航空航天大学で学士号を取得し、2014年に国立国防科学技術大学で修士号を取得し、2019年にシンガポール国立大学で博士号を取得しました。彼の主な研究対象には、ディープラーニング、パターン認識、コンピューター ビジョン、マルチメディア分析などがあります。彼はACM MM 2018最優秀学生論文賞を受賞しました。 NSFC、T-PAMI、IJCV、NeurIPS(2018年にNeurIPSで最高得点を獲得した上位30%の査読者の1人)、CVPRなどの招待査読者を務めています。

Ai Wenjie は、中国電子科技大学情報通信工学学院の修士課程の学生です。彼の研究対象は主にコンピュータービジョンとディープラーニング、特に超解像とぼかし除去です。

IEEE 会員の Jian Dong 氏は、シンガポール国立大学で博士号を取得しました。現在Shopeeの取締役。 360 の元シニアディレクター、Amazon の研究科学者。彼の研究対象には機械学習とコンピュータービジョンが含まれており、PASCAL VOC および ILSVRC コンテストで賞を受賞しています。

ユアンユアン氏は、パンセ・シンガポール研究所の人工知能科学者です。彼は2019年にシンガポール国立大学で電気およびコンピュータ工学の修士号を取得しました。 2019年、ケンブリッジ大学ケンブリッジ画像解析グループの客員研究員。彼の研究対象には、生成的敵対ネットワーク、オプティカルフロー推定、顔認識などがあります。

王志康は西安市大学電子工学学院の修士課程の学生です。 2019年から2020年まで、シンガポール国立大学の学習・視覚研究所の客員研究員を務めた。彼の研究対象には、コンピューター ビジョン、ディープラーニング、マルチメディア データ処理などがあります。

李志鋒氏はテンセントの人工知能研究所の主任研究員です。彼は2006年に香港中文大学で博士号を取得しました。その後、香港中文大学とミシガン州立大学で博士研究員として研究を行った。テンセント AI ラボに入社する前は、中国科学院深圳先進技術研究所の専任教授を務めていました。彼の研究対象には、ディープラーニング、コンピュータービジョンとパターン認識、顔の検出と認識などがあります。彼は現在、Neural Computing および IEEE Circuits and Systems for Video Technology の編集委員を務めており、英国コンピュータ協会 (FBCS) のフェローでもあります。

Guodong Guo はウィスコンシン大学マディソン校でコンピューターサイエンスの博士号を取得しました。彼は現在、百度研究所のディープラーニング研究所の副所長であり、ウェストバージニア大学 (WVU) のコンピューターサイエンスおよび電気工学部の准教授です。彼の研究分野には、コンピューター ビジョン、生物統計学、機械学習、マルチメディアなどがあります。彼は 2008 年にノースカロライナ優秀イノベーション賞を受賞し、WVU CEMR の優秀研究員 (2017 ~ 2018 年)、WVU CEMR の年間最優秀新人研究員 (2010 ~ 2011 年) に選ばれました。

Liu Wei 氏は、Tencent Artificial Intelligence Lab のコンピューター ビジョン センターのディレクターです。 2012年から2015年まで、米国ニューヨーク州ヨークタウンハイツのIBM TJワトソン研究所で研究員として勤務。彼は機械学習、コンピュータービジョン、パターン認識、情報検索、ビッグデータなどの分野での研究開発に取り組んでいます。彼は現在、IEEE Transactions on Pattern Analysis and Machine Intelligence、IEEE Transactions on Neural Networks and Learning Systems、IEEE Transactions on Circuits and Systems for Video Technology、および Pattern Recognition の編集委員を務めています。彼は国際パターン認識協会 (IAPR) のフェローであり、国際統計研究所 (ISI) の選出メンバーです。

馮佳石氏は、2007年に中国科学技術大学で工学の学士号を取得し、2014年にシンガポール国立大学で博士号を取得しました。 2014年から2015年まで、カリフォルニア大学ロサンゼルス校で博士研究員として勤務。彼は現在、シンガポール国立大学の電気・コンピュータ工学部の助教授です。彼の研究対象は、大規模データ分析のための機械学習とコンピュータービジョン技術です。

<<:  ビットコインアルゴリズム調整!世界の鉱山会社にとって採掘は困難に:利益は急激に減少

>>:  人工知能は人類の終焉をもたらすのでしょうか? AIに対する5つの実存的脅威

ブログ    
ブログ    
ブログ    

推薦する

将来、人工知能に置き換えられない仕事が最も収益性が高くなるでしょう。それがどれか見てみましょう。

誰もが知っているように、昔は銀行に行って業務を処理するには長い列に並ばなければなりませんでした。業務...

強化学習のフレームワークは AI 開発に新たなアイデアを生み出すでしょうか?

[[256809]]アルゴリズムを理解しておらず、AI機能を備えたアプリを開発したいアプリ開発者の...

Nvidia が企業秘密を盗んだと非難される!ビデオ会議で証拠が明らかになり、関与した従業員は有罪を認めた

Nvidia はビデオ会議を開催しただけで訴えられたのですか? ? ?はい、きっかけはほんの数枚のコ...

ディープラーニングを使用した音声分類のエンドツーエンドの例と説明

サウンド分類は、オーディオのディープラーニングで最も広く使用されている方法の 1 つです。音を分類し...

2020 年にチャットボットはどこに向かうのでしょうか?

チャットボットはかつて大々的に宣伝された期待に応えようとしており、Intercom が委託した新しい...

あなたはキング・オブ・グローリーをプレイしていますが、誰かがiPhoneを使ってニューラルネットワークをトレーニングしています

知っていましたか? LeNet 畳み込みニューラル ネットワークは iOS デバイス上で直接トレーニ...

人工知能の時代にはどんな教師が必要なのでしょうか?

「私の仕事はロボットに置き換えられるのでしょうか?」人工知能の急速な発展により、ますます多くの人々...

ヒントエンジニアリング: LLM で必要なものを生成

翻訳者 |ブガッティレビュー | Chonglou生成AIモデルは、入力に基づいてコンテンツを生成す...

人間と踊る!中国の6団体が制作したヒューマノイドロボットがストリートショーに進出

注意してください、小帥は振り向きましたが、スウェットシャツのフードの中には何もありませんでした。さて...

人気ゲーム2048 - AIプログラムアルゴリズム分析

現在人気の2048ゲームでは、誰かが高確率(90%以上)でゲームに勝つことができるAIプログラムを実...

人工知能は、優秀な人材が良い就職機会を見つけるのにどのように役立つのでしょうか?

人工知能は、大企業が従業員を管理する方法に大きな影響を与えています。 [[360624]]世界経済は...

CAIOは企業が緊急に必要とする人材になりつつある

数え切れないほど多くの企業が AI 技術の研究や導入に競い合う中、多くの企業が熟練した AI チーム...

「公平性」、人工知能はこれを達成できるのか?

2020年の東京オリンピックはこれまで以上に盛り上がっています。 7月28日に行われた男子体操個人...

Googleがまた新しいことを始める: 視覚言語モデルに空間推論をさせる

視覚言語モデル (VLM) は、画像の説明、視覚的な質問応答 (VQA)、具体化された計画、アクショ...