AIがトランプ氏をダンサーに変身させ、蔡旭坤とともに「チキン、ユー・アー・ソー・ビューティフル」を踊った

[[357996]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

「いいやつだ！」

「最近の紙はどんどんエッチになってきている。」楽しそうにサボっていた同僚が、話をしながらデモを送ってきた。

「宝の少年」トランプがまたもや騙されたことが判明した。

蔡旭坤と「集尼太美」（ダジャレ）を踊ることを「強制」された。

（川宝：AIには道徳的原則がない！）

2次元ロリで可愛いオタクダンスを踊ってみました。

（川宝：赤ずきんちゃんをください。私の方がダンスが上手です[ツンデレ顔]）

インド人の男性と一緒にジャクソンのクラシックダンスステップを踊りました。

（川宝：私のダンスの姿勢を見て、セクシーでしょう？）

デモを見た後、話題が見つからずに頭を悩ませていた私は、一瞬驚きました。「うわあ！」今日のテーマが決まりました！

私はすぐに同僚にその情報を私に送るよう頼みました。

チュアンバオがダンスの腕前を披露せざるを得なかったのは、上海科技大学の研究チームの最新AIによるものだった。このAI論文のタイトルは「Liquid Warping GAN with Attention: A Unified Framework for Human Images Synthesis」である。

簡単に言えば、特定のフレームワークに基づく AI は、動作シミュレーション、外観変換、新しいビューの合成など、人間の画像処理タスクを完了できます。上記のトランプ氏のダンスデモは、AIによって合成された最終的なデモンストレーション効果です。 （動画の全編は記事の最後をご覧ください）

次に、その背後にある合成原理を見てみましょう。

『注意液化GAN』モデル

人間の画像合成は、映画やテレビ番組の制作、ゲーム制作、キャラクターのアニメーション/変身、仮想的な衣服のフィッティングなど、大きな潜在的用途を秘めています。

一般的に言えば、ソースの人間の画像と参照画像が与えられた場合、次の 3 つのタスクを完了する必要があります。

1. モーションシミュレーション: ソースの人間のテクスチャと参照の人間のポーズを使用して画像を生成します。

2. 新しいビューの合成: さまざまな視点から人体の新しい画像をキャプチャして合成します。

3. 外観転送: 人物画像を参考にして、衣服を着用しながらもソースの顔のアイデンティティを維持する人物画像を生成します。（同じ服を着ている人もいれば、着ていない人もいます）

上記のタスクを扱う場合、既存の方法では主に 2D キーポイントを使用して人体の構造を推定します。

しかし、それらは位置情報のみを表現するものであり、個人の体型を特徴付けたり、手足の回転をシミュレートしたりすることはできません。これに対応して、研究者らは新しいモデル処理フレームワークを提案しました。

これは、Body Mesh Recovery モジュール、Flow Composition モジュール、および Liquid Warping Block (LWB) を備えた GAN モジュールの 3 つの部分で構成されています。

Isiは与えられたソース画像、lrは参照画像です

その中で、3Dボディメッシュ回復モジュールは、人間の姿勢と形状を解読するために使用され、関節の位置と回転をシミュレートできるだけでなく、個人の体型を特徴付けることもできます。液体ワーピングブロック（AttLWB）を備えたGANは、テクスチャ、スタイル、色、顔のアイデンティティなどのソース情報を保持するために使用され、画像と特徴空間のソース情報は合成参照に伝播され、ソースの特徴はノイズ除去畳み込みオートエンコーダーを通じて抽出され、ソースのアイデンティティを適切に特徴付けます。

具体的な方法は以下の通りです。

ボディメッシュリカバリ:その役割は、各画像の 3D メッシュだけでなく、運動学的ポーズ (手足の回転) と形状パラメータを予測することです。 HMR は主に 3D ポーズと形状の推定に使用されます。

フロー構成: 既存の推定値に基づいて、カメラビューを使用して、各ソースメッシュと参照メッシュの対応マップと重みインデックスマップを描画します。これは主に、完全に微分可能なレンダラーである Neural Mesh Renderer (NMR) を使用して行われます。

Attentional Liquid Warping GAN:このステージでは、忠実度の高い人間の画像を合成します。以下のことを実行する必要があります:

1) 背景画像を合成します。

3 つのストリームアプローチが採用されています。これには、マスクされた背景画像とカラーチャネルで取得されたマスクを連結する GBG ストリーム、ソース情報を保持できる特徴を抽出するようにエンコーダーをガイドするソース識別ストリーム GSID、歪んだ前景と対応するマップをバイリニアサンプラーの入力として受け取り、最終結果を合成するソース識別ストリーム GT-SF が含まれます。

2) 見える部分に基づいて見えない部分の色を予測します。

認識には、グローバルローカルコンテンツ指向アーキテクチャである識別子が使用されます。識別子は、グローバル識別子 DGlobal、ボディ識別子 DBody、および顔識別子の 3 つの部分で構成されます。

3) SMPL再構成から衣服や髪の毛などのピクセルを生成します。

ここで使用される主な注目液化ブロック (以下に示す) は、人間の動作シミュレーションにおけるソース画像の多視点入力の問題や、従来の方法に基づく外観転送における異なる人物の衣服の異なる部分の問題を解決します。

さらに、一般化能力を向上させるために、研究者らはワンショット/少数ショット学習戦略を導入しました。

データセットを作成する

高精度の出力効果を得るには、モデルに加えて、高品質のデータセットも必要です。

研究者らは、3 つのテスト/トレーニングデータセットと 1 つの評価データセットを作成しました。これらは、Impersonator、MotionSynthetic、FashionVideo、Youtube-Dancer-18 です。

Impersonator (iPER) は、さまざまなスタイルのさまざまな人がさまざまな服を着ているデータセットです。

206 本のビデオと 241,564 本のフレームがあります。 30 人の被験者がそれぞれ異なる衣服 (合計 103 着) を着用し、A 字型ビデオとランダムアクションビデオを撮影しました。

さらに、iPER には、動き、服装、身長、体重の分布などの統計情報も含まれています。

MotionSynthetic モーション合成データセットは、人間の衣服のリアリティの総合的な評価を容易にするために作成されています。特に、合成画像データセットを通じて、さまざまな衣服の外観の総合的な評価を行うことができます。

このデータセットには合計 120 個のメッシュが含まれており、そのすべてが UV テクスチャ画像とともに SMPL に登録されています。各メッシュに対して、Mixamo からポーズシーケンスを選択し、インターネットから背景画像を選択します。メッシュ、UV画像、ポーズシーケンス、背景画像の情報を基に、核磁気共鳴（NMR）を用いて合成画像をレンダリングし、合計39,529フレームを取得します。

次に、下の図の合成画像に示すように、異なるグリッドに従って 8:2 のトレーニング/テストセットに分割されます。

FashionVideo: 500 本のトレーニングビデオと 100 本のテストビデオが含まれており、各女性モデルがさまざまな衣服や質感のファッション服を着用していますが、ジェスチャーはほとんどありません。各ビデオには約 350 フレームが含まれます。さらに、このデータセットには背景の多様性が欠けており、すべての背景が黒です。図に示すように:

Youtube-Dancer-18: この手法の有効性と汎用性をテストするための評価データセットとして使用されます。これらはすべて YouTube プラットフォームからのもので、合計 18 本あり、各ビデオの長さは 4 分から 12 分です。（上の写真のダンサーのように）

研究者らはこのデータセットでモデルをトレーニングしたのではなく、SN フレームのパーソナライズされたサンプリングを実行し、このデータセットで直接テストして、既存のすべての方法の一般化能力を評価しただけであることに留意する必要があります。

実験分析の結果、他の既存の方法と比較すると、この方法は、動作シミュレーション、外観転送、新しいビュー合成という 3 つの包括的なタスクで最高のパフォーマンスを達成しました。別のデモセットを見てみましょう:

研究チーム

前述したように、この AI 研究チームは上海理工大学から来ています。

高盛華氏は上海理工大学の准教授であり、博士課程の指導者です。彼はこの研究の責任著者でもある。 2008年に中国科学技術大学（優秀卒業）で理学士号を取得し、2012年に南洋理工大学で博士号を取得しました。2012年から2014年まで、シンガポールの先端デジタル科学センターで博士研究員として勤務しました。

彼の研究対象には、コンピュータービジョンと機械学習が含まれます。

[[358004]]

この研究の筆頭著者は、上海科技大学の博士課程の学生であるウェン・リウ氏です。

彼の研究は、人体の 3D 再構成、画像合成、モーション転送、新しい視点の合成、ニューラルレンダリング、ビデオ異常検出に重点を置いています。

[[358005]]

他の著者には、深圳のテンセント AI ラボの主任研究員で、コンピュータービジョンとマルチモーダルディープラーニングを研究している Lin Ma 氏、上海科技大学の修士課程の学生で、人間の 3D 再構成とモーショントランスファーを主な研究テーマとしている Zhixin Piao 氏、上海科技大学の学部卒業生で、人間のモーショントランスファーと医療画像分析を研究テーマとしている Zhi Tu 氏、インペリアルカレッジロンドンの博士課程の学生で、モーション分析、画像/ビデオ品質の復元、オブジェクトの検出と認識、強化学習など、コンピュータービジョンと機械学習のさまざまなトピックを研究対象としている Luo Wenhan 氏が含まれます。

論文アドレス: https://arxiv.org/pdf/2011.09055v2.pdf

YouTubeアドレス: https://www.youtube.com/watch?v=Zkrcx3_DtCw&feature=youtu.be

<<: 2021 年の AI サイバーセキュリティ開発の動向

>>: ディープラーニングフレームワークの簡単な歴史: TFとPyTorchは二大勢力であり、次の10年は黄金時代を迎える