AIがトランプ氏をダンサーに変身させ、蔡旭坤とともに「チキン、ユー・アー・ソー・ビューティフル」を踊った

AIがトランプ氏をダンサーに変身させ、蔡旭坤とともに「チキン、ユー・アー・ソー・ビューティフル」を踊った

[[357996]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

「いいやつだ!」

「最近の紙はどんどんエッチになってきている。」楽しそうにサボっていた同僚が、話をしながらデモを送ってきた。

「宝の少年」トランプがまたもや騙されたことが判明した。

蔡旭坤と「集尼太美」(ダジャレ)を踊ることを「強制」された。

(川宝:AIには道徳的原則がない!)

2次元ロリで可愛いオタクダンスを踊ってみました。

川宝:赤ずきんちゃんをください。私の方がダンスが上手です[ツンデレ顔])

インド人の男性と一緒にジャクソンのクラシックダンスステップを踊りました。

(川宝:私のダンスの姿勢を見て、セクシーでしょう?)

デモを見た後、話題が見つからずに頭を悩ませていた私は、一瞬驚きました。「うわあ!」今日のテーマが決まりました!

私はすぐに同僚にその情報を私に送るよう頼みました。

チュアンバオがダンスの腕前を披露せざるを得なかったのは、上海科技大学の研究チームの最新AIによるものだった。このAI論文のタイトルは「Liquid Warping GAN with Attention: A Unified Framework for Human Images Synthesis」である。

簡単に言えば、特定のフレームワークに基づく AI は、動作シミュレーション、外観変換、新しいビューの合成など、人間の画像処理タスクを完了できます。上記のトランプ氏のダンスデモは、AIによって合成された最終的なデモンストレーション効果です。 (動画の全編は記事の最後をご覧ください)

次に、その背後にある合成原理を見てみましょう。

『注意液化GAN』モデル

人間の画像合成は、映画やテレビ番組の制作、ゲーム制作、キャラクターのアニメーション/変身、仮想的な衣服のフィッティングなど、大きな潜在的用途を秘めています。

一般的に言えば、ソースの人間の画像と参照画像が与えられた場合、次の 3 つのタスクを完了する必要があります。

1. モーションシミュレーション: ソースの人間のテクスチャと参照の人間のポーズを使用して画像を生成します。

2. 新しいビューの合成: さまざまな視点から人体の新しい画像をキャプチャして合成します。

3. 外観転送: 人物画像を参考にして、衣服を着用しながらもソースの顔のアイデンティティを維持する人物画像を生成します。 (同じ服を着ている人もいれば、着ていない人もいます)

上記のタスクを扱う場合、既存の方法では主に 2D キー ポイントを使用して人体の構造を推定します。

しかし、それらは位置情報のみを表現するものであり、個人の体型を特徴付けたり、手足の回転をシミュレートしたりすることはできません。これに対応して、研究者らは新しいモデル処理フレームワークを提案しました。

これは、Body Mesh Recovery モジュール、Flow Composition モジュール、および Liquid Warping Block (LWB) を備えた GAN モジュールの 3 つの部分で構成されています。

Isiは与えられたソース画像、lrは参照画像です

その中で、3Dボディメッシュ回復モジュールは、人間の姿勢と形状を解読するために使用され、関節の位置と回転をシミュレートできるだけでなく、個人の体型を特徴付けることもできます。液体ワーピングブロック(AttLWB)を備えたGANは、テクスチャ、スタイル、色、顔のアイデンティティなどのソース情報を保持するために使用され、画像と特徴空間のソース情報は合成参照に伝播され、ソースの特徴はノイズ除去畳み込みオートエンコーダーを通じて抽出され、ソースのアイデンティティを適切に特徴付けます。

具体的な方法は以下の通りです。

ボディ メッシュ リカバリ:その役割は、各画像の 3D メッシュだけでなく、運動学的ポーズ (手足の回転) と形状パラメータを予測することです。 HMR は主に 3D ポーズと形状の推定に使用されます。

フロー構成: 既存の推定値に基づいて、カメラ ビューを使用して、各ソース メッシュと参照メッシュの対応マップと重みインデックス マップを描画します。これは主に、完全に微分可能なレンダラーである Neural Mesh Renderer (NMR) を使用して行われます。

Attentional Liquid Warping GAN:このステージでは、忠実度の高い人間の画像を合成します。以下のことを実行する必要があります:

1) 背景画像を合成します。

3 つのストリーム アプローチが採用されています。これには、マスクされた背景画像とカラー チャネルで取得されたマスクを連結する GBG ストリーム、ソース情報を保持できる特徴を抽出するようにエンコーダーをガイドするソース識別ストリーム GSID、歪んだ前景と対応するマップをバイリニア サンプラーの入力として受け取り、最終結果を合成するソース識別ストリーム GT-SF が含まれます。

2) 見える部分に基づいて見えない部分の色を予測します。

認識には、グローバル ローカル コンテンツ指向アーキテクチャである識別子が使用されます。識別子は、グローバル識別子 DGlobal、ボディ識別子 DBody、および顔識別子の 3 つの部分で構成されます。

3) SMPL再構成から衣服や髪の毛などのピクセルを生成します。

ここで使用される主な注目液化ブロック (以下に示す) は、人間の動作シミュレーションにおけるソース画像の多視点入力の問題や、従来の方法に基づく外観転送における異なる人物の衣服の異なる部分の問題を解決します。

さらに、一般化能力を向上させるために、研究者らはワンショット/少数ショット学習戦略を導入しました。

データセットを作成する

高精度の出力効果を得るには、モデルに加えて、高品質のデータセットも必要です。

研究者らは、3 つのテスト/トレーニング データセットと 1 つの評価データセットを作成しました。これらは、Impersonator、MotionSynthetic、FashionVideo、Youtube-Dancer-18 です。

Impersonator (iPER) は、さまざまなスタイルのさまざまな人がさまざまな服を着ているデータセットです。

206 本のビデオと 241,564 本のフレームがあります。 30 人の被験者がそれぞれ異なる衣服 (合計 103 着) を着用し、A 字型ビデオとランダム アクション ビデオを撮影しました。

さらに、iPER には、動き、服装、身長、体重の分布などの統計情報も含まれています。

MotionSynthetic モーション合成データセットは、人間の衣服のリアリティの総合的な評価を容易にするために作成されています。特に、合成画像データセットを通じて、さまざまな衣服の外観の総合的な評価を行うことができます。

このデータセットには合計 120 個のメッシュが含まれており、そのすべてが UV テクスチャ画像とともに SMPL に登録されています。各メッシュに対して、Mixamo からポーズ シーケンスを選択し、インターネットから背景画像を選択します。メッシュ、UV画像、ポーズシーケンス、背景画像の情報を基に、核磁気共鳴(NMR)を用いて合成画像をレンダリングし、合計39,529フレームを取得します。

次に、下の図の合成画像に示すように、異なるグリッドに従って 8:2 のトレーニング/テスト セットに分割されます。

FashionVideo: 500 本のトレーニング ビデオと 100 本のテスト ビデオが含まれており、各女性モデルがさまざまな衣服や質感のファッション服を着用していますが、ジェスチャーはほとんどありません。各ビデオには約 350 フレームが含まれます。さらに、このデータセットには背景の多様性が欠けており、すべての背景が黒です。図に示すように:

Youtube-Dancer-18: この手法の有効性と汎用性をテストするための評価データセットとして使用されます。これらはすべて YouTube プラットフォームからのもので、合計 18 本あり、各ビデオの長さは 4 分から 12 分です。 (上の写真のダンサーのように)

研究者らはこのデータセットでモデルをトレーニングしたのではなく、SN フレームのパーソナライズされたサンプリングを実行し、このデータセットで直接テストして、既存のすべての方法の一般化能力を評価しただけであることに留意する必要があります。

実験分析の結果、他の既存の方法と比較すると、この方法は、動作シミュレーション、外観転送、新しいビュー合成という 3 つの包括的なタスクで最高のパフォーマンスを達成しました。別のデモセットを見てみましょう:

研究チーム

前述したように、この AI 研究チームは上海理工大学から来ています。

高盛華氏は上海理工大学の准教授であり、博士課程の指導者です。彼はこの研究の責任著者でもある。 2008年に中国科学技術大学(優秀卒業)で理学士号を取得し、2012年に南洋理工大学で博士号を取得しました。2012年から2014年まで、シンガポールの先端デジタル科学センターで博士研究員として勤務しました。

彼の研究対象には、コンピュータービジョンと機械学習が含まれます。

[[358004]]

この研究の筆頭著者は、上海科技大学の博士課程の学生であるウェン・リウ氏です。

彼の研究は、人体の 3D 再構成、画像合成、モーション転送、新しい視点の合成、ニューラル レンダリング、ビデオ異常検出に重点を置いています。

[[358005]]

他の著者には、深圳のテンセント AI ラボの主任研究員で、コンピューター ビジョンとマルチモーダル ディープラーニングを研究している Lin Ma 氏、上海科技大学の修士課程の学生で、人間の 3D 再構成とモーション トランスファーを主な研究テーマとしている Zhixin Piao 氏、上海科技大学の学部卒業生で、人間のモーション トランスファーと医療画像分析を研究テーマとしている Zhi Tu 氏、インペリアル カレッジ ロンドンの博士課程の学生で、モーション分析、画像/ビデオ品質の復元、オブジェクトの検出と認識、強化学習など、コンピューター ビジョンと機械学習のさまざまなトピックを研究対象としている Luo Wenhan 氏が含まれます。

論文アドレス: https://arxiv.org/pdf/2011.09055v2.pdf

YouTubeアドレス: https://www.youtube.com/watch?v=Zkrcx3_DtCw&feature=youtu.be

<<:  2021 年の AI サイバーセキュリティ開発の動向

>>:  ディープラーニングフレームワークの簡単な歴史: TFとPyTorchは二大勢力であり、次の10年は黄金時代を迎える

ブログ    
ブログ    

推薦する

パフォーマンスが最大480倍向上:Armが2つの新しいAIエッジコンピューティングチップ設計を発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ディープラーニングはオイラー方程式を「破壊」する準備ができている

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

将来、人間はAIに置き換えられるのでしょうか?人工知能の種類と発展段階を1つの記事で理解する

21 世紀に革命をもたらした技術が一つあるとすれば、それは人工知能です。 Googleの新社長サンダ...

ニューラルネットワークアルゴリズムの利点と応用

[[211834]]人工ニューラル ネットワーク (ANN) は脳の処理メカニズムに基づいており、複...

AIと機械学習を活用して、誰にでも何でも販売する

AI と IBM Watson の Personality Insights を使用して見込み客に確...

...

医療用ロボット:世界第2位のロボットの現状と今後の応用展望

医療用ロボットという用語は、監督なしで事前にプログラムされたタスクを自律的に実行する機械のイメージを...

交換されますか? GPT4コードインタープリター完全自動

こんにちは、みんな。今日は、GPT-4 コード インタープリターがデータ分析、科学研究の描画、機械学...

人工知能の長所と短所をどのように見ていますか?

人工知能は、人間の生活に強固な物質的基盤を築くだけでなく、より多くの人々を単純で退屈な反復作業から解...

退屈な「機械学習」がこのように学べるとは思ってもいませんでした!

[[234276]]機械学習は、確率論や統計などの複雑な分野を含む人工知能の中核分野の 1 つです...

Dropbox のエンジニアがロスレス圧縮アルゴリズム「Pied Piper」を開発

Dropbox のエンジニアたちは世界をより良い場所にするために取り組んでおり、HBO のコメディー...

...