AIがトランプ氏をダンサーに変身させ、蔡旭坤とともに「チキン、ユー・アー・ソー・ビューティフル」を踊った

AIがトランプ氏をダンサーに変身させ、蔡旭坤とともに「チキン、ユー・アー・ソー・ビューティフル」を踊った

[[357996]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

「いいやつだ!」

「最近の紙はどんどんエッチになってきている。」楽しそうにサボっていた同僚が、話をしながらデモを送ってきた。

「宝の少年」トランプがまたもや騙されたことが判明した。

蔡旭坤と「集尼太美」(ダジャレ)を踊ることを「強制」された。

(川宝:AIには道徳的原則がない!)

2次元ロリで可愛いオタクダンスを踊ってみました。

川宝:赤ずきんちゃんをください。私の方がダンスが上手です[ツンデレ顔])

インド人の男性と一緒にジャクソンのクラシックダンスステップを踊りました。

(川宝:私のダンスの姿勢を見て、セクシーでしょう?)

デモを見た後、話題が見つからずに頭を悩ませていた私は、一瞬驚きました。「うわあ!」今日のテーマが決まりました!

私はすぐに同僚にその情報を私に送るよう頼みました。

チュアンバオがダンスの腕前を披露せざるを得なかったのは、上海科技大学の研究チームの最新AIによるものだった。このAI論文のタイトルは「Liquid Warping GAN with Attention: A Unified Framework for Human Images Synthesis」である。

簡単に言えば、特定のフレームワークに基づく AI は、動作シミュレーション、外観変換、新しいビューの合成など、人間の画像処理タスクを完了できます。上記のトランプ氏のダンスデモは、AIによって合成された最終的なデモンストレーション効果です。 (動画の全編は記事の最後をご覧ください)

次に、その背後にある合成原理を見てみましょう。

『注意液化GAN』モデル

人間の画像合成は、映画やテレビ番組の制作、ゲーム制作、キャラクターのアニメーション/変身、仮想的な衣服のフィッティングなど、大きな潜在的用途を秘めています。

一般的に言えば、ソースの人間の画像と参照画像が与えられた場合、次の 3 つのタスクを完了する必要があります。

1. モーションシミュレーション: ソースの人間のテクスチャと参照の人間のポーズを使用して画像を生成します。

2. 新しいビューの合成: さまざまな視点から人体の新しい画像をキャプチャして合成します。

3. 外観転送: 人物画像を参考にして、衣服を着用しながらもソースの顔のアイデンティティを維持する人物画像を生成します。 (同じ服を着ている人もいれば、着ていない人もいます)

上記のタスクを扱う場合、既存の方法では主に 2D キー ポイントを使用して人体の構造を推定します。

しかし、それらは位置情報のみを表現するものであり、個人の体型を特徴付けたり、手足の回転をシミュレートしたりすることはできません。これに対応して、研究者らは新しいモデル処理フレームワークを提案しました。

これは、Body Mesh Recovery モジュール、Flow Composition モジュール、および Liquid Warping Block (LWB) を備えた GAN モジュールの 3 つの部分で構成されています。

Isiは与えられたソース画像、lrは参照画像です

その中で、3Dボディメッシュ回復モジュールは、人間の姿勢と形状を解読するために使用され、関節の位置と回転をシミュレートできるだけでなく、個人の体型を特徴付けることもできます。液体ワーピングブロック(AttLWB)を備えたGANは、テクスチャ、スタイル、色、顔のアイデンティティなどのソース情報を保持するために使用され、画像と特徴空間のソース情報は合成参照に伝播され、ソースの特徴はノイズ除去畳み込みオートエンコーダーを通じて抽出され、ソースのアイデンティティを適切に特徴付けます。

具体的な方法は以下の通りです。

ボディ メッシュ リカバリ:その役割は、各画像の 3D メッシュだけでなく、運動学的ポーズ (手足の回転) と形状パラメータを予測することです。 HMR は主に 3D ポーズと形状の推定に使用されます。

フロー構成: 既存の推定値に基づいて、カメラ ビューを使用して、各ソース メッシュと参照メッシュの対応マップと重みインデックス マップを描画します。これは主に、完全に微分可能なレンダラーである Neural Mesh Renderer (NMR) を使用して行われます。

Attentional Liquid Warping GAN:このステージでは、忠実度の高い人間の画像を合成します。以下のことを実行する必要があります:

1) 背景画像を合成します。

3 つのストリーム アプローチが採用されています。これには、マスクされた背景画像とカラー チャネルで取得されたマスクを連結する GBG ストリーム、ソース情報を保持できる特徴を抽出するようにエンコーダーをガイドするソース識別ストリーム GSID、歪んだ前景と対応するマップをバイリニア サンプラーの入力として受け取り、最終結果を合成するソース識別ストリーム GT-SF が含まれます。

2) 見える部分に基づいて見えない部分の色を予測します。

認識には、グローバル ローカル コンテンツ指向アーキテクチャである識別子が使用されます。識別子は、グローバル識別子 DGlobal、ボディ識別子 DBody、および顔識別子の 3 つの部分で構成されます。

3) SMPL再構成から衣服や髪の毛などのピクセルを生成します。

ここで使用される主な注目液化ブロック (以下に示す) は、人間の動作シミュレーションにおけるソース画像の多視点入力の問題や、従来の方法に基づく外観転送における異なる人物の衣服の異なる部分の問題を解決します。

さらに、一般化能力を向上させるために、研究者らはワンショット/少数ショット学習戦略を導入しました。

データセットを作成する

高精度の出力効果を得るには、モデルに加えて、高品質のデータセットも必要です。

研究者らは、3 つのテスト/トレーニング データセットと 1 つの評価データセットを作成しました。これらは、Impersonator、MotionSynthetic、FashionVideo、Youtube-Dancer-18 です。

Impersonator (iPER) は、さまざまなスタイルのさまざまな人がさまざまな服を着ているデータセットです。

206 本のビデオと 241,564 本のフレームがあります。 30 人の被験者がそれぞれ異なる衣服 (合計 103 着) を着用し、A 字型ビデオとランダム アクション ビデオを撮影しました。

さらに、iPER には、動き、服装、身長、体重の分布などの統計情報も含まれています。

MotionSynthetic モーション合成データセットは、人間の衣服のリアリティの総合的な評価を容易にするために作成されています。特に、合成画像データセットを通じて、さまざまな衣服の外観の総合的な評価を行うことができます。

このデータセットには合計 120 個のメッシュが含まれており、そのすべてが UV テクスチャ画像とともに SMPL に登録されています。各メッシュに対して、Mixamo からポーズ シーケンスを選択し、インターネットから背景画像を選択します。メッシュ、UV画像、ポーズシーケンス、背景画像の情報を基に、核磁気共鳴(NMR)を用いて合成画像をレンダリングし、合計39,529フレームを取得します。

次に、下の図の合成画像に示すように、異なるグリッドに従って 8:2 のトレーニング/テスト セットに分割されます。

FashionVideo: 500 本のトレーニング ビデオと 100 本のテスト ビデオが含まれており、各女性モデルがさまざまな衣服や質感のファッション服を着用していますが、ジェスチャーはほとんどありません。各ビデオには約 350 フレームが含まれます。さらに、このデータセットには背景の多様性が欠けており、すべての背景が黒です。図に示すように:

Youtube-Dancer-18: この手法の有効性と汎用性をテストするための評価データセットとして使用されます。これらはすべて YouTube プラットフォームからのもので、合計 18 本あり、各ビデオの長さは 4 分から 12 分です。 (上の写真のダンサーのように)

研究者らはこのデータセットでモデルをトレーニングしたのではなく、SN フレームのパーソナライズされたサンプリングを実行し、このデータセットで直接テストして、既存のすべての方法の一般化能力を評価しただけであることに留意する必要があります。

実験分析の結果、他の既存の方法と比較すると、この方法は、動作シミュレーション、外観転送、新しいビュー合成という 3 つの包括的なタスクで最高のパフォーマンスを達成しました。別のデモセットを見てみましょう:

研究チーム

前述したように、この AI 研究チームは上海理工大学から来ています。

高盛華氏は上海理工大学の准教授であり、博士課程の指導者です。彼はこの研究の責任著者でもある。 2008年に中国科学技術大学(優秀卒業)で理学士号を取得し、2012年に南洋理工大学で博士号を取得しました。2012年から2014年まで、シンガポールの先端デジタル科学センターで博士研究員として勤務しました。

彼の研究対象には、コンピュータービジョンと機械学習が含まれます。

[[358004]]

この研究の筆頭著者は、上海科技大学の博士課程の学生であるウェン・リウ氏です。

彼の研究は、人体の 3D 再構成、画像合成、モーション転送、新しい視点の合成、ニューラル レンダリング、ビデオ異常検出に重点を置いています。

[[358005]]

他の著者には、深圳のテンセント AI ラボの主任研究員で、コンピューター ビジョンとマルチモーダル ディープラーニングを研究している Lin Ma 氏、上海科技大学の修士課程の学生で、人間の 3D 再構成とモーション トランスファーを主な研究テーマとしている Zhixin Piao 氏、上海科技大学の学部卒業生で、人間のモーション トランスファーと医療画像分析を研究テーマとしている Zhi Tu 氏、インペリアル カレッジ ロンドンの博士課程の学生で、モーション分析、画像/ビデオ品質の復元、オブジェクトの検出と認識、強化学習など、コンピューター ビジョンと機械学習のさまざまなトピックを研究対象としている Luo Wenhan 氏が含まれます。

論文アドレス: https://arxiv.org/pdf/2011.09055v2.pdf

YouTubeアドレス: https://www.youtube.com/watch?v=Zkrcx3_DtCw&feature=youtu.be

<<:  2021 年の AI サイバーセキュリティ開発の動向

>>:  ディープラーニングフレームワークの簡単な歴史: TFとPyTorchは二大勢力であり、次の10年は黄金時代を迎える

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

パンデミックの間、AI はどのようにして工場の安全な運営を維持するのに役立つのでしょうか?

[[377897]]新型コロナウイルスの感染拡大が世界中で続く中、多くの企業が業務をリモートワーク...

顔認識会社Clearviewのソースコードがサーバーの設定ミスにより公開される

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

GANは音声を使って画像を生成できるようになった

[[432735]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

自動運転の研究の方向性は間違っているのか?

1 知覚ソリューション: 純粋な視覚とマルチセンサー融合自動車が自動運転を実現するには、まず周囲を...

2020年の人工知能と機械学習の予測

人々が次の年に向けて準備を進める中、業界の専門家が 2020 年の人工知能と機械学習に関する予測を発...

...

...

新しい量子アルゴリズムは非線形方程式を解読しました。コンピューターは人間に取って代わり、預言者になれるのでしょうか?

かつて私たちは、コンピューターがどれだけ強力であっても、未来を予測するには不十分であると考えていまし...

モバイルビデオがグローバル化する中、テンセントクラウドは小英科技のグローバル市場拡大を支援

テンセントクラウドは9月10日、ビデオツール企業である小英科技と提携し、小英科技に技術サポートを提供...

視覚的な「脳の読み取り」:脳の活動から見える世界を再構築する

人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活...

数行のコードでUNetが安定!中山大学などが提案したScaleLong拡散モデル:スケーリングへの疑問からスケーリングへ

標準の UNet 構造では、ロング スキップ接続のスケーリング係数は通常 1 です。ただし、Imag...

ドローンは倉庫・物流業界の発展をどのように加速させているのでしょうか?

屋内ドローンは、新しい未知の市場でどのようにその有用性を証明できるでしょうか?ドローンは無人自律航空...

ポストエピデミック時代:医療業界で成功するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ジェフ・ディーンの1万語の記事:2020年のGoogleの10大分野におけるAI技術の発展

ジェフ・ディーン氏は数万語に及ぶ長文の記事を公開し、過去1年間のGoogleのさまざまな分野での成果...