モンローとドラゴンマザーがあなたと話すことを学びましょう。静止画とビデオだけです

モンローとドラゴンマザーがあなたと話すことを学びましょう。静止画とビデオだけです

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

有名人にあなたのスピーチを真似してもらいたい場合はどうすればいいでしょうか?

とても簡単です。有名人の写真とあなたが話しているビデオがあれば、数分で完了します。

効果を見てみましょう:

あなたが顔をしかめたり首を振ったりすると、写真の中の有名人があなたとシンクロします

イタリアのトレント大学の研究では次のように述べられています。

一次モーションモデルを使用すると、静止画像をアニメーション化でき、顔の変更も問題なく行えます。

もちろん、このような興味深いプロジェクトがオープンソース化されました!

トランプが演説し、スターク家の一団も何か言いたいことがある

実際、この研究は数か月前に発表されました。

当時使われた入力ビデオはトランプ建国同志のもので、静止画はスターク家や『氷と炎の歌』の登場人物の写真一式だった。

効果は次のようになります。

川建国同志が瞬きをしても首を振っても、劇中の登場人物は完璧に同期していることがわかります。

象徴的なO型の口も鮮やかに「模倣」されました。

数か月後、この技術はRedditで再び人気を博しました。

考えられる理由の 1 つは、今回の入力ビデオが人気の短編ビデオ プラットフォームからのものであるため、自分で録画したビデオも使用できるということです。

リアルで興味深い効果を考えると、短編動画コンテンツ プラットフォームがこの機能を導入するのもそう遠くないかもしれません。

もちろん、このモデルの魅力はそれだけではありません。

モデルがポーズを変える動画を入力し、衣服の静止写真を複数枚追加することで、衣服を動的に表示する動画を一括出力できます。

顔を変えるのも簡単です。

ただし、注意点があります。静止写真は注意して使用してください。そうしないと、結果が「生きている世界から来たもの」のようには見えなくなる可能性があります...

一次運動モデル

トレーニング段階では、研究者は同じカテゴリーのオブジェクトを含むビデオシーケンスの大規模なコレクションを使用しました。モデルは、ビデオの単一フレームと学習した潜在的な動きの表現を組み合わせてビデオを再構築するようにトレーニングされます。

テスト段階では、研究者らはソース画像と運転ビデオの各フレームからなるペアにモデルを適用し、ソースオブジェクトの画像アニメーションを実行しました。

モデルのフレームワークを下の図に示します。

フレームワークは主に、動き推定モジュール画像生成モジュールの 2 つの部分で構成されています。

動き推定モジュールの目的は、密な動きフィールドを予測することです。研究者らは抽象的な参照フレームの存在を仮定し、「参照からソースへ」と「参照からドライバーへ」という 2 つの変換を独立して推定しました。これにより、ソース フレームとドライバー フレームを個別に処理できるようになります。

研究者らは、テスト時にモデルがさまざまなビデオからサンプリングされたソース画像と駆動フレームのペアを受け取るため、視覚的に大きく異なる可能性があるため、このステップが必要であると主張している。

最初のステップでは、自己教師方式で学習されたキーポイントを使用して取得された軌道のスパース セットから、これら 2 つの変換を近似します。各キーポイントの周囲の動きは、ローカルアフィン変換を使用してモデル化されます。

2 番目のステップでは、密なモーション ネットワークをローカル近似と組み合わせて、密なモーション フィールドを取得します。とりわけ、このネットワークはオクルージョン マスクを出力し、ソース イメージをワープすることでイメージのどの駆動部分を再構築できるか、およびどの部分を描画する必要があるか (コンテキストから推測) を示します。

3 番目のステップでは、生成モジュールが、運転ビデオで提供されるソース オブジェクトの動きに応じて画像をレンダリングします。ここで、研究者らはジェネレーター ネットワークを使用して、密な動きに基づいてソース画像をワープし、ソース画像内の遮蔽された画像部分をカラー化しました。

最後に、このモデルは GitHub でオープンソース化されており、「ポータル」にアドレス リンクが用意されています。

今すぐ試してみて〜

ポータル

GitHub プロジェクト アドレス:
https://github.com/AliaksandrSiarohin/ファーストオーダーモデル

論文の宛先:
出典: http://arxiv.org/pdf/2003.00196.pdf

<<:  トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

>>:  速報です!画像AI企業「Huiyi Huiying」がハッキングされ、COVID-19研究成果が公開された

ブログ    

推薦する

烏鎮サミットから10年:呉永明が初めてアリババの新たな変化について言及

ノア著制作:51CTO テクノロジースタック(WeChat ID:blog) 「夜、烏鎮の橋のそばの...

ディープラーニングとディープクローニング: チャットボットにとってより優れたソリューションはどちらでしょうか?

[[200112]]編集者注: チャットボットは目新しいものではありません。Facebook や ...

大規模モデルは小規模モデルに正確にフィードバックし、知識の蒸留はAIアルゴリズムのパフォーマンスを向上させるのに役立ちます。

01 知識蒸留の誕生の背景近年、ディープニューラルネットワーク (DNN) は、特にコンピューター...

世界を驚かせたNASAの火星無人機はどのように設計されたのか?

すべてがうまくいけば、インジェニュイティは火星上空を飛行する最初の航空機となる。 「インジェニュイテ...

...

...

これら5つのコアテクノロジーを理解すれば、人工知能はもうあなたの身近な存在に

人工知能は現在最も注目されている産業であり、将来的にはロボット、スマートセンサー、ウェアラブルデバイ...

データサイエンスの面接で必ず知っておくべき 5 つの質問

同じ場所で二度失敗することがないように、そして他の人の役に立つために、私は自分の情熱に従ってデータ ...

軽量ディープラーニングフレームワーク Tinygrad

Tinygrad は、ニューラル ネットワークを理解して実装するためのシンプルで直感的なアプローチ...

卒業後すぐに年収56万は貰えるんですか?右! Twitterの機械学習の専門家が書いた上級マニュアルをご覧ください

[[210651]]年収10万?プログラマーにとっては、これで十分です。国家統計局が今年上半期に発表...

...

人工知能の台頭でIT業界やその他の分野は失業の波に直面するかもしれない

[[237676]]画像ソース @Visual China以前、「AI従業員の最初の一団が解雇された...

...

サンダーソフト、AIoT産業・大学・研究のボトルネックを打破するTurboX AI Kit教育実験プラットフォームをリリース

10月12日、世界をリードするインテリジェントオペレーティングシステム製品およびテクノロジープロバイ...

ユニバーサルミュージックは、著作権問題でOpenAIの創設者が所有するAI企業Anthropicを訴えた。

Anthropicは2021年10月20日にOpenAIの創設者によって設立され、チャットボットC...