口を動かしてゴッホの傑作を生き生きと表現しましょう!朱俊燕チームの最新AIモデル、テキストで川の方向を制御でき、映画の繊細な質感が十分に表現されている

口を動かしてゴッホの傑作を生き生きと表現しましょう!朱俊燕チームの最新AIモデル、テキストで川の方向を制御でき、映画の繊細な質感が十分に表現されている

CVの大物、朱俊燕氏の新論文がアニメーターたちに脅威を与える。

たった 1 つの文だけで、モデルは一貫したスタイルと優れた品質のアニメーションを生成できます。

ゴッホの「星月夜」を参考に、山の前を流れる小川のシーンを描きます。

または、アフレモフのスタイルで、山から滝が流れ落ちる風景を描きます。

最近、CMU と Snap の研究者は、テキストの説明に基づいて映画の画像を作成するための完全自動手法、Text2Cinemagraph を構築しました。

写真

論文アドレス: https://arxiv.org/pdf/2307.03190.pdf

さらに、研究者らは、既存の図面をアニメーション化し、テキストを使用して動きの方向を制御するための 2 つの拡張機能を実演しました。

まずはデモを見てみましょう。

デモは近日公開予定

上のゴッホの「星月夜」の流れの方向は、口を動かすことで制御できます。

たとえば、左から右へ。

それから右から左へ。

同じスタイル、異なる視点。

海上の帆船の映画品質の画像。

夕暮れ時に丘の間に流れ落ちる大きな滝。ゴッホの絵画のようなスタイル。4K。

ピカソ風、湖に浮かぶボートのある小さな木造の家。

触手が塔全体に巻き付いている海の怪物に灯台が攻撃されている超リアルなイラスト。

シュールで夢のような滝のシーン

Text2Cinemagraph プロジェクト

現在、既存の単一画像アニメーション手法は、芸術的な入力の点で不十分です。

しかし、最先端のテキストベースのビデオ方式では、時間的な不整合が生じることが多く、特定の領域を静止状態に保つことが困難です。

これらの課題に対処するために、研究者は、単一のテキストプロンプトから画像ツイン、つまり芸術的な画像のペアとそのピクセル配置を合成するというアイデアを提案しました。

芸術的な画像はテキスト キューで詳細に説明されているスタイルと外観を表現し、現実的な画像はレイアウトとモーション分析を大幅に簡素化します。

Text2Cinemagraph は、既存の自然画像とビデオ データセットを活用して、リアルな画像を正確にセグメント化し、意味情報に基づいて妥当な動きを予測できます。

予測された動きは芸術的な画像に変換され、最終的な映画のようなアニメーションが作成されます。

具体的には、テキスト プロンプト c が与えられると、Stable Diffusion を使用して、テキスト プロンプトで説明されているスタイルの芸術的な画像 x と、修正されたプロンプトを使用した現実的な対応画像のツイン画像が生成されます。ツイン画像はセマンティックレイアウトが似ています。

次に研究者らは、芸術的な画像生成プロセス中に得られた自己注意マップから動き領域のバイナリマスク M を抽出しました。

マスクとリアルな画像を使用して、フロー予測モデルでオプティカルフローを予測します。

ツイン画像は非常に類似したセマンティックレイアウトを持っているため、オプティカルフローとビデオジェネレーターを使用して芸術的な画像をアニメーション化できます。

この研究のすべての実験は安定拡散に基づいていることは言及する価値があります。

研究者たちはその結果を実際のオプティカルフローと比較した。

SLR-SFS、Holynski らによって研究された単一画像アニメーション手法と比較すると、Text2Cinemagraph はすべてのフレームにわたって真のオプティカル フローを平均化します。

全体的に、最新の方法では、対象領域とより一致する、より合理的な動きを予測できます。

さらに、ユーザーの嗜好調査では、ほとんどの参加者が Text2Cinemagraph を支持していることが示されました。

最後に、研究者たちは、既存の描画をアニメーション化し、テキストを使用して動きの方向を制御するという 2 つの拡張機能を実証しました。

既存の絵画をアニメーション化する

以下はロシア美術館に展示されている『第九の波』(1850年)です。

ミネハハ滝、アルバート・ビアスタットによるキャンバスに描かれた油絵。

著者について

ジュンヤン・チュー

Junyan Zhu 氏は、CMU のコンピュータサイエンス学部のロボット工学研究所の助教授であり、コンピュータグラフィックスにおける最新の機械学習アプリケーションの先駆者です。

CMU に入社する前は、Adobe Research の研究科学者でした。

彼は MIT CSAIL のポスドクとして、ウィリアム・T・フリーマン、ジョシュ・テネンバウム、アントニオ・トッラルバとともに研究をしていました。

彼はまた、アレクセイ・A・エフロス氏の指導の下、カリフォルニア大学バークレー校で博士号を取得しました。清華大学でZhuowen Tu、Shi-Min Hu、Eric Changの指導を受け、学士号を取得しました。

<<:  Midjourneyの隠されたスキルをアンロックする:プロンプトを変更すると、4つの正方形のグリッドが「分裂」します

>>: 

ブログ    
ブログ    
ブログ    

推薦する

自動運転車が公道を走るのを妨げているものは何でしょうか?

イーロン・マスク氏は、テスラが2020年末までに完全自動運転車を開発すると繰り返し強調している。 「...

速報です!ヒントンがロボットスタートアップに参入、同社は9000万ドルの新規投資を受ける

チューリング賞受賞者であり、ディープラーニングの父であるジェフリー・ヒントンの次の旅が決まりました。...

...

2020年のコロナウイルスパンデミックが仕事の未来に与える影響

[[323304]] [51CTO.com クイック翻訳] 疫病の影響により、多くの企業従業員がリモ...

人工知能の発展と未来

人工知能(AI)技術の継続的な発展により、さまざまなAI製品が徐々に私たちの生活に入り込んできました...

...

このAI職種の平均学歴は中学卒程度であり、最も絶望的な職業として認識されている

[[437446]] 2020年2月、「人工知能トレーナー」は正式に新しい職業となり、国家職業分類カ...

3分レビュー:2021年11月の自動運転業界の完全な概要

チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされたが、数か月の回復を...

中国人はアルゴリズムと戦い始めている:ログインなし、いいねなし、フォローなし、コメントなし

[[402565]]インターネット業務に携わる陸鋒さんは、あるテクノロジー製品の機能やユーザーエクス...

...

PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

今年、大規模言語モデルが急速に発展したため、BERT のようなモデルは「小規模」モデルと呼ばれるよう...

Google の研究者が発狂: AI に人格があると信じ、有給休暇を取得し、チャットログが恐ろしい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

目に見える機械学習: ニューラルネットワークをゼロから理解する

機械学習に関する古いジョークがあります。機械学習は高校のセックスのようなものです。誰もがやっていると...

販売禁止の影で、国産GPGPUがその穴を埋めることはできるのか?

今年初め、ChatGPTはAIアプリケーションの開発を刺激する火花のようなもので、AI業界は開発の急...

マイクロソフトCEOナデラ氏との対談:AIは雇用を奪うよりも多くを創出する

マイクロソフトのCEOに就任して以来、サティア・ナデラ氏はマイクロソフトを改革した英雄とみなされてき...