CVの大物、朱俊燕氏の新論文がアニメーターたちに脅威を与える。 たった 1 つの文だけで、モデルは一貫したスタイルと優れた品質のアニメーションを生成できます。 ゴッホの「星月夜」を参考に、山の前を流れる小川のシーンを描きます。 または、アフレモフのスタイルで、山から滝が流れ落ちる風景を描きます。 最近、CMU と Snap の研究者は、テキストの説明に基づいて映画の画像を作成するための完全自動手法、Text2Cinemagraph を構築しました。 写真 論文アドレス: https://arxiv.org/pdf/2307.03190.pdf さらに、研究者らは、既存の図面をアニメーション化し、テキストを使用して動きの方向を制御するための 2 つの拡張機能を実演しました。 まずはデモを見てみましょう。 デモは近日公開予定上のゴッホの「星月夜」の流れの方向は、口を動かすことで制御できます。 たとえば、左から右へ。 それから右から左へ。 同じスタイル、異なる視点。 海上の帆船の映画品質の画像。 夕暮れ時に丘の間に流れ落ちる大きな滝。ゴッホの絵画のようなスタイル。4K。 ピカソ風、湖に浮かぶボートのある小さな木造の家。 触手が塔全体に巻き付いている海の怪物に灯台が攻撃されている超リアルなイラスト。 シュールで夢のような滝のシーン Text2Cinemagraph プロジェクト現在、既存の単一画像アニメーション手法は、芸術的な入力の点で不十分です。 しかし、最先端のテキストベースのビデオ方式では、時間的な不整合が生じることが多く、特定の領域を静止状態に保つことが困難です。 これらの課題に対処するために、研究者は、単一のテキストプロンプトから画像ツイン、つまり芸術的な画像のペアとそのピクセル配置を合成するというアイデアを提案しました。 芸術的な画像はテキスト キューで詳細に説明されているスタイルと外観を表現し、現実的な画像はレイアウトとモーション分析を大幅に簡素化します。 Text2Cinemagraph は、既存の自然画像とビデオ データセットを活用して、リアルな画像を正確にセグメント化し、意味情報に基づいて妥当な動きを予測できます。 予測された動きは芸術的な画像に変換され、最終的な映画のようなアニメーションが作成されます。 具体的には、テキスト プロンプト c が与えられると、Stable Diffusion を使用して、テキスト プロンプトで説明されているスタイルの芸術的な画像 x と、修正されたプロンプトを使用した現実的な対応画像のツイン画像が生成されます。ツイン画像はセマンティックレイアウトが似ています。 次に研究者らは、芸術的な画像生成プロセス中に得られた自己注意マップから動き領域のバイナリマスク M を抽出しました。 マスクとリアルな画像を使用して、フロー予測モデルでオプティカルフローを予測します。 ツイン画像は非常に類似したセマンティックレイアウトを持っているため、オプティカルフローとビデオジェネレーターを使用して芸術的な画像をアニメーション化できます。 この研究のすべての実験は安定拡散に基づいていることは言及する価値があります。 研究者たちはその結果を実際のオプティカルフローと比較した。 SLR-SFS、Holynski らによって研究された単一画像アニメーション手法と比較すると、Text2Cinemagraph はすべてのフレームにわたって真のオプティカル フローを平均化します。 全体的に、最新の方法では、対象領域とより一致する、より合理的な動きを予測できます。 さらに、ユーザーの嗜好調査では、ほとんどの参加者が Text2Cinemagraph を支持していることが示されました。 最後に、研究者たちは、既存の描画をアニメーション化し、テキストを使用して動きの方向を制御するという 2 つの拡張機能を実証しました。 既存の絵画をアニメーション化する 以下はロシア美術館に展示されている『第九の波』(1850年)です。 ミネハハ滝、アルバート・ビアスタットによるキャンバスに描かれた油絵。 著者についてジュンヤン・チュー Junyan Zhu 氏は、CMU のコンピュータサイエンス学部のロボット工学研究所の助教授であり、コンピュータグラフィックスにおける最新の機械学習アプリケーションの先駆者です。 CMU に入社する前は、Adobe Research の研究科学者でした。 彼は MIT CSAIL のポスドクとして、ウィリアム・T・フリーマン、ジョシュ・テネンバウム、アントニオ・トッラルバとともに研究をしていました。 彼はまた、アレクセイ・A・エフロス氏の指導の下、カリフォルニア大学バークレー校で博士号を取得しました。清華大学でZhuowen Tu、Shi-Min Hu、Eric Changの指導を受け、学士号を取得しました。 |
<<: Midjourneyの隠されたスキルをアンロックする:プロンプトを変更すると、4つの正方形のグリッドが「分裂」します
[51CTO.com クイック翻訳] 現在、世界中のデジタル広告代理店は、ニュースサイト、検索エンジ...
近年、伝統産業の変革の要求が継続的に解放されるにつれて、人間を機械に置き換えることが重要なトレンドに...
人工知能技術の発展に伴い、コンピューターを使って外国の文書を翻訳するなど、私たちの生活の多くのアプリ...
2021年世界人工知能会議7月8日、「インテリジェントにつながる世界、知恵の都市を築く」をテーマに...
最適化テクニックはたくさんあります!たとえば、バッチ正規化、重み標準化などです。しかし、既存の最適化...
[[201242]]チャットボットとは一体何でしょうか? 簡単に言えば、音声またはテキスト方式で会...
自動運転がどれだけ遠い未来の話なのか議論されている中、自動運転の旅客バス、アルファバス・スマートバス...
6月26日に開催されたセコイア・グローバル・ヘルスケア産業サミットで、スタンフォード大学のフェイフ...
【はじめに】 筆者は今年初めからインドでデータサイエンス、機械学習、ディープラーニングの分野で仕事...
ディープラーニングの急速な発展に伴い、テキスト分類、感情分析など、学術界では毎年多くの高品質な注釈付...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[[403820]]この記事はWeChat公式アカウント「DATA STUDIO」から転載したもの...
高齢者間の「情報格差」解消を求める声は衰えず、高齢者はインターネットへのアクセスに対する新たな要求に...