ビデオ生成における新たなブレークスルー:PixelDance、複雑な動きやクールな特殊効果を簡単に表現

ビデオ生成における新たなブレークスルー:PixelDance、複雑な動きやクールな特殊効果を簡単に表現

最近では、画面を占め続ける大規模な言語モデルに加え、動画生成技術も大きく進歩し、多くの企業が新たなモデルをリリースしています。

まず、ビデオ生成の分野における先駆者の 1 つである Runway が Gen-2 モデルをアップグレードし、印象的な映画のような高解像度を実現し、ビデオ生成の一貫性が大幅に向上したと主張しています。

ただし、この一貫性の向上は、ビデオのダイナミクスを犠牲にして実現されているようです。 Gen-2の公式プロモーションビデオを見ると、複数の短いクリップが集められているものの、各クリップのダイナミクスが比較的弱く、人や動物、物体の明確なアクションや動きを捉えるのが難しいことがわかります。

最近、Meta はビデオ生成モデル Emu Video もリリースしました。 Emu Video の公式サンプルを見ると、ビデオのダイナミクスは Gen-2 に比べて大幅に改善されていることがわかりますが、依然として比較的単純なアクションに限定されています。

古典的なテキストベースのグラフモデル Stable Diffusion を開発した企業である Stability.ai は最近、オープンソースのビデオ生成モデル Stable Video Diffusion (SVD) をリリースし、オープンソース コミュニティで多くの注目と議論を集めています。 SVD の効果は Gen-2 の効果に匹敵します。テスト サンプルでは、​​SVD によって生成されたビデオはダイナミクスが比較的欠けていることがわかります。

SVD の論文では、現在 SVD によって生成されたビデオにはダイナミクスが欠けていると述べられています。

上記の例は、一貫性とダイナミックさに優れたビデオを生成し、ビデオ コンテンツを真に動かすことが、現在、ビデオ生成の分野における最大の課題であることを示しています。

この点において、 PixelDance の最新の研究成果は重要な一歩を踏み出しました。PixelDance が生成した結果のダイナミクスは他の既存のモデルよりも大幅に優れており、業界の注目を集めています。

Twitter で有名な AI ブロガー @_akhaliq がリツイートした PixelDance のニュースは、約 80,000 回閲覧されています。

公式ウェブサイト (https://makepixelsdance.github.io) では、PixelDance は 2 つの異なるビデオ生成モードを提供しています。

1 つ目は基本モードです。ユーザーはガイド画像とテキストの説明を提供するだけで、PixelDance は一貫性が高く、ダイナミクスに富んだビデオを生成できます。ガイド画像は実際の画像にすることも、既存のテキストベースの画像モデルを使用して生成することもできます。

表示された結果から判断すると、PixelDance はリアルなスタイル、アニメーション スタイル、2 次元スタイル、魔法のスタイルを処理できます。Pixeldance は、キャラクターの動き、顔の表情、カメラの視点の制御、特殊効果の動きも処理できます。素晴らしいとしか言​​いようがありません!

2 つ目は、ユーザーが想像力と創造力を発揮する余地をさらに広げる高度なマジック モードです。このモードでは、より難しいビデオ コンテンツをより適切に生成するために、ユーザーは 2 つのガイダンス画像とテキストの説明を提供する必要があります。このウェブサイトでは、マジックモードを使用して作成されたさまざまなクールな特殊効果ショットを紹介しています。

さらに、公式サイトでは、PixelDance のみで制作された 3 分間のストーリー短編映画も公開されています。

非常に衝撃的なのは、PixelDance を使用すると、ユーザーが思い描いたストーリーに応じて、各シーンとそれに対応するアクションを作成できるということです。 PixelDance は、実際のシーン (エジプト、万里の長城など) や仮想シーン (エイリアンの惑星など) を問わず、豊富なディテールと豊かな動きを備えたビデオを生成でき、さまざまな特殊効果ショットも問題なく実行できます。

さらに、黒いシルクハットと赤い蝶ネクタイをつけた主人公のミスター・ポーラーベアのイメージは、さまざまなシーンでよく維持されています。長いビデオを生成することは、関連性の薄い短いビデオクリップを単純につなぎ合わせるだけではなくなりました。

このような優れたビデオ生成結果を達成するために、PixelDance は複雑なデータセットや大規模なモデルトレーニングに依存していません。PixelDance は、15 億のモデルのみを使用して、公開されている WebVid-10M データセットで上記の結果を達成しました。

論文アドレス: https://arxiv.org/abs/2311.10982

デモアドレス: https://makepixelsdance.github.io

対応する論文「ピクセルを踊らせる: 高ダイナミック ビデオ生成」では、ビデオ生成で良好な結果を達成するのが難しい理由として、画像生成と比較して、ビデオ生成では特徴空間が大幅に大きく、動きの多様性が大幅に大きいことが指摘されています。このため、既存のビデオ生成方法では、効果的な時間的動き情報を学習することが困難になっています。生成されたビデオは高画質ですが、そのダイナミクスは非常に制限されています。

上記の問題を解決するために、PixelDance は、テキストガイダンス + 最初と最後のフレームの画像ガイダンスに基づくビデオ生成方法を提案しました。これにより、モデルはビデオの動的情報にさらに注意を払い、学習できるようになります。

このうち、最初のフレーム画像ガイダンスは、ビデオコンテンツ全体の枠組みと素材を提供します。さらに、前のビデオ セグメントの最後のフレームを次のビデオ セグメントの最初のフレームのガイドとして使用することで、より長いビデオを生成することができます。テキストの説明では、ビデオアクションの説明が提供されます。最後のフレーム画像ガイダンスは、ビデオ生成プロセスの終了状態情報を提供します。著者らは、モデルが比較的粗い画像をガイダンスとして受け取ることができる適応方法を提案しました。これにより、ユーザーは基本的な画像編集ツールを使用して、最後のフレーム画像のガイダンスを取得できます。

公式サイトの情報によると、モデルの効果は現在も積極的に反復されており、今後 2 ~ 3 か月以内に誰でも試せるようにモデルがリリースされる予定です。現在、作者は、誰もがテストしたいサンプルを送信できるようにサポートする方法も提供しています。現在、いくつかのユーザーテストサンプルが公式サイトで公開されています。

PixelDance を使えば、想像力さえあれば、誰でも「大富豪の特殊効果マスター」になれるようです!

<<:  Google の時間は残りわずか: 18 歳の従業員が辞職し、経営陣を非難

>>: 

ブログ    
ブログ    

推薦する

Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

技術の第一人者カパシー氏がOpenAIを去った後、彼のビジネスは非常に活発になっています。新しいプロ...

顔認識システムの技術的プロセスの分析

顔認識は、顔の特徴に基づいて人物を識別する生体認証技術です。カメラまたはビデオカメラを使用して、顔を...

ChatGPT がデータを取得しました!プログラミング言語ランキングを作る方法はありません!

執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...

AIの不健全で偏った非倫理的な使用

CIO は非倫理的な AI の例を認識し、企業の AI が中立性を保つための自らの役割を理解する必要...

SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

最近、クライアントの開発チームと SQL Server データ マイニングとそのアプリケーションにつ...

畳み込みニューラルネットワークによる画像認識の仕組み

[[202854]]画像認識とは何ですか? なぜ必要なのですか?マシンビジョンの概念では、画像認識と...

日常生活における生体認証技術の応用

デジタル時代では、ほとんどの人が生活の大部分をモバイル デバイスで過ごすため、セキュリティの必要性は...

知っておくべき 5 つの AI 応用シナリオ

人工知能は過去10年間で急速に発展し、徐々に私たちの生活に入り込んできました。現在、人工知能はさまざ...

...

機械学習モデルを評価する際にデータ漏洩を防ぐ方法

この記事では、モデルのパフォーマンスを評価する際のデータ漏洩の問題と、データ漏洩を回避する方法につい...

ミッドジャーニー創設者:著作権の問題に対する解決策は今のところなく、AI生成画像はアーティストに取って代わることを意図したものではない

ミッドジャーニー火災以降、アーティストの道はますます狭くなっていった。最近、Midjourney や...

異常分析のための技術的ソリューション - 異常帰属の指標分析

著者 | イー・リアン1. はじめに唯一不変なのは変化です。変化を受け入れる前に、調査し、属性を特定...

ルカン氏と彼のポスドク研究員はarxivに論文を発表したが、redditのネットユーザーから「最初の写真は間違っている」と疑問視された。

ニューラル ネットワーク モデルのトレーニングの最大の欠点は、大量のトレーニング データが必要になる...

Transformerが3Dモデリングに革命を起こし、MeshGPT生成結果がプロのモデラーやネットユーザーに衝撃を与える:革命的なアイデア

コンピュータグラフィックスでは、「三角メッシュ」は 3D 幾何学的オブジェクトの主な表現であり、ゲー...