ビデオ生成における新たなブレークスルー：PixelDance、複雑な動きやクールな特殊効果を簡単に表現

最近では、画面を占め続ける大規模な言語モデルに加え、動画生成技術も大きく進歩し、多くの企業が新たなモデルをリリースしています。

まず、ビデオ生成の分野における先駆者の 1 つである Runway が Gen-2 モデルをアップグレードし、印象的な映画のような高解像度を実現し、ビデオ生成の一貫性が大幅に向上したと主張しています。

ただし、この一貫性の向上は、ビデオのダイナミクスを犠牲にして実現されているようです。 Gen-2の公式プロモーションビデオを見ると、複数の短いクリップが集められているものの、各クリップのダイナミクスが比較的弱く、人や動物、物体の明確なアクションや動きを捉えるのが難しいことがわかります。

最近、Meta はビデオ生成モデル Emu Video もリリースしました。 Emu Video の公式サンプルを見ると、ビデオのダイナミクスは Gen-2 に比べて大幅に改善されていることがわかりますが、依然として比較的単純なアクションに限定されています。

古典的なテキストベースのグラフモデル Stable Diffusion を開発した企業である Stability.ai は最近、オープンソースのビデオ生成モデル Stable Video Diffusion (SVD) をリリースし、オープンソースコミュニティで多くの注目と議論を集めています。 SVD の効果は Gen-2 の効果に匹敵します。テストサンプルでは、SVD によって生成されたビデオはダイナミクスが比較的欠けていることがわかります。

SVD の論文では、現在 SVD によって生成されたビデオにはダイナミクスが欠けていると述べられています。

上記の例は、一貫性とダイナミックさに優れたビデオを生成し、ビデオコンテンツを真に動かすことが、現在、ビデオ生成の分野における最大の課題であることを示しています。

この点において、 PixelDance の最新の研究成果は重要な一歩を踏み出しました。PixelDance が生成した結果のダイナミクスは他の既存のモデルよりも大幅に優れており、業界の注目を集めています。

Twitter で有名な AI ブロガー @_akhaliq がリツイートした PixelDance のニュースは、約 80,000 回閲覧されています。

公式ウェブサイト (https://makepixelsdance.github.io) では、PixelDance は 2 つの異なるビデオ生成モードを提供しています。

1 つ目は基本モードです。ユーザーはガイド画像とテキストの説明を提供するだけで、PixelDance は一貫性が高く、ダイナミクスに富んだビデオを生成できます。ガイド画像は実際の画像にすることも、既存のテキストベースの画像モデルを使用して生成することもできます。

表示された結果から判断すると、PixelDance はリアルなスタイル、アニメーションスタイル、2 次元スタイル、魔法のスタイルを処理できます。Pixeldance は、キャラクターの動き、顔の表情、カメラの視点の制御、特殊効果の動きも処理できます。素晴らしいとしか言いようがありません！

2 つ目は、ユーザーが想像力と創造力を発揮する余地をさらに広げる高度なマジックモードです。このモードでは、より難しいビデオコンテンツをより適切に生成するために、ユーザーは 2 つのガイダンス画像とテキストの説明を提供する必要があります。このウェブサイトでは、マジックモードを使用して作成されたさまざまなクールな特殊効果ショットを紹介しています。

さらに、公式サイトでは、PixelDance のみで制作された 3 分間のストーリー短編映画も公開されています。

非常に衝撃的なのは、PixelDance を使用すると、ユーザーが思い描いたストーリーに応じて、各シーンとそれに対応するアクションを作成できるということです。 PixelDance は、実際のシーン (エジプト、万里の長城など) や仮想シーン (エイリアンの惑星など) を問わず、豊富なディテールと豊かな動きを備えたビデオを生成でき、さまざまな特殊効果ショットも問題なく実行できます。

さらに、黒いシルクハットと赤い蝶ネクタイをつけた主人公のミスター・ポーラーベアのイメージは、さまざまなシーンでよく維持されています。長いビデオを生成することは、関連性の薄い短いビデオクリップを単純につなぎ合わせるだけではなくなりました。

このような優れたビデオ生成結果を達成するために、PixelDance は複雑なデータセットや大規模なモデルトレーニングに依存していません。PixelDance は、15 億のモデルのみを使用して、公開されている WebVid-10M データセットで上記の結果を達成しました。

論文アドレス: https://arxiv.org/abs/2311.10982

デモアドレス: https://makepixelsdance.github.io

対応する論文「ピクセルを踊らせる: 高ダイナミックビデオ生成」では、ビデオ生成で良好な結果を達成するのが難しい理由として、画像生成と比較して、ビデオ生成では特徴空間が大幅に大きく、動きの多様性が大幅に大きいことが指摘されています。このため、既存のビデオ生成方法では、効果的な時間的動き情報を学習することが困難になっています。生成されたビデオは高画質ですが、そのダイナミクスは非常に制限されています。

上記の問題を解決するために、PixelDance は、テキストガイダンス + 最初と最後のフレームの画像ガイダンスに基づくビデオ生成方法を提案しました。これにより、モデルはビデオの動的情報にさらに注意を払い、学習できるようになります。

このうち、最初のフレーム画像ガイダンスは、ビデオコンテンツ全体の枠組みと素材を提供します。さらに、前のビデオセグメントの最後のフレームを次のビデオセグメントの最初のフレームのガイドとして使用することで、より長いビデオを生成することができます。テキストの説明では、ビデオアクションの説明が提供されます。最後のフレーム画像ガイダンスは、ビデオ生成プロセスの終了状態情報を提供します。著者らは、モデルが比較的粗い画像をガイダンスとして受け取ることができる適応方法を提案しました。これにより、ユーザーは基本的な画像編集ツールを使用して、最後のフレーム画像のガイダンスを取得できます。

公式サイトの情報によると、モデルの効果は現在も積極的に反復されており、今後 2 ～ 3 か月以内に誰でも試せるようにモデルがリリースされる予定です。現在、作者は、誰もがテストしたいサンプルを送信できるようにサポートする方法も提供しています。現在、いくつかのユーザーテストサンプルが公式サイトで公開されています。

PixelDance を使えば、想像力さえあれば、誰でも「大富豪の特殊効果マスター」になれるようです!

<<: Google の時間は残りわずか: 18 歳の従業員が辞職し、経営陣を非難

>>: