ビデオ生成における新たなブレークスルー:PixelDance、複雑な動きやクールな特殊効果を簡単に表現

ビデオ生成における新たなブレークスルー:PixelDance、複雑な動きやクールな特殊効果を簡単に表現

最近では、画面を占め続ける大規模な言語モデルに加え、動画生成技術も大きく進歩し、多くの企業が新たなモデルをリリースしています。

まず、ビデオ生成の分野における先駆者の 1 つである Runway が Gen-2 モデルをアップグレードし、印象的な映画のような高解像度を実現し、ビデオ生成の一貫性が大幅に向上したと主張しています。

ただし、この一貫性の向上は、ビデオのダイナミクスを犠牲にして実現されているようです。 Gen-2の公式プロモーションビデオを見ると、複数の短いクリップが集められているものの、各クリップのダイナミクスが比較的弱く、人や動物、物体の明確なアクションや動きを捉えるのが難しいことがわかります。

最近、Meta はビデオ生成モデル Emu Video もリリースしました。 Emu Video の公式サンプルを見ると、ビデオのダイナミクスは Gen-2 に比べて大幅に改善されていることがわかりますが、依然として比較的単純なアクションに限定されています。

古典的なテキストベースのグラフモデル Stable Diffusion を開発した企業である Stability.ai は最近、オープンソースのビデオ生成モデル Stable Video Diffusion (SVD) をリリースし、オープンソース コミュニティで多くの注目と議論を集めています。 SVD の効果は Gen-2 の効果に匹敵します。テスト サンプルでは、​​SVD によって生成されたビデオはダイナミクスが比較的欠けていることがわかります。

SVD の論文では、現在 SVD によって生成されたビデオにはダイナミクスが欠けていると述べられています。

上記の例は、一貫性とダイナミックさに優れたビデオを生成し、ビデオ コンテンツを真に動かすことが、現在、ビデオ生成の分野における最大の課題であることを示しています。

この点において、 PixelDance の最新の研究成果は重要な一歩を踏み出しました。PixelDance が生成した結果のダイナミクスは他の既存のモデルよりも大幅に優れており、業界の注目を集めています。

Twitter で有名な AI ブロガー @_akhaliq がリツイートした PixelDance のニュースは、約 80,000 回閲覧されています。

公式ウェブサイト (https://makepixelsdance.github.io) では、PixelDance は 2 つの異なるビデオ生成モードを提供しています。

1 つ目は基本モードです。ユーザーはガイド画像とテキストの説明を提供するだけで、PixelDance は一貫性が高く、ダイナミクスに富んだビデオを生成できます。ガイド画像は実際の画像にすることも、既存のテキストベースの画像モデルを使用して生成することもできます。

表示された結果から判断すると、PixelDance はリアルなスタイル、アニメーション スタイル、2 次元スタイル、魔法のスタイルを処理できます。Pixeldance は、キャラクターの動き、顔の表情、カメラの視点の制御、特殊効果の動きも処理できます。素晴らしいとしか言​​いようがありません!

2 つ目は、ユーザーが想像力と創造力を発揮する余地をさらに広げる高度なマジック モードです。このモードでは、より難しいビデオ コンテンツをより適切に生成するために、ユーザーは 2 つのガイダンス画像とテキストの説明を提供する必要があります。このウェブサイトでは、マジックモードを使用して作成されたさまざまなクールな特殊効果ショットを紹介しています。

さらに、公式サイトでは、PixelDance のみで制作された 3 分間のストーリー短編映画も公開されています。

非常に衝撃的なのは、PixelDance を使用すると、ユーザーが思い描いたストーリーに応じて、各シーンとそれに対応するアクションを作成できるということです。 PixelDance は、実際のシーン (エジプト、万里の長城など) や仮想シーン (エイリアンの惑星など) を問わず、豊富なディテールと豊かな動きを備えたビデオを生成でき、さまざまな特殊効果ショットも問題なく実行できます。

さらに、黒いシルクハットと赤い蝶ネクタイをつけた主人公のミスター・ポーラーベアのイメージは、さまざまなシーンでよく維持されています。長いビデオを生成することは、関連性の薄い短いビデオクリップを単純につなぎ合わせるだけではなくなりました。

このような優れたビデオ生成結果を達成するために、PixelDance は複雑なデータセットや大規模なモデルトレーニングに依存していません。PixelDance は、15 億のモデルのみを使用して、公開されている WebVid-10M データセットで上記の結果を達成しました。

論文アドレス: https://arxiv.org/abs/2311.10982

デモアドレス: https://makepixelsdance.github.io

対応する論文「ピクセルを踊らせる: 高ダイナミック ビデオ生成」では、ビデオ生成で良好な結果を達成するのが難しい理由として、画像生成と比較して、ビデオ生成では特徴空間が大幅に大きく、動きの多様性が大幅に大きいことが指摘されています。このため、既存のビデオ生成方法では、効果的な時間的動き情報を学習することが困難になっています。生成されたビデオは高画質ですが、そのダイナミクスは非常に制限されています。

上記の問題を解決するために、PixelDance は、テキストガイダンス + 最初と最後のフレームの画像ガイダンスに基づくビデオ生成方法を提案しました。これにより、モデルはビデオの動的情報にさらに注意を払い、学習できるようになります。

このうち、最初のフレーム画像ガイダンスは、ビデオコンテンツ全体の枠組みと素材を提供します。さらに、前のビデオ セグメントの最後のフレームを次のビデオ セグメントの最初のフレームのガイドとして使用することで、より長いビデオを生成することができます。テキストの説明では、ビデオアクションの説明が提供されます。最後のフレーム画像ガイダンスは、ビデオ生成プロセスの終了状態情報を提供します。著者らは、モデルが比較的粗い画像をガイダンスとして受け取ることができる適応方法を提案しました。これにより、ユーザーは基本的な画像編集ツールを使用して、最後のフレーム画像のガイダンスを取得できます。

公式サイトの情報によると、モデルの効果は現在も積極的に反復されており、今後 2 ~ 3 か月以内に誰でも試せるようにモデルがリリースされる予定です。現在、作者は、誰もがテストしたいサンプルを送信できるようにサポートする方法も提供しています。現在、いくつかのユーザーテストサンプルが公式サイトで公開されています。

PixelDance を使えば、想像力さえあれば、誰でも「大富豪の特殊効果マスター」になれるようです!

<<:  Google の時間は残りわずか: 18 歳の従業員が辞職し、経営陣を非難

>>: 

ブログ    
ブログ    

推薦する

ビジネスインテリジェンスを通じて脆弱性と危険な行動を特定する方法

[[389855]]ビジネスに関連するすべてのリスクを排除できると主張しても、多くの人はそれを信じま...

「中国製チップ」の20年と新たな時代

[[285892]] 「自信を持った国と民族だけが、未来への道を着実に前進することができます。木の高...

...

...

数千人を対象とした調査: AI に対する一般の認識はどのようなものでしょうか?

人工知能は世界を変えようとしていますが、問題は、それがどのように起こるのか誰も正確には知らないことで...

今後 20 年間で人工知能は何ができるでしょうか?

人工知能は長年にわたって世界を支配しており、さまざまな分野における主要な問題が AI を使用して解決...

幾何学的機械学習: 基礎科学でどのように実現するか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

顔の照明を自由に編集:ジェネレーティブモデルに基づく3Dリライティングシステムがリリース

実際の人間の顔の 3 次元モデリング、合成、再照明は、コンピュータ グラフィックスの分野で高い応用価...

人工知能による画像認識では、データのラベル付けはどのように機能するのでしょうか?

画像処理技術の急速な発展に伴い、画像認識技術が生まれ、発展し、徐々に人工知能分野の重要な部分となり、...

TimePillars: 200メートルを超える小さなターゲットの検出能力の向上

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは...

...

FenyintaのCTO、張明氏:観光産業を深く掘り下げ、AI技術を使って異言語コミュニケーションの問題を解決する

[51CTO.comからのオリジナル記事] 1930年代初頭、フランスの科学者GBアルチュニは翻訳に...

ついに、人工知能の3つの重要な機能を説明する人がいた。

人間の知性は広大かつ複雑です。人間の成果の中には、今日の機械では到底達成できないものもあり、機械がこ...