最近では、画面を占め続ける大規模な言語モデルに加え、動画生成技術も大きく進歩し、多くの企業が新たなモデルをリリースしています。 まず、ビデオ生成の分野における先駆者の 1 つである Runway が Gen-2 モデルをアップグレードし、印象的な映画のような高解像度を実現し、ビデオ生成の一貫性が大幅に向上したと主張しています。 ただし、この一貫性の向上は、ビデオのダイナミクスを犠牲にして実現されているようです。 Gen-2の公式プロモーションビデオを見ると、複数の短いクリップが集められているものの、各クリップのダイナミクスが比較的弱く、人や動物、物体の明確なアクションや動きを捉えるのが難しいことがわかります。 最近、Meta はビデオ生成モデル Emu Video もリリースしました。 Emu Video の公式サンプルを見ると、ビデオのダイナミクスは Gen-2 に比べて大幅に改善されていることがわかりますが、依然として比較的単純なアクションに限定されています。 古典的なテキストベースのグラフモデル Stable Diffusion を開発した企業である Stability.ai は最近、オープンソースのビデオ生成モデル Stable Video Diffusion (SVD) をリリースし、オープンソース コミュニティで多くの注目と議論を集めています。 SVD の効果は Gen-2 の効果に匹敵します。テスト サンプルでは、SVD によって生成されたビデオはダイナミクスが比較的欠けていることがわかります。 SVD の論文では、現在 SVD によって生成されたビデオにはダイナミクスが欠けていると述べられています。 上記の例は、一貫性とダイナミックさに優れたビデオを生成し、ビデオ コンテンツを真に動かすことが、現在、ビデオ生成の分野における最大の課題であることを示しています。 この点において、 PixelDance の最新の研究成果は重要な一歩を踏み出しました。PixelDance が生成した結果のダイナミクスは他の既存のモデルよりも大幅に優れており、業界の注目を集めています。 Twitter で有名な AI ブロガー @_akhaliq がリツイートした PixelDance のニュースは、約 80,000 回閲覧されています。 公式ウェブサイト (https://makepixelsdance.github.io) では、PixelDance は 2 つの異なるビデオ生成モードを提供しています。 1 つ目は基本モードです。ユーザーはガイド画像とテキストの説明を提供するだけで、PixelDance は一貫性が高く、ダイナミクスに富んだビデオを生成できます。ガイド画像は実際の画像にすることも、既存のテキストベースの画像モデルを使用して生成することもできます。 表示された結果から判断すると、PixelDance はリアルなスタイル、アニメーション スタイル、2 次元スタイル、魔法のスタイルを処理できます。Pixeldance は、キャラクターの動き、顔の表情、カメラの視点の制御、特殊効果の動きも処理できます。素晴らしいとしか言いようがありません! 2 つ目は、ユーザーが想像力と創造力を発揮する余地をさらに広げる高度なマジック モードです。このモードでは、より難しいビデオ コンテンツをより適切に生成するために、ユーザーは 2 つのガイダンス画像とテキストの説明を提供する必要があります。このウェブサイトでは、マジックモードを使用して作成されたさまざまなクールな特殊効果ショットを紹介しています。 さらに、公式サイトでは、PixelDance のみで制作された 3 分間のストーリー短編映画も公開されています。 非常に衝撃的なのは、PixelDance を使用すると、ユーザーが思い描いたストーリーに応じて、各シーンとそれに対応するアクションを作成できるということです。 PixelDance は、実際のシーン (エジプト、万里の長城など) や仮想シーン (エイリアンの惑星など) を問わず、豊富なディテールと豊かな動きを備えたビデオを生成でき、さまざまな特殊効果ショットも問題なく実行できます。 さらに、黒いシルクハットと赤い蝶ネクタイをつけた主人公のミスター・ポーラーベアのイメージは、さまざまなシーンでよく維持されています。長いビデオを生成することは、関連性の薄い短いビデオクリップを単純につなぎ合わせるだけではなくなりました。 このような優れたビデオ生成結果を達成するために、PixelDance は複雑なデータセットや大規模なモデルトレーニングに依存していません。PixelDance は、15 億のモデルのみを使用して、公開されている WebVid-10M データセットで上記の結果を達成しました。 論文アドレス: https://arxiv.org/abs/2311.10982 デモアドレス: https://makepixelsdance.github.io 対応する論文「ピクセルを踊らせる: 高ダイナミック ビデオ生成」では、ビデオ生成で良好な結果を達成するのが難しい理由として、画像生成と比較して、ビデオ生成では特徴空間が大幅に大きく、動きの多様性が大幅に大きいことが指摘されています。このため、既存のビデオ生成方法では、効果的な時間的動き情報を学習することが困難になっています。生成されたビデオは高画質ですが、そのダイナミクスは非常に制限されています。 上記の問題を解決するために、PixelDance は、テキストガイダンス + 最初と最後のフレームの画像ガイダンスに基づくビデオ生成方法を提案しました。これにより、モデルはビデオの動的情報にさらに注意を払い、学習できるようになります。 このうち、最初のフレーム画像ガイダンスは、ビデオコンテンツ全体の枠組みと素材を提供します。さらに、前のビデオ セグメントの最後のフレームを次のビデオ セグメントの最初のフレームのガイドとして使用することで、より長いビデオを生成することができます。テキストの説明では、ビデオアクションの説明が提供されます。最後のフレーム画像ガイダンスは、ビデオ生成プロセスの終了状態情報を提供します。著者らは、モデルが比較的粗い画像をガイダンスとして受け取ることができる適応方法を提案しました。これにより、ユーザーは基本的な画像編集ツールを使用して、最後のフレーム画像のガイダンスを取得できます。 公式サイトの情報によると、モデルの効果は現在も積極的に反復されており、今後 2 ~ 3 か月以内に誰でも試せるようにモデルがリリースされる予定です。現在、作者は、誰もがテストしたいサンプルを送信できるようにサポートする方法も提供しています。現在、いくつかのユーザーテストサンプルが公式サイトで公開されています。 PixelDance を使えば、想像力さえあれば、誰でも「大富豪の特殊効果マスター」になれるようです! |
<<: Google の時間は残りわずか: 18 歳の従業員が辞職し、経営陣を非難
技術の第一人者カパシー氏がOpenAIを去った後、彼のビジネスは非常に活発になっています。新しいプロ...
顔認識は、顔の特徴に基づいて人物を識別する生体認証技術です。カメラまたはビデオカメラを使用して、顔を...
執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...
CIO は非倫理的な AI の例を認識し、企業の AI が中立性を保つための自らの役割を理解する必要...
最近、クライアントの開発チームと SQL Server データ マイニングとそのアプリケーションにつ...
[[202854]]画像認識とは何ですか? なぜ必要なのですか?マシンビジョンの概念では、画像認識と...
デジタル時代では、ほとんどの人が生活の大部分をモバイル デバイスで過ごすため、セキュリティの必要性は...
AI が生成したデータを使用して AI をトレーニングしても魔法のようには機能せず、逆効果になるだ...
人工知能は過去10年間で急速に発展し、徐々に私たちの生活に入り込んできました。現在、人工知能はさまざ...
この記事では、モデルのパフォーマンスを評価する際のデータ漏洩の問題と、データ漏洩を回避する方法につい...
ミッドジャーニー火災以降、アーティストの道はますます狭くなっていった。最近、Midjourney や...
著者 | イー・リアン1. はじめに唯一不変なのは変化です。変化を受け入れる前に、調査し、属性を特定...
ニューラル ネットワーク モデルのトレーニングの最大の欠点は、大量のトレーニング データが必要になる...
コンピュータグラフィックスでは、「三角メッシュ」は 3D 幾何学的オブジェクトの主な表現であり、ゲー...