Google の 10 秒動画生成モデルが世界記録を更新しました。 LLMは拡散モデルを終わらせ、その影響は第2世代のトップを圧倒する

Google の 10 秒動画生成モデルが世界記録を更新しました。 LLMは拡散モデルを終わらせ、その影響は第2世代のトップを圧倒する

AI ビデオ生成は、2024 年には次の最先端分野になる可能性があります。

過去数ヶ月を振り返ると、RunWayのGen-2、Pika LabのPika 1.0、国内大手メーカーなど、多数のビデオ生成モデルが登場し、継続的に反復してアップグレードされてきました。

RunWayは早朝、Gen-2がテキスト読み上げ機能をサポートし、動画のナレーションを作成できると発表した。

写真

もちろん、Googleはビデオ生成で遅れをとるつもりはありません。同社はまずスタンフォード大学のFei-Fei Li氏のチームと共同でWALTをリリースし、Transformerによって生成されたリアルなビデオが大きな注目を集めました。

写真

本日、Google チームは、特定のデータなしでビデオを生成できる新しいビデオ生成モデル、VideoPoet をリリースしました。

写真

論文アドレス: https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

最も驚くべき点は、VideoPoet が一度に 10 秒間の超長時間の連続した大動きのビデオを生成できることです。これは、小さな動きのみによる Gen-2 のビデオ生成を完全に圧倒します。

また、VideoPoet は、先行モデルとは異なり、拡散モデルではなく、T2V や V2A などの機能を備えた大規模なマルチモーダル モデルに基づいており、将来のビデオ生成の主流になる可能性があります。

写真

動画を見たネットユーザーたちは衝撃を受け、画面全体にコメントを投稿した。

写真

写真

まずは、いくつかの体験を見てみましょう。

テキストからビデオへ

テキストからビデオへの変換では、生成されるビデオの長さは可変であり、テキストの内容に応じてさまざまなアクションとスタイルを示すことができます。

たとえば、パンダのトランプ:

写真

2匹のパンダのトランプ

パンプキンエクスプロージョン:

写真

カボチャが爆発するスローモーション

馬に乗って疾走する宇宙飛行士:

写真

疾走する馬に乗る宇宙飛行士

画像からビデオへ

VideoPoet は、指定されたプロンプトに基づいて入力画像をアニメーションに変換することもできます。

写真

左:雷鳴と稲妻に囲まれた荒れた海を航行する船。ダイナミックな油絵風に描かれている。

中央:きらめく星々で満たされた星雲の中を飛ぶ

右:杖を持った旅人が崖の端に立って、風に渦巻く海霧を眺めている

ビデオのスタイル化

ビデオのスタイル設定では、VideoPoet はまず光学フローと深度情報を予測し、次にモデルに追加のテキストを入力します。

写真

左: サングラスをかけ、太陽が輝くビーチでビーチボールを抱えているウォンバット

中央: 透明な氷の上でスケートをするテディベア

右:炉の輝きの中で吠える金属製のライオン

写真

左から右へ: フォトリアリスティック、デジタルアート、鉛筆画、水墨画、二重露光、360 パノラマ

ビデオをオーディオに変換する

VideoPoet はオーディオも生成できます。

以下に示すように、最初にモデルから 2 秒間のアニメーション クリップを生成し、次にテキスト ガイダンスなしでオーディオを予測してみます。これにより、単一のモデルからビデオとオーディオを生成できるようになります。

通常、VideoPoet は短編ビデオの出力に合わせて縦向きでビデオを生成します。

Google は、VideoPoet によって生成された多数の短いクリップで構成された短編映画も作成しました。

具体的なテキスト形式に関しては、研究者はバード氏に、場面の内訳とプロンプトのリストを添えて、旅するアライグマについての短編小説を書くように依頼した。次に、各キューごとにビデオ セグメントが生成され、生成されたすべてのセグメントがつなぎ合わされて、以下の最終ビデオが作成されました。

、所要時間 01:00

ビデオストーリーテリング

時間の経過とともに変化する手がかりを使用することで、視覚的なストーリーテリングを作成できます。

写真

入力: 水でできた歩く人

拡張: 水でできた歩く男。背景には稲妻があり、人物からは紫色の煙が出ています。

写真

入力: 松の木に囲まれた山道をバイクで走る2匹のアライグマ、8k

拡張: バイクに乗る 2 匹のアライグマ。流星群がアライグマの後ろから落ちてきて、地面に落ちて爆発を引き起こします

LLM ビデオジェネレーター

現在、Gen-2 と Pika 1.0 のビデオ生成のパフォーマンスは十分に驚異的ですが、残念ながら、連続した大きな動きのあるビデオの生成では驚くべきパフォーマンスを発揮できません。

通常、大きな動きがある場合、ビデオに目立つアーティファクトが生成されます。

これに対応して、Google の研究者は、テキストからビデオ、画像からビデオ、ビデオのスタイル設定、ビデオの復元/拡張、ビデオからオーディオなど、さまざまなビデオ生成タスクを実行できる VideoPoet を提案しました。

他のモデルと比較して、Google のアプローチは、各タスクごとに個別にトレーニングされた専用コンポーネントに依存せずに、複数のビデオ生成機能を 1 つの大規模な言語モデルにシームレスに統合することです。

写真

具体的には、VideoPoet には主に次のコンポーネントが含まれています。

- 事前トレーニング済みの MAGVIT V2 ビデオ トークナイザーと SoundStream オーディオ トークナイザー。さまざまな長さの画像、ビデオ、オーディオ クリップを、統一された語彙の個別のコード シーケンスに変換できます。これらのコードはテキストベースの言語モデルと互換性があり、テキストなどの他のモダリティと簡単に組み合わせることができます。

- 自己回帰言語モデルは、ビデオ、画像、オーディオ、テキスト間のクロスモーダル学習を実行し、シーケンス内の次のビデオまたはオーディオ トークンを自己回帰的に予測できます。

- 大規模言語モデルトレーニングフレームワークに、テキストからビデオ、テキストから画像、画像からビデオ、ビデオフレームの継続、ビデオの復元/拡張、ビデオのスタイル設定、ビデオからオーディオなど、複数のマルチモーダル生成学習目標を導入しました。さらに、これらのタスクを相互に組み合わせて、追加のゼロショット機能 (テキストからオーディオへの変換など) を実現することもできます。

写真

VideoPoet は、さまざまなビデオ中心の入力と出力にわたってマルチタスクを実行できます。その中で、LLM はテキストを入力として取り、テキストからビデオ、画像からビデオ、ビデオからオーディオ、様式化、画像拡張のタスクの生成をガイドすることを選択できます。

トレーニングに LLM を使用する主な利点は、既存の LLM トレーニング インフラストラクチャで導入されたスケーラブルな効率性向上の多くが再利用できることです。

ただし、LLM は個別のトークンで動作するため、ビデオ生成に課題が生じる可能性があります。

幸いなことに、ビデオ クリップとオーディオ クリップを個別のトークン (つまり、整数インデックス) のシーケンスにエンコードし、元の表現に戻すことができるビデオ トークナイザーとオーディオ トークナイザーがあります。

VideoPoet は、複数のトークナイザー (ビデオと画像の場合は MAGVIT V2、オーディオの場合は SoundStream) を使用して、ビデオ、画像、オーディオ、テキスト モダリティ全体で学習する自己回帰言語モデルをトレーニングします。

モデルがコンテキストに基づいてトークンを生成すると、トークナイザー デコーダーを使用して、これらのトークンを表示可能な表現に変換し直すことができます。

写真

VideoPoet タスク設計: トークナイザー エンコーダーとデコーダーを介して、さまざまなモダリティがトークンに変換されます。各モダリティは境界トークンで囲まれており、タスク トークンは実行されるタスクの種類を示します。

3つの大きな利点

まとめると、VideoPoet には Gen-2 などのビデオ生成モデルに比べて次の 3 つの利点があります。

より長い動画

VideoPoet は、ビデオの最後の 1 秒を調整し、次の 1 秒を予測することで、より長いビデオを生成できます。

VideoPoet は、繰り返しループすることで、ビデオを適切にスケーリングするだけでなく、複数の反復にわたってすべてのオブジェクトの外観を忠実に保持します。

以下は、テキスト入力から長いビデオを生成する VideoPoet の例 2 つです。

写真

左:色とりどりの花火を背景に火星で踊る宇宙飛行士

右: 青い川、滝、急峻な垂直の崖がある、ジャングルの中にあるエルフの石造りの都市の非常に鮮明なドローン撮影。

3 ~ 4 秒のビデオしか生成できない他のモデルと比較して、VideoPoet は一度に最大 10 秒のビデオを生成できます。

写真

ドローンで撮影した城の秋の風景

正確な制御

ビデオ生成アプリケーションの非常に重要な機能は、生成された動的効果をユーザーがどの程度制御できるかです。

これによって、モデルを使用して複雑で一貫性のある長いビデオを作成できるかどうかが大きく決まります。

VideoPoet は、テキストの説明を通じて入力画像に動的な効果を追加できるだけでなく、テキスト プロンプトを通じてコン​​テンツを調整し、目的の効果を実現することもできます。

写真

左:カメラの方を向いている;右:あくびをしている

入力画像のビデオ編集をサポートするだけでなく、テキストを介してビデオ入力を正確に制御することもできます。

一番左のアライグマのダンス動画では、ユーザーはテキストを使用してさまざまなダンスの動きを説明し、アライグマにさまざまなダンスをさせることができます。

写真

「左」を生成: ダンスロボット

「Medium」の生成: Griddy Dance を実行する

「右」を生成: フリースタイル

同様に、VideoPoet によって生成された既存のビデオ クリップもインタラクティブに編集できます。

入力ビデオを提供すると、オブジェクトの動きを変えてさまざまなアクションを実行できます。オブジェクトに対する操作は最初のフレームまたは中間フレームを中心に行うことができるため、高度な編集制御が可能になります。

たとえば、入力ビデオからランダムにセグメントを生成し、次に興味のある次のセグメントを選択することができます。

図の一番左のビデオは条件反射として使用され、最初のプロンプトの下で 4 つのビデオが生成されます。

「苔と新芽に覆われ、背の高い草に囲まれた、錆びて使い古された愛らしいスチームパンク ロボットのクローズアップ。」

最初の 3 つの出力では、指示されたアクションの自律的な予測は生成されません。前回の動画では、アクション生成をガイドするために「スタート、背景は煙です」というプロンプトが追加されました。

写真

カメラを動かすテクニック

VideoPoet では、テキスト プロンプトに必要なカメラ移動方法を追加することで、画像の変化を正確に制御することもできます。

たとえば、研究者たちはこのモデルを使用して、「アドベンチャー ゲームのコンセプト マップ、雪をかぶった山々、日の出、澄んだ川」というプロンプトの付いた画像を生成しました。次の例では、指定されたテキスト サフィックスを必要なアクションに追加します。

写真

左から右へ:ズームアウト、スライドズーム、左へのパン、アークモーションレンズ、ジブ撮影、ドローン航空写真

評価結果

最後に、VideoPoet は特定の実験評価でどのように機能するのでしょうか?

評価の客観性を確保するため、Google の研究者はさまざまなプロンプトですべてのモデルを実行し、人々に好みを評価するよう依頼しました。

次のグラフは、次の質問で VideoPoet が環境に優しい選択肢として選択された回数の割合を示しています。

テキスト忠実度:

写真

テキスト忠実度に関するユーザーの嗜好評価、つまり、プロンプトに正確に従うという点でビデオを好んだ人の割合

アクションの楽しさ:

写真

アクションの面白さに関するユーザーの好みの評価、つまり、楽しいアクションを生み出すために好まれる動画の割合

要約すると、平均して 24 ~ 35% の人が、VideoPoet によって生成された例が他のモデルよりもプロンプトに従っていると考えていましたが、他のモデルではこの割合はわずか 8 ~ 11% でした。

さらに、評価者の 41% ~ 54% が VideoPoet のサンプル アクションをより興味深いと評価しましたが、他のモデルの場合はわずか 11% ~ 21% でした。

今後の研究の方向性について、Google の研究者は、VideoPoet フレームワークによって、テキストを音声に、音声を動画に、動画の字幕などに拡張するなど、「any-to-any」生成が実現されると述べました。

ネットユーザーは、Runway と Pika は、Google と OpenAI がまもなく開始するテキストからビデオへの革新的なテクノロジーに耐えられるのかと疑問に思わずにはいられません。

写真

参考文献:

https://sites.research.google/videopoet/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

曹永寿:ビッグデータとAI技術がアーティストの商業的価値を測る基準を構築

[元記事は51CTO.comより]最近、エンターテインメントビッグデータアプリケーションサービスプロ...

...

Python を使用したソーシャル メディア感情分析の入門

[[265146]]自然言語処理の基礎を学び、2 つの便利な Python パッケージを調べます。自...

...

Microsoft の 38 TB の内部データが漏洩!秘密鍵と3万件以上の仕事上の会話が漏洩、その背後にある理由は衝撃的

何か大きなことが起こりました!数か月前、マイクロソフトの AI 研究チームは、大量のオープンソースの...

マイクロソフトの新特許公開:機械学習で「赤面」するリアルなアバターを作成

11月16日、現地時間の火曜日、米国特許商標庁のウェブサイトでマイクロソフトの新しい特許が公開された...

「人工知能」の発展を合理的に扱う

現在の人工知能の発展は、主にディープラーニングに代表される機械学習技術の恩恵を受けています。ディープ...

マスク氏は突然、xAI の「奇妙な」モデルを公開し、ユーモアのセンスを見せつけた。 ChatGPTのメジャーアップデートが事前にリークされる

11月3日、マスク氏は週末に突然エキサイティングなニュースをもたらしました。xAIの最初の製品が明日...

...

3つの主要な章がAIの実装を加速します。2019年のWOTグローバル人工知能技術サミットはAIの新たな章を開きます

[51CTO.comよりオリジナル記事] 6月21日午前9時、2日間にわたるWOT2019グローバル...

機械学習クラウド プラットフォームにはどのような機能が必要ですか?

[[344159]]効果的なディープラーニング モデルを作成するには、モデルを効果的にトレーニング...

機械学習が通信業界にもたらすメリット

通信分野における機械学習技術は、ネットワーク事業者がサービス品質を向上させ、利益を増やし、顧客離れを...

人間を超えた最初の専門家! OpenAIが混乱に陥る中、Googleのマルチモーダル大規模モデルGeminiがそれを打ち負かす

OpenAIが混乱に陥っている間、Googleは「全員を殺す」準備をしている。ちょうど昨夜、Goog...

...