Google は Gen-2 を殴り、ピカを蹴り、大規模な AI ビデオモデルを開発するために 7 か月間懸命に取り組みました。時空構造の最初の言及、持続時間は壮大なレベルにまで延長される

AIビデオトラックでは、Googleが再び衝撃的なアップデートをリリースしました！

Google Lumiere と呼ばれるこのモデルは、AI ビデオのゲームのルールを完全に変える大規模なビデオ拡散モデルです。

他のモデルとは異なり、Lumiere は最先端の時空間 U-Net アーキテクチャを使用して、一貫した 1 回のパスでビデオ全体を生成します。

具体的には、既存の AI ビデオ生成モデルのほとんどは、短いビデオを生成し、それらに対して時間サンプリングを実行することでタスクを完了します。

Google の新しいモデルである Google Lumiere は、空間と時間のダウンサンプリングを組み合わせて生成を実現し、生成されるビデオの長さと品質を大幅に向上させることができます。

論文アドレス: https://arxiv.org/abs/2401.12945

これは Google チームが 7 か月かけて達成した最新の成果であることは特筆に値します。

ネットユーザーたちは、この驚くべき「Googleスピード」に驚きを表明した――

Google は決して眠らない？

開発者の答え: 睡眠不足

彼らは実際に、歩いたり踊ったりといった人体の仕組みのビデオを制作しました。これを作るのに6～12か月かかると思っていました。AIは本当に驚異的なスピードで発展しています。 (私のワークフローではこのモデルが必要です)

新しいSTUNetアーキテクチャ：より長く、より一貫した時間

AI ビデオの長さが不十分、動きの一貫性と整合性が低い、アーティファクトが多いなどの一連の問題を解決するために、研究者は Space-Time U-Net (STUNet) と呼ばれるアーキテクチャを提案しました。

従来のビデオモデルで生成されたビデオは、奇妙な動きやアーティファクトを示すことが多い

ビデオ信号を空間的にも時間的にもダウンサンプリングおよびアップサンプリングすることを学習し、ネットワークの圧縮された空間的および時間的表現に対して主要な計算を実行できます。

カスケード設計を採用した以前のテキストからビデオへのモデルと比較すると、ベースモデルは最初にキーフレームを生成し、次に一連の時間的超解像度モデルを使用して、重複しないセグメントに補間フレームを生成します。

STUNet は、フルフレームレートで低解像度のビデオを直接生成することを学習できます。この設計により、全体的に一貫した動きを生成する際の時間的カスケード構造の固有の制限が回避されます。

STUNet アーキテクチャは、ほとんどのメディアの平均的なショットの長さよりも長い 5 秒間の 80 フレームのビデオを直接生成でき、以前のモデルよりも一貫した動きを生成できます。

豊富な機能、抜群の効果

ビデオ編集/修復

この機能を使用すると、ビデオを編集したり、ビデオにオブジェクトを挿入したりできます。

たとえば、白い花が付いた緑のドレスを着ているこの女の子の場合、衣服の領域を選択してテキスト変更リクエストを入力するだけで、彼女のドレスを赤と白のストライプのドレスや金色のチューブトップドレスに即座に変更できます。

走っている女の子を、テキストで編集するだけで、花で覆ったり、木製のブロック、折り紙、レゴ風にしたりできます。

ビデオの特定の部分を変更および編集することもできます。

フィギュアビデオ

Lumiere のもう一つの非常に便利な機能は、静止画像をダイナミックなビデオに変換することです。

テキストプロンプトを入力すると、真珠の耳飾りの少女が有名な絵画から出てきて笑顔を見せます。

ゴッホの絵画「星月夜」では、夜空の星や雲が本当に流れ始めます。

様式化された世代

Lumiere は、指定されたさまざまな芸術的なスタイルでビデオを生成できます。

指定されたスタイルが指定され、テキストプロンプトが提供される限り、同様のスタイルのビデオを大量に生成できます。

参照静止画のスタイルと比較すると、生成された動画のスタイルが非常に正確に再現されていることがわかります。

アクションブラシ

シネマグラフ（モーションブラシとも呼ばれます）と呼ばれるこのスタイルを使用すると、静止画像の特定の部分を選択して動かすことができます。

写真の炎を選択すると、燃え始めます。

写真の煙を選択すると、電車から濃い煙が出始めます。

ヴィンセントビデオ

もちろん、Lumiere はテキストから直接詳細なビデオを生成することもできます。

火星の基地を歩き回る宇宙飛行士であっても。

あるいはサングラスをかけながら車を運転している犬。

または、廃墟となった寺院の上を飛行し、遺跡の中を移動します。

動画で足りない部分を補うこともできます。

STUNetアーキテクチャがもたらす新たなブレークスルー

今回、Google の研究者は異なるアプローチを採用し、ビデオの全期間を瞬時に生成できる新しい T2V 拡散フレームワークを導入しました。

これを実現するために、研究者らは STUNet アーキテクチャを使用しました。このアーキテクチャは、空間と時間で信号をダウンサンプリングすることを学習し、ほとんどの計算を圧縮された時空間表現の形式で実行します。

Lumiere によって生成された結果の例。テキストからビデオへの生成 (1 行目)、画像からビデオへの生成 (2 行目)、スタイル参照の生成、ビデオの修復 (境界ボックスの 3 行目は修復マスク領域を示します) が含まれます。

このアプローチを使用すると、16fps (または 5 秒) で 80 フレームを生成することができ、これは単一の基本モデルを使用するほとんどのメディアよりも優れています。

以前の研究と比較すると、より全体的に一貫した動きが生成されます。

驚くべきことに、この設計上の選択は、空間的なダウンサンプリングとアップサンプリングの操作のみをアーキテクチャに組み込み、ネットワーク全体で固定の時間解像度を維持するという慣例に従う以前の T2V モデルでは見過ごされてきました。

Lumiere と ImagenVideo を使用した周期運動生成ビデオの代表例。 ImagenVideo によって生成されたビデオの最初のフレームを条件として、Lumiere の画像からビデオへの生成を適用し、対応する XT スライスを視覚化しました。 Imagenvideo は、カスケード設計と時間的超解像モジュールが原因で、時間ウィンドウ全体にわたってエイリアシングブラーを一貫して解決できないため、全体的に一貫した反復動作を生成することが困難です。

研究者のフレームワークは、基本モデルと空間超解像 (SSR) モデルで構成されています。

上の図 3b に示すように、ベースモデルは粗い空間解像度で完全なクリップを生成します。

ベースモデルの出力は、時間を考慮した SSR モデルを使用して空間的にアップサンプリングされ、高解像度のビデオが生成されます。

研究者のアーキテクチャは上の図に示されています。

T2Iアーキテクチャで時間ブロックをインターリーブし、事前にトレーニングされた各空間サイズ変更モジュールの後に時間ダウンサンプリングおよびアップサンプリングモジュールを挿入します（図4a）。時間ブロックは、時間畳み込み (図 4b) と時間注意 (図 4c) で構成されます。

具体的には、最も粗いレベルを除くすべてのレベルで因数分解された時空間畳み込みを挿入します (図 4b)。これにより、ネットワークの非線形性を高めながら、完全な 3D 畳み込みと比較して計算コストを削減し、1D 畳み込みと同等にすることができます。

時間的注意の計算要件はフレーム数の 2 乗に比例するため、時間的注意は、ビデオの時空間的に圧縮された表現を含む最も粗い解像度でのみ組み込まれます。

低次元の特徴マップを操作することで、計算オーバーヘッドを抑えながら複数の時間的注意ブロックを積み重ねることができます。

研究者は新しく追加されたパラメータをトレーニングし、事前にトレーニングされた T2I の重みを固定したままにします。共通拡張法によって、初期化時に T2V モデルが事前トレーニング済みの T2I モデルと同等になること、つまり独立した画像サンプルのコレクションとしてビデオが生成されるようになることは注目に値します。

しかし、研究者のケースでは、時間的なダウンサンプリングおよびアップサンプリングモジュールのために、この特性を満たすことは不可能でした。

彼らは、これらのモジュールを初期化して、最近傍ダウンサンプリングおよびアップサンプリング操作を実行すると、（損失関数の観点から）適切な出発点が得られることを経験的に発見しました。

アプリケーションショーケース

以下は、テキスト生成ビデオと画像生成ビデオの例です。

画像からビデオへの例では、左端のフレームがモデルの条件として提供されます。

以下は様式化された生成の例です。

開始スタイルのイメージとそれに対応する微調整されたテキストからイメージへの重みのセットが与えられた場合、微調整された重みとモデル空間レイヤーの事前トレーニングされた重みの間で線形補間を実行します。

研究者は、（A）ベクターアートスタイルと（B）リアルなスタイルの結果を示しています。

これは、Lumiere が各空間スタイル (フレームは左から右に表示されます) に合わせてさまざまな動きを創造的に組み合わせることができることを示しています。

以下は、Lumiere を使用したビデオ修復の例です。

研究者は、各入力ビデオ（各フレームの左上隅）に対して、Lumiere を使用してビデオのマスクされた領域をアニメーション化しました。

以下は動画像の例です。

入力画像とマスクのみを指定すると (左)、ラベル付けされた領域が動的で、残りが静的なままのビデオが生成されます (右)。

以下は SDEdit によるビデオ生成の例です。

Lumiere ベースモデルは、TSR カスケードを必要とせずにフルフレームレートのビデオを生成できるため、ダウンストリームアプリケーションにさらに直感的なインターフェイスを提供します。

SDEdit を使用して一貫したビデオスタイル設定を実現することで、この特性を実証します。

最初の行には、指定された入力ビデオのいくつかのフレームが表示され、次の行には対応する編集されたフレームが表示されます。

Gen-2やPikaなどのモデルとの比較と評価

定性評価

研究者たちは、以下の図で彼らのモデルとベースラインの定性的な比較を示しています。

研究者らは、Gen-2 と Pika はフレームあたりの視覚品質は高いものの、その出力は動きが非常に限られており、静止に近いビデオが生成されることが多いことを観察しました。

ImagenVideo は適度な動きを生成しますが、全体的な画質は低くなります。 AnimateDiff と ZeroScope は明確な動きを示しますが、視覚的なアーティファクトが発生しやすい傾向があります。

さらに、生成されるビデオの長さはそれぞれ 2 秒と 3.6 秒と短くなります。

対照的に、研究者の手法では、時間的な一貫性と全体的な品質を維持しながら、動きの振幅が大きい 5 秒間のビデオを生成します。

定量評価

研究者らは、UCF101 上でゼロショットのテキストからビデオへの生成方法を定量的に評価しました。

上記の表 1 は、彼らの方法と以前の研究との間の差異 (FVD) とインセプションスコア (IS) を示しています。

研究者のシステムは競争力のある FVD および IS スコアを達成しました。しかし、以前の研究で議論されたように、これらの指標は人間の知覚を正確に反映するものではなく、低レベルの詳細や、参照 UCF101 データと T2V トレーニングデータ間の分布のシフトの影響を受ける可能性があります。

さらに、このプロトコルは生成されたビデオから 16 フレームのみを使用するため、長時間の動きをキャプチャすることはできません。

ユーザーリサーチ

研究者らは、以前の研究で使用された2つの選択肢強制選択（2AFC）プロトコルを採用した。

プロトコルでは、参加者にランダムに選択されたビデオのペアが示されました。1つは研究者のモデルによって生成され、もう1つはベースライン方式によって生成されました。次に、参加者は、画質と動きの点で優れていると思うビデオを選択するように求められました。

さらに、被験者には、ターゲットのテキストキューに最も正確に一致するビデオを選択するように求められました。研究者らは、Amazon Mechanical Turk (AMT) プラットフォームを使用して、各ベースラインと質問について約 400 人のユーザーから判断を収集しました。

上の図に示すように、研究者の方法はすべてのベースラインよりもユーザーに好まれ、テキストプロンプトとの関連性も高くなっています。

なお、ZeroScope と AnimateDiff はそれぞれ 3.6 秒と 2 秒のビデオしか生成しないため、これらと比較する際には、ビデオの長さに合わせてトリミングしました。

研究者らはさらにユーザー調査を実施し、画像から動画へのモデルをPika、Stable Video Diffusion (SVD)、Gen-2と比較しました。

SVD 画像からビデオへのモデルはテキストに依存していないため、研究者はビデオの品質に調査の焦点を当てていることに注意してください。上の図に示すように、研究者のアプローチはベースラインと比較してユーザーに人気があります。

<<: ジェネレーティブAIがインテリジェントオートメーションを推進する方法

>>: 「段階的に考える」だけでは不十分です。モデルを「より多くのステップで考える」ようにすれば、より有用になります。

AIプロジェクト開発における10の最も一般的な間違い

ブログ

物流と輸送における人工知能の将来的な役割

ブログ

9 つの SOTA GNN よりも強力です。 Google Brainが新しいグラフニューラルネットワークGKATを提案

Google は Gen-2 を殴り、ピカを蹴り、大規模な AI ビデオモデルを開発するために 7 か月間懸命に取り組みました。時空構造の最初の言及、持続時間は壮大なレベルにまで延長される

豊富な機能、抜群の効果

STUNetアーキテクチャがもたらす新たなブレークスルー

アプリケーションショーケース

定性評価

定量評価

AIプロジェクト開発における10の最も一般的な間違い

物流と輸送における人工知能の将来的な役割

9 つの SOTA GNN よりも強力です。 Google Brainが新しいグラフニューラルネットワークGKATを提案

「素晴らしい成果物！」ハードウェア AI パフォーマンステスト用の Python ライブラリがリリースされました

機械学習の運用はサイバーセキュリティに革命をもたらす可能性がある

海外メディア：アップルは2025年までに完全自動運転車を発売する可能性

推薦する

Keras 機能 API によるディープラーニング

2024年のITトレンド、予測、推奨事項

BEV におけるデータセット間レーダーカメラ融合に関する実験的研究

コードを入力せずに機械学習を行うことはできますか?アマゾンウェブサービスが今回大きな動きを見せた

小さなモデル、大きなトレンド！ Googleは2つのモデルを提案した。音量は7倍に減少し、速度は10倍に増加する。

企業は人工知能の可能性に目がくらんでいるのでしょうか?

人工知能は人間に取って代わろうとしているのでしょうか、あるいは人間を支配しようとしているのでしょうか?本当にそうなのでしょうか？

このロボットは食べられますか？科学者は副作用なく食べても安全だと言っている

「アルゴリズムとデータ構造」では、バックトラッキングアルゴリズムの美しさを紹介します。

オペレーティングシステムのプロセススケジューリングアルゴリズムとは何ですか?

何開明のMAE制限が破られ、Swin Transformerと組み合わせることで、トレーニング速度が向上しました