拡散モデルを使用してビデオを生成することもでき、その結果は非常に印象的です。新しいSOTAが達成されました。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

最近、拡散モデルが本当に人気になってきました。

以前、OpenAIはこれを使用して、長年チャートを独占していたGANを打ち負かしましたが、今度はGoogleがそれに倣い、ビデオ拡散モデルを提案しました。

画像生成と同様に、最初の試行で印象的なパフォーマンスを示しました。

たとえば、「花火」と入力すると、次の効果を生成できます。

スクリーンには肉眼で見ても本物のように見える花火が映し出されました。

生成されたビデオをより長く、より高解像度にするために、著者らはこの拡散モデルに新しいサンプリング方法も導入しました。

最後に、モデルは無条件ビデオ生成タスクで新しい SOTA を達成しました。

一緒に見ましょう。

画像拡散モデルからの拡張

この拡散ビデオモデルは、標準画像拡散モデル UNet から拡張されています。

UNet は、残差によって接続された空間ダウンサンプリングチャネルとアップサンプリングチャネルに分割されたニューラルネットワークアーキテクチャです。

ネットワークは、複数の層の 2D 畳み込み残差ブロックで構成され、各層の後に空間注意ブロックが続きます。

固定数のフレームを持つブロックを使用し、3D U-Net を空間と時間で分解することで、ビデオモデルに拡張できます。

具体的には：

まず、各 2D 畳み込みを 3D 畳み込み(空間のみ)に変更します。たとえば、3x3 畳み込みを 1x3x3 畳み込みに変更します(最初の軸はビデオフレームをインデックスし、2 番目と 3 番目の軸は空間の高さと幅をインデックスします) 。

各空間注意ブロックにおける注意は、依然として空間次元に焦点を合わせています。

次に、各空間注意ブロックの後に時間注意ブロックが挿入されます。この時間注意ブロックは最初の軸に注意を払い、空間軸をバッチ軸として扱います。

このようにビデオ Transformer 内の時空間注意を分解すると、計算がより効率的になることはよく知られています。

このようにして、モデルはビデオと画像で共同トレーニングすることができ、この共同トレーニングはサンプル品質の向上に非常に役立ちます。

さらに、より長く、より高解像度のビデオを生成するために、著者らは新しい調整手法である勾配法を導入しました。

主にモデルのサンプリングプロセスを変更し、勾配ベースの最適化を使用してノイズ除去データの条件付き損失を改善し、モデルの自己回帰をより多くのタイムステップとより高い解像度に拡張します。

条件なしと条件なしのテキスト生成のパフォーマンスを評価する

無条件ビデオ生成の場合、既存のベンチマークでトレーニングと評価が実行されます。

このモデルは最終的に最高の FID スコアと IS スコアを達成し、以前の SOTA モデルをはるかに上回りました。

テキスト条件付きビデオ生成のために、著者らは空間解像度 64x64 ピクセルのキャプション付きビデオ 1,000 万本のデータセットでトレーニングを行いました。

これまでのビデオ生成モデルでは、さまざまな GAN、VAE、フローベースモデル、自己回帰モデルが使用されていました。

したがって、テキストからビデオを生成する拡散モデルの結果が報告されるのもこれが初めてです。

下の図は、分類器ガイダンスがない場合のモデル生成品質への影響を示しています。他の非拡散モデルと同様に、ガイダンスを追加すると、個々の画像の忠実度が向上します(右側のビデオ拡散モデルでは、画像がよりリアルで鮮明であることがわかります) 。

△写真はランダムにキャプチャされたビデオフレームです

最後に、著者らは、提案した勾配法が長いビデオを生成する際に従来の方法よりも確かに多様であり、生成されたサンプルがテキストと一致することをより確実にできることも検証しました。

△右は勾配法

論文アドレス: https://arxiv.org/abs/2204.03458

プロジェクトホームページ: https://video-diffusion.github.io/

<<: Web3.0時代: インターネット上で作成したものはすべてあなたのものになります

>>: 米国はチップ供給を遮断、ロシアはリソグラフィー装置の再構築を決定

Point Transformer V3: よりシンプルに、より速く、より強力に!

拡散モデルを使用してビデオを生成することもでき、その結果は非常に印象的です。新しいSOTAが達成されました。

画像拡散モデルからの拡張

条件なしと条件なしのテキスト生成のパフォーマンスを評価する

Point Transformer V3: よりシンプルに、より速く、より強力に!

人工知能に置き換えられる可能性が最も高い職業トップ10。今年の転職ではこの罠に陥らないように！

企業は顧客サービスロボットをどのように選択すべきでしょうか?

AI+CRMの啓示：人工知能は、アプリケーションシナリオに実装された場合にのみ、大きな可能性を発揮できます。

AI が顧客中心主義で債権回収サイクルを変革する方法

OpenAI DALL-E 3モデルには「不適切なコンテンツ」を生成する脆弱性があり、マイクロソフトの従業員はそれを報告した後に「口止め命令」を受けた。

ChatGPT は検索エンジンに取って代わることができますか?

ChatGPTへの対処方法

生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

推薦する

工業情報化省：人工知能やブロックチェーンなどの最先端技術の導入と統合を推進

人間を倒すのは人間自身であり、人工知能は人間を倒すだろう

あなたが書いた ML コードはどれくらいのメモリを占有しますか?これはとても重要なことですが、多くの人がまだそれを理解していません。

ミストラル・ミディアムが誤って漏洩？このリストのトップにランクインした謎のモデルは、AIコミュニティで多くの議論を巻き起こしました

2019 年のトップ 5 ディープラーニングコース

AIが人種差別や性差別も学習したのはなぜでしょうか？

人工知能教師が将来果たす8つの役割

最高速度：250fps！リアルタイムの高性能車線検出アルゴリズムLaneATT

注目すべき新たな AI 統計とトレンド

スタンフォード大学がオープンソースのモーションキャプチャアプリケーションOpenCapを発表: 携帯電話を使用して従来のコストのわずか1%で迅速にデータを収集