誰もが映画の「監督」！ MSRA、北京大学、その他の大学が提案：ビデオ、映画、短編ビデオ生成モデル

Stable DiffusionとMidjourneyの人気以来、人々は画像生成の分野における人工知能技術の強力な能力を目撃してきました。

Stable Diffusion のオープンソース化により、カスタマイズされた生成モデルコミュニティの確立がさらに促進され、画像生成の急速な発展が可能になりました。

しかし、より複雑で表現力豊かなビデオ生成の分野では、高品質のビデオコンテンツを生成できるモデルが不足しており、映画や短編ビデオなどのさまざまなタイプのダウンストリームビデオの作成はさらに「夢物語」です。

このジレンマを打破するために、Microsoft Research Asia (MSRA) はいくつかの大学と提携し、ビデオ生成の分野における一連の研究を提案しました。この研究では、基本的な生成モデルと、下流のビデオ生成タスクを実装するためのアプリケーションモデルを取り上げています。

そのうち2つの作品がACM Multimedia 2023に採択されました。

基本モデル

まず、北京大学とMSRAの合同チームは、画像生成モデルをビデオ生成に拡張する問題について詳細な研究を行い、基本的なビデオ生成モデルVideoFactoryを提案しました。

著者リスト: 王文静、楊歓、托子曦、何慧国、朱俊塵、傅建龍、劉嘉英

論文アドレス: https://arxiv.org/abs/2305.10874

1. 背景と動機

画像生成と比較すると、ビデオ生成はより困難であり、空間領域での単一フレームモデリングと時間領域でのフレーム間モーションモデリングの両方が含まれます。

しかし、大規模で高品質な画像データと比較すると、既存のビデオデータセットの品質と規模には重大な欠陥があります。

データセットの制限により、高品質のビデオ生成モデルをゼロから構築することは非常に困難です。そのため、ほとんどの研究では、より便利で効率的な、事前トレーニング済みの画像生成モデルをビデオ生成に拡張するソリューションを採用しています。

このような状況において、事前トレーニング済みの画像生成モデルに時間情報を効果的に統合する方法が研究の焦点となっています。

既存の研究では、通常、独立した 1 次元畳み込みモジュールと注意モジュールがビデオ生成モデルに散在的に追加されるため、時空間情報の相互作用が不十分になります。

同時に、現在利用可能なビデオデータセットの品質も不十分であり、既存の作業の生成品質が制限されています。

その中でも、代表的な WebVid-10M データセットは解像度が不十分 (360P) であり、画像には明らかな透かしが含まれています。

2. 方法と貢献

2.1 交換可能な時空間クロスアテンションメカニズムに基づくモデル設計

従来の時空間相互作用モジュールの設計を図 (a) ～ (c) に示します。これらのアーキテクチャは、各フレームの空間操作を独立して処理しますが、時間操作では各空間位置に対して複数のフレームを考慮します。このアプローチでは、時空間情報の重要な相互作用が無視されます。

(a)-(c) の自己注意メカニズムとは異なり、論文の著者らは、空間領域モジュールと時間領域モジュールの間に相互注意メカニズムを導入することを提案しています。つまり、時間領域と空間領域の機能が注意メカニズムのクエリとキーとして交換され、2 つの情報を完全に統合して相互作用します。計算オーバーヘッドを削減するために、 3D ウィンドウコンピューティングモード(3DW-MCA) がさらに採用されています。

この設計により、より多くの時空間情報相互作用が促進され、時空間ドメイン特性が強化されます。完全なネットワーク構造を下図に示します。

実験結果によると、交互クロスアテンションメカニズムにより、ネットワークの時空間情報をモデル化する能力が大幅に向上しました。同時に、3Dウィンドウのアテンション最適化により、計算オーバーヘッド（実行時間とビデオメモリの消費を含む）が大幅に削減され、ネットワークの生成パフォーマンスがさらに向上しました。

2.2 初の大規模高品質ビデオ生成データセット

豊富なテキストとビデオのデータペアは、オープンドメインのテキストからビデオへの生成モデルをトレーニングするための前提条件です。

しかし、既存のテキストからビデオへのデータセットは規模や品質が常に制限されており、高品質のビデオ生成モデルの構築に影響を与えます。

論文の著者は、既存のデータセットの規模と品質を詳細に分析し、高画質、大規模、強力な注釈という要件を満たす業界初のテキストビデオデータセット HD-VG-130M を提案しました。

この研究ではまずHD-VILA-100M [2]に基づいてビデオラベルをサンプリングし、YouTubeからオリジナルのHDビデオを収集します。

元のビデオには複雑なシーン遷移があり、生成モデルが時間的相関関係を学習するのに適していないため、PySceneDetect を使用してこれらの元のビデオ内のシーンを検出してセグメント化し、最終的に 1 億 3000 万の単一シーンのビデオクリップを取得します。

さらに、著者らは各ビデオクリップの中心フレームをキーフレームとして抽出し、BLIP-2を使用して各ビデオクリップのテキスト説明としてキーフレームに説明テキストを追加しました。

HD-VG-130M のすべてのビデオクリップは単一のシーンであるため、ほとんどの場合、キーフレームの説明はクリップ全体のコンテンツを十分に表すものになります。

この研究では、ビデオの種類、ビデオの長さ、説明テキストの長さという 3 つの側面からデータセットの包括的な分析を行い、データセット内のビデオが多様性に富み、長さとテキストの長さの両方がビデオ生成モデルのトレーニングに適していることを確認します。

提案された大規模高品質データセット HD-VG-130M をトレーニングに使用することで、ネットワークの数値指標が大幅に改善され、生成されたサンプルに透かしがなくなるなど、生成された視覚効果が大幅に最適化されました。

3. 実験結果

この研究では、事前トレーニング済みの画像生成ネットワークとして LDM を使用し、公開されている WebVid-10M と HD-VG-130M を共同トレーニングに使用します。

推論中に、4 倍の事前トレーニング済み超解像度ネットワークが結合され、1376 x 768 の高解像度ビデオが生成されます。

3.1 数値指標

この研究では、ゼロショット法と非ゼロショット法を比較する複数のデータセットに対する広範な実験を実施します。

UCF-101 実験では、VideoFactory はゼロショット設定で他の同様のモデルを大幅に上回り、FVD インジケーターを改善しました。

MSR-VTT を使用した実験では、この方法で生成されたサンプルは入力テキストと非常に高い一致度を持つことが実証されました。

WebVid-10M では、著者らはパフォーマンス評価のために 5K の独立したテストセットを選択し、この方法は生成指標の点で他の既存の方法を大幅に上回りました。

最後に、この方法は手動で評価され、評価指標には、ビデオの画質、テキストとビデオコンテンツの一致度、全体的なビデオ効果の 3 つの側面が含まれていました。

オープンソースの方法と比較すると、VideoFactory は評価者から圧倒的に高く評価されました (全体の 93% が好評価)。

同時に、VideoFactory は、そのパフォーマンスを現在の超大規模クローズドソースモデルと比較することも試みました。この作業では、超小型モデルスケール (パラメーターのわずか 12% ～ 21%) で、これらのモデルによって公開された優れたサンプルと同等のパフォーマンスを達成しました。

3.2 視覚効果

この研究では、Imagen Video[3]、Make-A-Video[4]、Video LDM[5]との視覚的な比較も示しています。

注目すべきは、比較対象となった手法はすべて現在オープンソース化されていない大規模なモデルであり、比較対象となったサンプルはすべて各手法の対応するホームページ上の優れた表示サンプルであるということです。

Make-A-Video は 1:1 ビデオのみを生成するため、ユーザーエクスペリエンスが制限されます。

Imagen Video や Video LDM と比較すると、この作品のモデルは、より鮮明なディテールを持つパンダやゴールデンレトリバーを生成します。

同時に、この研究では、生成されたサンプルと他の既存のオープンソースモデルとの比較も示しています。この研究は、画像の構成、時間的一貫性などの点で大きな主導的効果を持っていることがはっきりとわかります。

生成されたサンプルが増えると、この作業の高品質な一般化と安定性が実証されます。

この作品のプロジェクトホームページはまだ公開されていませんが、編集者は著者がデータセット GitHub プロジェクト (https://github.com/daooshee/HD-VG-130M) を構築していることを発見しました。このデータセットは著者に電子メールを送信することで申請できます。

アプリケーションモデル

チームは基本モデルに基づいて 2 つのダウンストリームビデオ生成タスクを実装し、基本モデルのパフォーマンスを最大限に引き出し、ユーザーと直接対話して優れたエクスペリエンスを実現しました。

1. ムービー生成モデル MovieFactory

中国電子科技大学やMSRAなどの研究機関の研究者は、完全に自動化された映画生成モデルを提案した。

ユーザーは簡単な映画のテーマを指定するだけで、モデルは映画レベルの品質 (3072 x 1280)、映画スタイル (複数のシーン)、音楽を備えた高品質の映画を生成するのに役立ちます。

現在、この論文はACM Multimedia 2023 Brave New Idea (BNI)に採択されています。

著者リスト: Zhu Junchen、Yang Huan、He Huiguo、Wang Wenjing、Tuo Zixi、Zheng Wenhuang、Gao Lianli、Song Jingkuan、Fu Jianlong

論文アドレス: https://arxiv.org/abs/2306.07257

1.1 方法設計

著者らは、既存の大規模な言語および画像生成モデルを組み合わせて、複数のシーンを生成できるビデオジェネレーターを構築し、検索モデルを使用してオーディオ部分の生成を支援しました。

高品質のマルチシーンを生成するには、ビジュアル生成モデルに複数のガイドテキストが必要です。

この作品では、ユーザーが入力した単純かつ高度に一般化されたテキストを、映画に必要な詳細な「脚本」に変えるために、ChatGPT を利用してテキストを拡張し、充実させています。

著者はこの機能を実現するために一連のプロンプトを設計しました。これらのプロンプトは、ChatGPT が脚本作成ガイドラインに準拠する一連のスクリプトを生成すると同時に、ユーザーが指定したトピックに革新的でユニークな要素を導入するようにガイドします。さらに、スクリプトはビデオ生成モデルの機能を効果的に活用することもできます。

スクリプトを使用すると、ビデオ生成モデルは各シーンの生成を完了できます。

超ワイドスクリーン画像や画像スタイルなど、映画と通常のビデオ領域の違いを考慮してください。しかし、高品質な映画に関する関連データは非常に少ないため、事前学習済みの基本モデルを映画生成に迅速に移行する必要があります。

このモデルは、上で紹介した基本モデル VideoFactory とほぼ一致しており、高速なビデオドメイン移行を実現するために新しいモジュールが設計されています。

画像生成モデルからビデオ生成モデルに拡張する際に、すべてのネットワークパラメータをトレーニングした以前の研究とは異なり、この研究ではすべての事前トレーニング済みパラメータを固定し、ビデオの空間情報に適合するように新しいレイヤーを追加しました。

この設計には 2 つの利点があります。

1) 事前トレーニングのすべての知識を完全に保持できるため、トレーニングデータセットに含まれていないコンテンツやシーンを生成できます。これは、映画のファンタジーシーンの生成に特に重要です。

2) 新しいモジュールには複数のビデオドメイン分布を組み込むことができるため、どのビデオドメインデータでもトレーニングによってデータドメインの偏差の問題が発生することがなくなり、ネットワークが高品質の画像を生成する能力が維持されます。

この設計に基づいて、MovieFactory は事前トレーニングビデオからムービーイメージの生成に迅速に移行できます。

映画には、豊かな画像とともに、音楽や効果音も必要です。これに対応して、著者らは、画像と映画の脚本に基づいてビデオに適切なオーディオを一致させる検索モデルを使用することを提案しました。

この研究では、テキストから音声への検索モデルとビデオから音声への検索モデルの両方を使用して、音響効果の豊かさと合理性を確保しています。

同時に、BGMの選択については、ChatGPTを使用してプロットとトーンを要約し、推奨されたトーンのカテゴリと音楽情報検索テクノロジーを組み合わせて、適切な音楽トラックを特定しました。

1.2 ビデオ生成

著者らは、基本的な画像生成モデルとしてStable Diffusion 2.0を選択し、基本モデルで提案されているWebVid-10MとHD-VG-130Mを使用して基本生成モデルを共同でトレーニングし、少量の映画データセットを使用して画像をフィッティングしました。最後に、4 倍のビデオ超解像度モデルを使用して、3072×1280 の高解像度の超ワイドスクリーンムービービデオを取得しました。

ビデオ部分の生成結果は、モデルが鮮明な画像（透かしなし）とスムーズなオブジェクトの動きを備えた高品質のビデオを生成できることを示しています。生成されたビデオは、現実のシーンと SF シーンの両方をカバーし、豊富な詳細を表示します。

ユーザーは、「宇宙飛行士の宇宙冒険」などの簡単な映画のトピックを提供するだけで、モデルが自動的に映画のスクリプトを生成し、音声付きの複数シーンの高品質映画を生成します。

2. 短編動画生成モデル MobileVidFactory

中国電子科技大学、MSRA、ロチェスター大学などの機関による別の研究では、モバイルデバイス向けの完全に自動化された短編ビデオ生成モデルが提案されました。

ユーザーとの簡単な自然言語による対話だけで、モデルは縦画面、カスタマイズされたコンテンツ、音楽を含む短いビデオを生成できます。

現在、この論文はACM Multimedia 2023 Demoに採択されています。

著者リスト: Zhu Junchen、Yang Huan、Wang Wenjing、He Huiguo、Tuo Zixi、Yu Yongsheng、Zheng Wenhuang、Gao Lianli、Song Jingkuan、Fu Jianlong、Luo Jiebo

リンク: https://arxiv.org/abs/2307.16371

共著者のLuo Jiebo教授は、以前のビデオ生成研究latent-shift[1]の著者でもあることは注目に値します。

2.1 方法設計

この研究は、現在最も人気のある短編動画を直接ターゲットにしています。効率的な動画生成モデルと音声検索モデルを、テキストベースの音声合成技術と組み合わせて、現在の短編動画のスタイルに適合した生成フレームワークを構築します。

フレームワークは、基本生成部分とオプションのカスタマイズされた生成部分の 2 つの部分に分かれています。

基本的な生成においては、この作品は MovieFactory と一致しており、視覚コンテンツと聴覚コンテンツを独立して生成します。違いは、この作業ではオプションのビデオ補間モデルを追加して、モデル全体によるビデオ出力の一貫性を向上させることです。

カスタマイズされた生成では、著者はユーザー向けに 2 つのオプションのカスタマイズ機能を設計しました。

まず、このモデルは、作成者がビデオのコンテンツを要約し、創造的なアイデアを表現できるように、ビデオにカスタムテキストステッカーを追加することをサポートしています。特に、テキストオーバーレイは聴覚障害者のアクセシビリティを促進し、多様なユーザーのニーズに対応します。

さらに、個人的なタッチを加え、短いビデオのストーリーテリングを強化し、全体的なリアリティとインタラクティブ性を向上させるために、このモデルではユーザーがビデオに吹き替えを追加できます。

モデルは、ユーザーが提供したテキストに基づいて、事前にトレーニングされた TTS (Text-To-Speech) を使用してテキストを吹き替えに変換します。このプロセスでは、ユーザーは好みの音声を選択でき、英語や中国語などのさまざまな言語が適切にサポートされています。

2.2 ショートビデオの生成

この作業により、生成された画像の品質が短編動画の構成や美観と一致することが保証されます。

最終的なショートビデオ生成では、豊かなクリエイティブ表現が実現され、ショートビデオの楽しさが実現されます。

<<: この「PhD Study Simulator」はとてもリアルです。何回諦めるように説得されるか試してみてください。

>>: 老黄の「ナイフスキル」が変わった！ Nvidiaの次世代RTX 50シリーズグラフィックカードの詳細がリーク、コードネームはBlackwell、AMDが王者に挑戦するにはまだ長い道のり

誰もが映画の「監督」！ MSRA、北京大学、その他の大学が提案：ビデオ、映画、短編ビデオ生成モデル

基本モデル

1. 背景と動機

2. 方法と貢献

3. 実験結果

アプリケーションモデル

1. ムービー生成モデル MovieFactory

2. 短編動画生成モデル MobileVidFactory

ソフトウェアは世界を飲み込んでいるが、AIはソフトウェアを飲み込んでいる

2020年の人工知能レビュー：AIが時代に知性をもたらす

人工知能が従業員の定着率向上の秘訣を明らかにする

Keras 機能 API によるディープラーニング

顔認識は「スマート交通」に役立ち、3つの側面でその価値を実証する

百度の女性デーのポスターはスマートライフの姿を描いている：人工知能は女性をより自由にする

ルーティングの基本アルゴリズム設計の目標とタイプ

イノベーションを統合し、障壁を下げ、PaddlePaddleは人工知能を推進して大規模な工業生産を実現します。

推薦する

2019年に人工知能をマスターするには？世界のAI専門家が答えを教えます

AIは当面、都市のゴミ出しを支援できないかもしれない

疫病と戦うための新しい技術！北京で3Dプリント/コピー防護マスクの開発に成功

二足歩行ロボットは撮影以外にも応用シーンが多すぎて問題になっている

新しい時代を受け入れよう: スマートホームが贅沢な生活を再定義する

自然言語処理の実践: 機械学習によく使われるツールとテクニック

統合はテクノロジー分野で強力なトレンドとなるだろう

GoogleからNvidiaまで、テクノロジー大手はAIモデルを解読するためにレッドチームハッカーを採用している

自動運転のための多視点視覚認識の理解

ネイチャー誌の年間トップ10科学者・イベント：天問1号の主任設計者、張栄橋氏がリスト入り

Leetcode の基本アルゴリズム: スライディングウィンドウについてお話しましょう