誰もが映画の「監督」! MSRA、北京大学、その他の大学が提案:ビデオ、映画、短編ビデオ生成モデル

誰もが映画の「監督」! MSRA、北京大学、その他の大学が提案:ビデオ、映画、短編ビデオ生成モデル

Stable DiffusionとMidjourneyの人気以来、人々は画像生成の分野における人工知能技術の強力な能力を目撃してきました。

Stable Diffusion のオープンソース化により、カスタマイズされた生成モデル コミュニティの確立がさらに促進され、画像生成の急速な発展が可能になりました。

しかし、より複雑で表現力豊かなビデオ生成の分野では、高品質のビデオコンテンツを生成できるモデルが不足しており、映画や短編ビデオなどのさまざまなタイプのダウンストリームビデオの作成はさらに「夢物語」です。

このジレンマを打破するために、Microsoft Research Asia (MSRA) はいくつかの大学と提携し、ビデオ生成の分野における一連の研究を提案しました。この研究では、基本的な生成モデルと、下流のビデオ生成タスクを実装するためのアプリケーション モデルを取り上げています。

そのうち2つの作品がACM Multimedia 2023に採択されました。

基本モデル

まず、北京大学とMSRAの合同チームは、画像生成モデルをビデオ生成に拡張する問題について詳細な研究を行い、基本的なビデオ生成モデルVideoFactoryを提案しました。

著者リスト: 王文静、楊歓、托子曦、何慧国、朱俊塵、傅建龍、劉嘉英

論文アドレス: https://arxiv.org/abs/2305.10874

1. 背景と動機

画像生成と比較すると、ビデオ生成はより困難であり、空間領域での単一フレーム モデリングと時間領域でのフレーム間モーション モデリングの両方が含まれます。

しかし、大規模で高品質な画像データと比較すると、既存のビデオデータセットの品質と規模には重大な欠陥があります。

データセットの制限により、高品質のビデオ生成モデルをゼロから構築することは非常に困難です。そのため、ほとんどの研究では、より便利で効率的な、事前トレーニング済みの画像生成モデルをビデオ生成に拡張するソリューションを採用しています。

このような状況において、事前トレーニング済みの画像生成モデルに時間情報を効果的に統合する方法が研究の焦点となっています。

既存の研究では、通常、独立した 1 次元畳み込みモジュールと注意モジュールがビデオ生成モデルに散在的に追加されるため、時空間情報の相互作用が不十分になります。

同時に、現在利用可能なビデオ データセットの品質も不十分であり、既存の作業の生成品質が制限されています。

その中でも、代表的な WebVid-10M データセットは解像度が不十分 (360P) であり、画像には明らかな透かしが含まれています。

2. 方法と貢献

2.1 交換可能な時空間クロスアテンションメカニズムに基づくモデル設計

従来の時空間相互作用モジュールの設計を図 (a) ~ (c) に示します。これらのアーキテクチャは、各フレームの空間操作を独立して処理しますが、時間操作では各空間位置に対して複数のフレームを考慮します。このアプローチでは、時空間情報の重要な相互作用が無視されます。

(a)-(c) の自己注意メカニズムとは異なり、論文の著者らは、空間領域モジュールと時間領域モジュールの間に相互注意メカニズムを導入することを提案しています。つまり、時間領域と空間領域の機能が注意メカニズムのクエリとキーとして交換され、2 つの情報を完全に統合して相互作用します。計算オーバーヘッドを削減するために、 3D ウィンドウ コンピューティング モード(3DW-MCA) がさらに採用されています。

この設計により、より多くの時空間情報相互作用が促進され、時空間ドメイン特性が強化されます。完全なネットワーク構造を下図に示します。

実験結果によると、交互クロスアテンションメカニズムにより、ネットワークの時空間情報をモデル化する能力が大幅に向上しました。同時に、3Dウィンドウのアテンション最適化により、計算オーバーヘッド(実行時間とビデオメモリの消費を含む)が大幅に削減され、ネットワークの生成パフォーマンスがさらに向上しました。

2.2 初の大規模高品質ビデオ生成データセット

豊富なテキストとビデオのデータ ペアは、オープン ドメインのテキストからビデオへの生成モデルをトレーニングするための前提条件です。

しかし、既存のテキストからビデオへのデータセットは規模や品質が常に制限されており、高品質のビデオ生成モデルの構築に影響を与えます。

論文の著者は、既存のデータセットの規模と品質を詳細に分析し、高画質、大規模、強力な注釈という要件を満たす業界初のテキストビデオデータセット HD-VG-130M を提案しました。

この研究ではまずHD-VILA-100M [2]に基づいてビデオラベルをサンプリングし、YouTubeからオリジナルのHDビデオを収集します。

元のビデオには複雑なシーン遷移があり、生成モデルが時間的相関関係を学習するのに適していないため、PySceneDetect を使用してこれらの元のビデオ内のシーンを検出してセグメント化し、最終的に 1 億 3000 万の単一シーンのビデオ クリップを取得します。

さらに、著者らは各ビデオクリップの中心フレームをキーフレームとして抽出し、BLIP-2を使用して各ビデオクリップのテキスト説明としてキーフレームに説明テキストを追加しました。

HD-VG-130M のすべてのビデオ クリップは単一のシーンであるため、ほとんどの場合、キーフレームの説明はクリップ全体のコンテンツを十分に表すものになります。

この研究では、ビデオの種類、ビデオの長さ、説明テキストの長さという 3 つの側面からデータセットの包括的な分析を行い、データセット内のビデオが多様性に富み、長さとテキストの長さの両方がビデオ生成モデルのトレーニングに適していることを確認します。

提案された大規模高品質データセット HD-VG-130M をトレーニングに使用することで、ネットワークの数値指標が大幅に改善され、生成されたサンプルに透かしがなくなるなど、生成された視覚効果が大幅に最適化されました。

3. 実験結果

この研究では、事前トレーニング済みの画像生成ネットワークとして LDM を使用し、公開されている WebVid-10M と HD-VG-130M を共同トレーニングに使用します。

推論中に、4 倍の事前トレーニング済み超解像度ネットワークが結合され、1376 x 768 の高解像度ビデオが生成されます。

3.1 数値指標

この研究では、ゼロショット法と非ゼロショット法を比較する複数のデータセットに対する広範な実験を実施します。

UCF-101 実験では、VideoFactory はゼロショット設定で他の同様のモデルを大幅に上回り、FVD インジケーターを改善しました。

MSR-VTT を使用した実験では、この方法で生成されたサンプルは入力テキストと非常に高い一致度を持つことが実証されました。

WebVid-10M では、著者らはパフォーマンス評価のために 5K の独立したテスト セットを選択し、この方法は生成指標の点で他の既存の方法を大幅に上回りました。

最後に、この方法は手動で評価され、評価指標には、ビデオの画質、テキストとビデオ コンテンツの一致度、全体的なビデオ効果の 3 つの側面が含まれていました。

オープンソースの方法と比較すると、VideoFactory は評価者から圧倒的に高く評価されました (全体の 93% が好評価)。

同時に、VideoFactory は、そのパフォーマンスを現在の超大規模クローズドソース モデルと比較することも試みました。この作業では、超小型モデル スケール (パラメーターのわずか 12% ~ 21%) で、これらのモデルによって公開された優れたサンプルと同等のパフォーマンスを達成しました。

3.2 視覚効果

この研究では、Imagen Video[3]、Make-A-Video[4]、Video LDM[5]との視覚的な比較も示しています。

注目すべきは、比較対象となった手法はすべて現在オープンソース化されていない大規模なモデルであり、比較対象となったサンプルはすべて各手法の対応するホームページ上の優れた表示サンプルであるということです。

Make-A-Video は 1:1 ビデオのみを生成するため、ユーザー エクスペリエンスが制限されます。

Imagen Video や Video LDM と比較すると、この作品のモデルは、より鮮明なディテールを持つパンダやゴールデン レトリバーを生成します。

同時に、この研究では、生成されたサンプルと他の既存のオープンソースモデルとの比較も示しています。この研究は、画像の構成、時間的一貫性などの点で大きな主導的効果を持っていることがはっきりとわかります。

生成されたサンプルが増えると、この作業の高品質な一般化と安定性が実証されます。

この作品のプロジェクトホームページはまだ公開されていませんが、編集者は著者がデータセット GitHub プロジェクト (https://github.com/daooshee/HD-VG-130M) を構築していることを発見しました。このデータセットは著者に電子メールを送信することで申請できます。

アプリケーションモデル

チームは基本モデルに基づいて 2 つのダウンストリーム ビデオ生成タスクを実装し、基本モデルのパフォーマンスを最大限に引き出し、ユーザーと直接対話して優れたエクスペリエンスを実現しました。

1. ムービー生成モデル MovieFactory

中国電子科技大学やMSRAなどの研究機関の研究者は、完全に自動化された映画生成モデルを提案した。

ユーザーは簡単な映画のテーマを指定するだけで、モデルは映画レベルの品質 (3072 x 1280)、映画スタイル (複数のシーン)、音楽を備えた高品質の映画を生成するのに役立ちます。

現在、この論文はACM Multimedia 2023 Brave New Idea (BNI)に採択されています。

著者リスト: Zhu Junchen、Yang Huan、He Huiguo、Wang Wenjing、Tuo Zixi、Zheng Wenhuang、Gao Lianli、Song Jingkuan、Fu Jianlong

論文アドレス: https://arxiv.org/abs/2306.07257

1.1 方法設計

著者らは、既存の大規模な言語および画像生成モデルを組み合わせて、複数のシーンを生成できるビデオ ジェネレーターを構築し、検索モデルを使用してオーディオ部分の生成を支援しました。

高品質のマルチシーンを生成するには、ビジュアル生成モデルに複数のガイドテキストが必要です。

この作品では、ユーザーが入力した単純かつ高度に一般化されたテキストを、映画に必要な詳細な「脚本」に変えるために、ChatGPT を利用してテキストを拡張し、充実させています。

著者はこの機能を実現するために一連のプロンプトを設計しました。これらのプロンプトは、ChatGPT が脚本作成ガイドラインに準拠する一連のスクリプトを生成すると同時に、ユーザーが指定したトピックに革新的でユニークな要素を導入するようにガイドします。さらに、スクリプトはビデオ生成モデルの機能を効果的に活用することもできます。

スクリプトを使用すると、ビデオ生成モデルは各シーンの生成を完了できます。

超ワイドスクリーン画像や画像スタイルなど、映画と通常のビデオ領域の違いを考慮してください。しかし、高品質な映画に関する関連データは非常に少ないため、事前学習済みの基本モデルを映画生成に迅速に移行する必要があります。



このモデルは、上で紹介した基本モデル VideoFactory とほぼ一致しており、高速なビデオ ドメイン移行を実現するために新しいモジュールが設計されています。

画像生成モデルからビデオ生成モデルに拡張する際に、すべてのネットワークパラメータをトレーニングした以前の研究とは異なり、この研究ではすべての事前トレーニング済みパラメータを固定し、ビデオの空間情報に適合するように新しいレイヤーを追加しました。

この設計には 2 つの利点があります。

1) 事前トレーニングのすべての知識を完全に保持できるため、トレーニングデータセットに含まれていないコンテンツやシーンを生成できます。これは、映画のファンタジーシーンの生成に特に重要です。

2) 新しいモジュールには複数のビデオ ドメイン分布を組み込むことができるため、どのビデオ ドメイン データでもトレーニングによってデータ ドメインの偏差の問題が発生することがなくなり、ネットワークが高品質の画像を生成する能力が維持されます。

この設計に基づいて、MovieFactory は事前トレーニング ビデオからムービー イメージの生成に迅速に移行できます。

映画には、豊かな画像とともに、音楽や効果音も必要です。これに対応して、著者らは、画像と映画の脚本に基づいてビデオに適切なオーディオを一致させる検索モデルを使用することを提案しました。

この研究では、テキストから音声への検索モデルとビデオから音声への検索モデルの両方を使用して、音響効果の豊かさと合理性を確保しています。

同時に、BGMの選択については、ChatGPTを使用してプロットとトーンを要約し、推奨されたトーンのカテゴリと音楽情報検索テクノロジーを組み合わせて、適切な音楽トラックを特定しました。

1.2 ビデオ生成

著者らは、基本的な画像生成モデルとしてStable Diffusion 2.0を選択し、基本モデルで提案されているWebVid-10MとHD-VG-130Mを使用して基本生成モデルを共同でトレーニングし、少量の映画データセットを使用して画像をフィッティングしました。最後に、4 倍のビデオ超解像度モデルを使用して、3072×1280 の高解像度の超ワイドスクリーン ムービー ビデオを取得しました。



ビデオ部分の生成結果は、モデルが鮮明な画像(透かしなし)とスムーズなオブジェクトの動きを備えた高品質のビデオを生成できることを示しています。生成されたビデオは、現実のシーンと SF シーンの両方をカバーし、豊富な詳細を表示します。

ユーザーは、「宇宙飛行士の宇宙冒険」などの簡単な映画のトピックを提供するだけで、モデルが自動的に映画のスクリプトを生成し、音声付きの複数シーンの高品質映画を生成します。

2. 短編動画生成モデル MobileVidFactory

中国電子科技大学、MSRA、ロチェスター大学などの機関による別の研究では、モバイルデバイス向けの完全に自動化された短編ビデオ生成モデルが提案されました。

ユーザーとの簡単な自然言語による対話だけで、モデルは縦画面、カスタマイズされたコンテンツ、音楽を含む短いビデオを生成できます。

現在、この論文はACM Multimedia 2023 Demoに採択されています。

著者リスト: Zhu Junchen、Yang Huan、Wang Wenjing、He Huiguo、Tuo Zixi、Yu Yongsheng、Zheng Wenhuang、Gao Lianli、Song Jingkuan、Fu Jianlong、Luo Jiebo

リンク: https://arxiv.org/abs/2307.16371

共著者のLuo Jiebo教授は、以前のビデオ生成研究latent-shift[1]の著者でもあることは注目に値します。

2.1 方法設計

この研究は、現在最も人気のある短編動画を直接ターゲットにしています。効率的な動画生成モデルと音声検索モデルを、テキストベースの音声合成技術と組み合わせて、現在の短編動画のスタイルに適合した生成フレームワークを構築します。


フレームワークは、基本生成部分とオプションのカスタマイズされた生成部分の 2 つの部分に分かれています。

基本的な生成においては、この作品は MovieFactory と一致しており、視覚コンテンツと聴覚コンテンツを独立して生成します。違いは、この作業ではオプションのビデオ補間モデルを追加して、モデル全体に​​よるビデオ出力の一貫性を向上させることです。

カスタマイズされた生成では、著者はユーザー向けに 2 つのオプションのカスタマイズ機能を設計しました。

まず、このモデルは、作成者がビデオのコンテンツを要約し、創造的なアイデアを表現できるように、ビデオにカスタム テキスト ステッカーを追加することをサポートしています。特に、テキスト オーバーレイは聴覚障害者のアクセシビリティを促進し、多様なユーザーのニーズに対応します。

さらに、個人的なタッチを加え、短いビデオのストーリーテリングを強化し、全体的なリアリティとインタラクティブ性を向上させるために、このモデルではユーザーがビデオに吹き替えを追加できます。

モデルは、ユーザーが提供したテキストに基づいて、事前にトレーニングされた TTS (Text-To-Speech) を使用してテキストを吹き替えに変換します。このプロセスでは、ユーザーは好みの音声を選択でき、英語や中国語などのさまざまな言語が適切にサポートされています。

2.2 ショートビデオの生成

この作業により、生成された画像の品質が短編動画の構成や美観と一致することが保証されます。

最終的なショートビデオ生成では、豊かなクリエイティブ表現が実現され、ショートビデオの楽しさが実現されます。

<<:  この「PhD Study Simulator」はとてもリアルです。何回諦めるように説得されるか試してみてください。

>>:  老黄の「ナイフスキル」が変わった! Nvidiaの次世代RTX 50シリーズグラフィックカードの詳細がリーク、コードネームはBlackwell、AMDが王者に挑戦するにはまだ長い道のり

ブログ    
ブログ    

推薦する

世界情報会議が開幕、ロビン・リー、ジャック・マー、劉伝志ら著名人が集結

【51CTO天津6月29日】本日、「偉大な知能時代へ向かう」をテーマとする世界知能会議が天津梅江会議...

トレンド | AIを学ぶには、まず2018年の人工知能に関する13の予測を理解する必要があります

[[214541]] 2017 年は、ウォール ストリート ジャーナル、フォーブス、フォーチュンなど...

人工知能が都市景観をどう変えるのか

人工知能 (AI) とディープラーニングはあらゆるところに存在し、今や都市の景観を一変させる可能性を...

有名人のリアルタイムディープフェイク!名前を入力して数秒で顔を変える

家に座って、数秒でマスクに変身しましょう。見てください、この男はコンピューターの前に座っています。最...

Dianping.com における検索関連性技術の探求と実践

著者: Xiaoya、Shen Yuan、Judy など1. 背景レビュー検索は、Dianping ...

スマートコミュニティにおける人工知能応用の5つのシナリオ

モノのインターネット、クラウド コンピューティング、ビッグ データ、人工知能は、概念からアプリケーシ...

大学は人工知能人材育成に力を入れており、「ロボット工学」専攻が人気に

[[225297]]毎年恒例の「大学入試シーズン」が到来し、受験生や保護者にとって、受験願書の記入は...

マスク氏が自動運転を「ザッカーバーグの家へ行く」ライブ放送、45分間で手動介入は1回のみ:FSD V12は「ベータ版」ではなくなる

マスク氏は実際にテスラを運転して「ザッカー氏の家」まで行き、その全過程は編集なしで生放送された。しか...

...

AIはセルオートマトンを通じてMinecraftで家を建てることを学ぶ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

一般的なスマートカーの7つの技術についてお話ししましょう

ハイテク業界は常に進化しており、毎週新たな革命的な変化が起こっています。当然のことながら、関連するニ...

...

交換されますか? GPT4コードインタープリター完全自動

こんにちは、みんな。今日は、GPT-4 コード インタープリターがデータ分析、科学研究の描画、機械学...

2022 年の人工知能のトレンド: AI はあなたにどのような影響を与えるでしょうか?

ディアナ・リッチー翻訳者: ブガッティレビュアー: Qianshan 2022年以降、人工知能(AI...

スマート農業は収穫アシスタントとなる新しいアップグレードロボットを歓迎する

「農業」は国家の基盤です。基盤がしっかりしていれば国家は平和になります。農業は国民経済の建設と発展を...