「Nuwa」のAIバージョンが登場！テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

最近、視覚合成というタスクが大きな注目を集めています。 NVIDIA の GauGAN は数日前にバージョン 2.0 をリリースしたばかりですが、現在では新しいビジュアル合成モデル Nüwa も人気が出てきています。

GauGANと比較すると、Nuwaの生成モードはより多様です。テキスト落書きから画像を生成するだけでなく、テキストからビデオを生成することもできます。

VQ-VAE などの離散化 VAE スキームの出現により、DALL-E (画像) や GODIVA (ビデオ) などの視覚合成タスクに、効率的で大規模な事前トレーニングが徐々に適用されるようになりました。これらのモデルは大きな成功を収めていますが、まだいくつかの制限があります。画像とビデオを別々に処理し、そのうちの 1 つを生成することに重点を置いているため、モデルが画像とビデオの両方のデータからメリットを得ることが制限されます。対照的に、 Nuwa は、画像およびビデオ処理を含む 8 つの下流視覚タスクで優れた合成効果を発揮する、統合されたマルチモーダル事前トレーニング済みモデルです。

論文アドレス: https://arxiv.org/pdf/2111.12417.pdf

GitHub アドレス: https://github.com/microsoft/NUWA

モデルの概要

この研究では、言語、画像、ビデオをカバーし、さまざまな視覚合成タスクに使用できる一般的な 3D トランスフォーマーエンコーダーデコーダーフレームワーク (下図を参照) を提案します。このフレームワークは、テキストまたは視覚スケッチを入力として受け取る適応型エンコーダーと、8 つの視覚合成タスクで共有されるデコーダーで構成されています。

「女媧」の全体構成図。

このフレームワークには、空間と時間におけるローカルな特徴を考慮するための 3D Nearby Attention (3DNA) メカニズムも含まれています。 3DNA は計算の複雑さを軽減するだけでなく、生成される結果の視覚的な品質も向上させます。いくつかの強力なベースラインと比較して、「Nuwa」はテキストから画像への生成、テキストからビデオへの生成、ビデオ予測などで SOTA 結果を達成しました。さらに、「Nuwa」は驚異的なゼロサンプル学習能力も実証しました。

「女媧」の 8 つのクロスモーダル合成モードは次のとおりです。

テキストを画像に:

画像への落書き:

画像の完成:

テキストに基づいて画像を編集します。

テキストをビデオに:

ビデオ予測:

グラフィティからビデオへ：

テキストに基づいて編集されたビデオ:

実験結果

合成結果はいくつかの実験を通じて評価されます。

まず、研究者らは、290万のテキストと画像のペアを含むテキストから画像への変換（T2I）生成用の概念キャプション、727,000本のビデオを含むビデオ予測（V2V）用の瞬間、および241,000のテキストとビデオのペアを含むテキストからビデオへの変換（T2V）生成用のVATEXデータセットの3つのデータセットで「Nuwa」を事前トレーニングしました。

SOTA方式との比較

テキストから画像への変換 (T2I) の微調整: この調査では、表 1 と図 3 に示すように、MSCOCO データセットでの「Nuwa」のパフォーマンスを比較しました。表 1 では、「Nuwa」は CogView よりも大幅に優れており、FID-0 は 12.9、CLIPSIM は 0.3429 でした。 XMC-GAN の FID-0 は 9.3 で Nuwa よりも優れていますが、図 3 に示すように、Nuwa の方がよりリアルな画像を生成できます。特に最後の例では、「Nuwa」によって生成された少年の顔がより鮮明になり、少年の横にある風船も非常にリアルになっています。

テキストからビデオへの変換 (T2V) の微調整: Kinetics データセットで Nuwa を評価し、結果を表 2 と図 4 に示します。表 2 では、Nuwa がすべての指標で最高のパフォーマンスを達成しています。

図 4 では、この研究では Nuwa の強力なゼロサンプル生成機能も実証されており、プールでゴルフをしたり、海で走ったりするなど、これまでに見たことのない画像を生成できます。

ビデオ予測 (V2V) の微調整: この研究では、「Nuwa」を BAIR Robot Pushing データセット上の他のモデルと比較しました。結果は表 3 に示されています。公平な比較のため、すべてのモデルで 64×64 の解像度を使用しています。条件（Cond.）として与えられたフレームは 1 つだけでしたが、Nuwa は SOTA FVD スコアを 94±2 から 86.9 に下げました。

スケッチから画像への (S2I) 微調整: この研究では、図 5 に示すように、MSCOCO に関する実験を実施します。 Taming-Transformers や SPADE と比較すると、Nuwa は多種多様なリアルな車を生成し、バスの窓の反射もはっきりと見えます。

画像補完 (I2I) ゼロショット評価: 塔の上部が与えられている場合、Taming Transformers モデルと比較して、Nuwa は周囲の建物、湖、花、木、山などを含む塔の下部のより豊かな想像を生成できます。

テキスト指示画像処理 (TI2I) ゼロショット評価: Nuwa は、画像の他の部分を変更せずに、高品質のテキスト一貫性のある結果を生成する強力な処理能力を実証します。

アブレーション実験

図 5 は、テキストからビデオへの (T2V) 生成タスクにおけるマルチタスク事前トレーニングの有効性を示しています。この研究では、挑戦的なデータセットMSR-VTT（自然な説明と実際のビデオを含む）で実験を実施しました。「Nuwa」のFID-vidは47.68、CLIPSIMは0.2439です。

図9はテキストガイド付きビデオ処理（TV2V）を示しています。最初の行は、ダイバーが潜っている元のビデオフレームを示しています。2 行目は、ダイバーが水面に向かって泳いでいるところを示しています。3 行目は、ダイバーが海の底まで泳げることを示しています。ダイバーが空に飛んでいる写真を生成したい場合はどうすればよいでしょうか。「ヌワ」はそれを実現できます。写真からわかるように、ダイバーはロケットのように空に飛び立ちます。

<<: Python における 7 つの主要なキーワード抽出アルゴリズムのベンチマーク