「Nuwa」のAIバージョンが登場!テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

「Nuwa」のAIバージョンが登場!テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

 

最近、視覚合成というタスクが大きな注目を集めています。 NVIDIA の GauGAN は数日前にバージョン 2.0 をリリースしたばかりですが、現在では新しいビジュアル合成モデル Nüwa も人気が出てきています。

GauGANと比較すると、Nuwaの生成モードはより多様です。テキスト落書きから画像を生成するだけでなく、テキストからビデオを生成することもできます。

VQ-VAE などの離散化 VAE スキームの出現により、DALL-E (画像) や GODIVA (ビデオ) などの視覚合成タスクに、効率的で大規模な事前トレーニングが徐々に適用されるようになりました。これらのモデルは大きな成功を収めていますが、まだいくつかの制限があります。画像とビデオを別々に処理し、そのうちの 1 つを生成することに重点を置いているため、モデルが画像とビデオの両方のデータからメリットを得ることが制限されます。対照的に、 Nuwa は、画像およびビデオ処理を含む 8 つの下流視覚タスクで優れた合成効果を発揮する、統合されたマルチモーダル事前トレーニング済みモデルです

論文アドレス: https://arxiv.org/pdf/2111.12417.pdf

GitHub アドレス: https://github.com/microsoft/NUWA

モデルの概要

この研究では、言語、画像、ビデオをカバーし、さまざまな視覚合成タスクに使用できる一般的な 3D トランスフォーマー エンコーダー デコーダー フレームワーク (下図を参照) を提案します。このフレームワークは、テキストまたは視覚スケッチを入力として受け取る適応型エンコーダーと、8 つの視覚合成タスクで共有されるデコーダーで構成されています。

「女媧」の全体構成図。

このフレームワークには、空間と時間におけるローカルな特徴を考慮するための 3D Nearby Attention (3DNA) メカニズムも含まれています。 3DNA は計算の複雑さを軽減するだけでなく、生成される結果の視覚的な品質も向上させます。いくつかの強力なベースラインと比較して、「Nuwa」はテキストから画像への生成、テキストからビデオへの生成、ビデオ予測などで SOTA 結果を達成しました。さらに、「Nuwa」は驚異的なゼロサンプル学習能力も実証しました。

「女媧」の 8 つのクロスモーダル合成モードは次のとおりです。

テキストを画像に:

画像への落書き:

画像の完成:

テキストに基づいて画像を編集します。

テキストをビデオに:

ビデオ予測:

グラフィティからビデオへ:

テキストに基づいて編集されたビデオ:

実験結果

合成結果はいくつかの実験を通じて評価されます。

まず、研究者らは、290万のテキストと画像のペアを含むテキストから画像への変換(T2I)生成用の概念キャプション、727,000本のビデオを含むビデオ予測(V2V)用の瞬間、および241,000のテキストとビデオのペアを含むテキストからビデオへの変換(T2V)生成用のVATEXデータセットの3つのデータセットで「Nuwa」を事前トレーニングしました。

SOTA方式との比較

テキストから画像への変換 (T2I) の微調整: この調査では、表 1 と図 3 に示すように、MSCOCO データセットでの「Nuwa」のパフォーマンスを比較しました。表 1 では、「Nuwa」は CogView よりも大幅に優れており、FID-0 は 12.9、CLIPSIM は 0.3429 でした。 XMC-GAN の FID-0 は 9.3 で Nuwa よりも優れていますが、図 3 に示すように、Nuwa の方がよりリアルな画像を生成できます。特に最後の例では、「Nuwa」によって生成された少年の顔がより鮮明になり、少年の横にある風船も非常にリアルになっています。

テキストからビデオへの変換 (T2V) の微調整: Kinetics データセットで Nuwa を評価し、結果を表 2 と図 4 に示します。表 2 では、Nuwa がすべての指標で最高のパフォーマンスを達成しています。

図 4 では、この研究では Nuwa の強力なゼロサンプル生成機能も実証されており、プールでゴルフをしたり、海で走ったりするなど、これまでに見たことのない画像を生成できます。

ビデオ予測 (V2V) の微調整: この研究では、「Nuwa」を BAIR Robot Pushing データセット上の他のモデルと比較しました。結果は表 3 に示されています。公平な比較のため、すべてのモデルで 64×64 の解像度を使用しています。条件(Cond.)として与えられたフレームは 1 つだけでしたが、Nuwa は SOTA FVD スコアを 94±2 から 86.9 に下げました。

スケッチから画像への (S2I) 微調整: この研究では、図 5 に示すように、MSCOCO に関する実験を実施します。 Taming-Transformers や SPADE と比較すると、Nuwa は多種多様なリアルな車を生成し、バスの窓の反射もはっきりと見えます。

画像補完 (I2I) ゼロショット評価: 塔の上部が与えられている場合、Taming Transformers モデルと比較して、Nuwa は周囲の建物、湖、花、木、山などを含む塔の下部のより豊かな想像を生成できます。

テキスト指示画像処理 (TI2I) ゼロショット評価: Nuwa は、画像の他の部分を変更せずに、高品質のテキスト一貫性のある結果を生成する強力な処理能力を実証します。

アブレーション実験

図 5 は、テキストからビデオへの (T2V) 生成タスクにおけるマルチタスク事前トレーニングの有効性を示しています。この研究では、挑戦的なデータセットMSR-VTT(自然な説明と実際のビデオを含む)で実験を実施しました。 「Nuwa」のFID-vidは47.68、CLIPSIMは0.2439です。

図9はテキストガイド付きビデオ処理(TV2V)を示しています。最初の行は、ダイバーが潜っている元のビデオ フレームを示しています。2 行目は、ダイバーが水面に向かって泳いでいるところを示しています。3 行目は、ダイバーが海の底まで泳げることを示しています。ダイバーが空に飛んでいる写真を生成したい場合はどうすればよいでしょうか。 「ヌワ」はそれを実現できます。写真からわかるように、ダイバーはロケットのように空に飛び立ちます。

<<:  Python における 7 つの主要なキーワード抽出アルゴリズムのベンチマーク

>>:  何開明のMAEが人気になってから、ビジュアルトランスフォーマーを整理したいですか?この記事は100以上の

推薦する

OpenAIの謎の新モデルQ*が暴露された。取締役会に警告するにはあまりにも強力だったため、ウルトラマン解任の導火線になるかもしれない

OpenAI 宮殿ドラマが終わったばかりですが、すぐにまた別の騒動が勃発しました。ロイター通信は、ア...

...

サム・アルトマンは、AGI が 2030 年までに登場し、GPT-10 の知能が全人類の知能の合計を超えると予測しています。

「人類は2030年までにAGIを開発するかもしれない。」サム・アルトマンは最近のポッドキャストのイ...

体験談まとめ VB.NET 暗号化アルゴリズムの分類

家が施錠されていなければ、誰でも勝手に入ることができ、暗号化なしでデータを勝手に変更できてしまうと、...

BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

米裁判所、人工知能コンピューターは発明を特許できないと判決

[[421713]]人工知能(AI)がその発明に対して特許を申請できるかどうかに関して、米国連邦政府...

...

このオープンソースプロジェクトは、Pytorchを使用して17の強化学習アルゴリズムを実装しています。

強化学習は過去 10 年間で大きな進歩を遂げ、現在ではさまざまな分野で最も人気のあるテクノロジーの ...

...

流行後、生体認証はどこに向かうのでしょうか? 焦点は「手」に移るのでしょうか、それとも「頭」に移るのでしょうか?

庚子年の初めに、突然の疫病が中国全土に広がり、人々は突然「2003年を夢見ている」ような気分になった...

年齢を測るAI顔認識

Instagramは、顔をスキャンして年齢を推定できるサードパーティ企業Yotiが開発したAIツール...

360 が顔認識分野に参入。「セキュリティ」の壁をどう克服するか?

スマートフォンや駅で顔認識技術が大規模に導入され始めており、誰もがこの新しい技術に精通しているはずで...

...

2020 年のトップ 10 テクノロジー トレンド

変化だけが唯一不変です。これは私たちの職業生活にも当てはまります。最近はテクノロジーが非常に急速に発...