1つのモデルで8つの視覚タスクを処理し、1つの文で画像と動画を生成できます。

1つのモデルで8つの視覚タスクを処理し、1つの文で画像と動画を生成できます。

[[437247]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

そういうモデルもあります。

1文でビデオを生成できます:

ゼロサンプルで実行できるだけでなく、そのパフォーマンスはSOTAにも達します。

その名は「女媧」

「魔法の力を持つヌワヌワ」という名前が示すように、たった1つの文章でビデオを生成するのはこのモデルのスキルの1つにすぎません。

さらに、文章から絵が生まれ、スケッチから画像や動画が生まれ、画像補完、動画予測、画像編集、動画編集——

視覚タスクは全部で8 つあり実際にはすべてを処理できます

彼はまさにオールラウンドプレーヤーです。

これは、Microsoft Research Asiaと北京大学が共同で作成したマルチモーダル事前トレーニングモデルであり、第1回Microsoft Summitで公開されました。

現在、Twitter上で「ちょっとした流行り」となっている。

八種競技にも対応できる「Nuwa」は単体でも悪くない

それで、このオールラウンダーのパフォーマンスはどうでしょうか?

SOTA モデルと直接比較して、さまざまなタスクでのパフォーマンスを確認します。

テキスト生成画像では、「Nuwa」のFID-0スコアはXMC-GANほど良くはないものの、実際の効果としては、「Nuwa」によって生成された画像の方が明らかに優れており、より鮮明で、よりリアルであると言わざるを得ません。

テキストから動画まで、「Nuwa」はあらゆる指標で1位を獲得しました。フレームごとの画像から、その差は明らかです。

ビデオ予測では、すべてのモデルが 64x64 の解像度を使用し、Cond. は予測のフレーム数を表します。

たった1フレームではあったが、Nuwa は FVD スコアを94±2 から 86.9 に下げた。

スケッチを画像に変換すると、「Nuwa」によって生成されたトラックは、SOTA モデルのトラックよりもリアルになります。

ゼロサンプル画像補完タスクでは、「Nuwa」の方が「想像力」が豊かです。

直接的な影響:

さらに、もう 1 つの利点は推論速度で、約 50 秒で画像を生成できます。一方、Paint By Word では推論プロセス中に追加のトレーニングが必要であり、収束するまでに約 300 秒かかります。

スケッチ生成ビデオとテキストガイド付きビデオ編集タスクは、この研究で初めて提案されたもので、現在のところこれに匹敵するものはありません。

直接的な影響:

ご覧の通り、カラーブロックでアウトラインされただけの上のビデオスケッチは、「Nuwa」の手によって対応するビデオを生成することができます。

「Nuwa」は、ダイビングビデオを入力することで、ダイバーがテキストのガイダンスに従って浮上したり、ダイビングを続けたり、さらには空に向かって「泳ぐ」ことも可能にします。

「女媧」は多くのスキルを持っているだけでなく、その一つ一つもかなり優れていると言えます。

どうやってそれを達成するのでしょうか?

操作対象が画像でも動画でも、新しい素材を合成しても、既存の素材を修正しても、優れたパフォーマンスを発揮できるこのような「Nuwa」は、どのようにして作られたのでしょうか。

実は、難しいことではありません。テキスト、画像、動画は、それぞれ 1 次元、2 次元、3 次元のデータとみなすことができ、それぞれを入力として受け取る 3 つのエンコーダーに対応します。

さらに、3D デコーダーは、画像およびビデオ データを処理するために事前にトレーニングされています。

これら 2 つを組み合わせることで、上記の機能が得られます。

その中で、画像補完、ビデオ予測、画像およびビデオ編集タスクでは、入力画像またはビデオの一部が直接デコーダーに送られます。

エンコーダーとデコーダーはどちらも、空間軸と時間軸の両方のローカル特性を考慮できる3D 近傍自己注意メカニズム(3DNA) に基づいており、次のように定義されます。

W は学習可能な重みを表し、X と C はそれぞれテキスト、画像、ビデオ データの 3D 表現を表します。

このうち、hとwは空間軸上のトークン数、sは時間軸上のトークン数(テキストのデフォルト値は1)、dは各トークンの次元を表します。

C=X の場合、3DNA はターゲット X への自己注意を表します。C≠X の場合、3DNA は条件 C 下でのターゲット X への交差注意を表します。

このメカニズムにより、モデルの計算の複雑さが軽減されるだけでなく、生成される結果の品質も向上します

さらに、このモデルは視覚的なトークン化に VQ-VAE ではなくVQ-GANを使用しているため、生成効果がさらに向上します。

チームについて

第一著者の Chenfei Wu 氏は北京郵電大学で博士号を取得し、現在は Microsoft Research Asia に勤務しています。

共同筆頭著者のJian Liang氏は北京大学出身です。

他の著者には、Microsoft Research Asia の上級研究員 Lei Ji、主席研究員 Fan Yang、共同主任科学者 Daxin Jiang、北京大学の准教授 Fang Yuejian が含まれます。

責任著者は、Microsoft Research Asia の上級研究員兼リサーチ マネージャーである Duan Nan です。

論文の宛先:
https://arxiv.org/abs/2111.12417

<<:  AIの力を活用してITを進化させる

>>:  錬金術師が検証できるようになりました!同国は人工知能トレーナーのための5段階の専門基準を発行した。

ブログ    
ブログ    

推薦する

...

人工知能エンジニアリングについて知らないかもしれない7つのこと

[[387622]]ビジネスの世界が人々の想像よりも速く変化することは周知の事実です。この問題に対処...

Pythonは画像内のすべての顔を認識し、それを表示する機能を実装しています

Python3 を使用して、写真内のすべての顔を認識して表示します。コードは次のとおりです。 # -...

人工知能はこれら12の分野に混乱をもたらし、ホワイトカラー労働者も職を失うことになるだろう

[[192649]]人工知能 (AI) は、今日最もエキサイティングで将来有望な最先端技術の 1 つ...

合成データは AI をより良くすることができるでしょうか?

人工知能 (AI) は指数関数的な成長によりさらに進歩していますが、この最新技術には依然として限界が...

AIは近い将来自己認識できるようになるのでしょうか? Facebook がメタバースへの扉を開く「Ego4D」を発表

ある日、ヘルメットをかぶると、SFのような美しい世界が目の前に浮かび上がるのを想像したことはありませ...

例を見ればそれが分かります! MAXHUBはCOFCOとGuoqiaoyuanの小売業変革を支援します

小売業界の新小売への変革は、業界ではすでに認識されているトレンドであり、真に実装されたインテリジェン...

2020 年の最後の 1 か月間に発生した 1,694 件の AI インシデントを包括的にレビューします。ハイライトは何ですか?

今月、ニュースイベント分析、マイニング、検索システム NewsMiner のデータによると、図 1 ...

2021年の量子コンピューティング研究開発の現状と将来展望

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

ジェネレーティブAIがファッション業界にもたらす変化

業界ではデザインやスキンケアに AI 技術が活用されています。一部の企業は、生成ツールを超えて、コン...

人材に余裕がないわけではありませんが、AI 検査の方がコスト効率が良いのです。

著者 | Tu Chengyeレビュー | Chonglou石炭、電力、化学などの多くの産業では、安...

TransformerはAI分野を支配するのでしょうか?結論を出すのは時期尚早だ

自然言語処理タスクから始まり、画像分類と生成の分野で活躍する無敵のトランスフォーマーは、次の伝説とな...

呉俊:人工知能は今後20年間で大きな発展を遂げないかもしれません。

[[264168]] 3年前、人工知能の時代が始まり、「人工知能はますます多くのこと、ほぼすべての...

コストを70%削減する秘訣: これらの企業はAIをコスト効率よく活用する方法を見つけました

過去 6 か月間で、ChatGPT によってもたらされた AI の人気は誰もが直感的に感じることがで...