バイトダンスの最新のテキスト生成画像AIには、トレーニングセットにテキスト説明付きの画像が含まれていません。

バイトダンスの最新のテキスト生成画像AIには、トレーニングセットにテキスト説明付きの画像が含まれていません。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

テキスト画像データがなくても、AI はテキストを読んだり絵を描いたりすることを学習できるでしょうか?

バイトコード最新の text2image モデルはまさにそれを実現します。

実験データは、その効果が VQGAN-CLIP よりも現実的であり、特にその一般化能力は大量のテキスト画像データでトレーニングされた多くのモデルよりもはるかに優れていることを示しています。

えっと?テキスト注釈なしで、AI は各画像が何を表しているかをどうやって知ることができるのでしょうか?

このモデルはどのようにトレーニングされましたか?

テキストトレーニングなしでテキストから画像を生成する

まず、著者らは、このアプローチを選択した理由は、テキストを含む大量の画像データセットを収集するのはコストがかかりすぎるためだと述べています

テキスト画像データの必要性がなくなると、テキストを含まない大規模な画像データセットを直接使用できるようになります。   (ImageNet など) を使用して、強力で汎用的な text2image ジェネレーターをトレーニングします。

Byte が実装したモデルはCLIP-GENと呼ばれています。具体的にはどのように動作するのでしょうか?

3つのステップに分かれています。

まず、テキストラベルのない画像の場合 CLIPの画像エンコーダーを使用して、言語と視覚の統合埋め込み空間における画像埋め込みを抽出します

次に、画像VQGANコードブック空間内の一連の離散トークンに変換されます

つまり、画像が自然言語と同じように表現されるので、後でTransformerを使って処理しやすくなります。

その中で、画像トークナイザーとして機能する VQGAN モデルは、手元にあるラベルなし画像データセットを使用してトレーニングできます。

最後に、自己回帰トランスフォーマーはトランスフォーマーの統合言語視覚表現からの画像タグを対応する画像にマッピングするようにトレーニングされます。

このようなトレーニングの後、Transformer は、一連のテキスト記述に直面したときに、 CLIP のテキストエンコーダーから抽出されたテキスト埋め込みに基づいて、対応する画像トークンを生成できます

では、トレーニング プロセスにテキスト データが関与しないテキストから画像へのジェネレーターは効果的でしょうか?

パフォーマンスはTsinghua CogViewに匹敵します

著者らは、それぞれImageNeデータセットとMSCOCOデータセットでCLIP-GENをトレーニングし、評価しました。

まず、MS-COCO 検証セット内の 6 つのテキスト記述を使用してサンプルを生成します。

多数のテキストと画像のペアでトレーニングされた CLIP-GEN と他のテキスト 2 画像生成モデルとの比較は次のとおりです。

その中でも、 VQGAN-CLIPの結果は比較的非現実的であり、深刻な形状の歪みを伴います

清華大学のCogView は、DALL-E よりも優れていると主張しています。ここでの実験では、確かに優れた画像構造を生成できますが、テクスチャの詳細が欠けています

DF-GAN は、豊富な詳細を備えた妥当な画像を生成できますが、局所的なアーティファクトが発生しやすいという欠点もあります

筆者は、これらの比較モデルと比較して、 CLIP-GEN の画像は詳細度が高く、品質が高いと考えています。たとえば、2 番目のテキスト セットで必要な「水の反射」は適切に解釈されます(ただし、「3 つのぬいぐるみのクマ」という数値概念は完全には理解されません)

定量的な実験結果は基本的にこの結論を証明しています。

CLIP-GEN は最高の FID-0 および FID-1 スコアを達成しました。CapS スコア(入力テキストと生成された画像間の意味的類似性を測定) は、CogView を除く他のモデルよりもはるかに高く、CogView は 4% 低くなりました。

さらに、著者らは、CLIP-GEN の一般化能力が優れていると思われることも発見しました。

「空飛ぶペンギン」、「葉巻を持った犬」、「顔と髪のあるレモン」を生成するなど、次のような型破りなテキスト記述のセットでは、CLIP-GEN は基本的にこれらを実現できますが、他のモデルはほとんど理解できません。

著者について

このモデルの 5 人の作成者は全員 ByteDance 出身です。

第一著者の王子豪氏は北京理工大学で学士号を取得し、カリフォルニア大学バークレー校で博士号を取得。Googleで3年間ソフトウェア開発エンジニアとして勤務し、現在はTikTokで働いている。

責任著者、南京大学で学士号を取得し、カナダのニューファンドランドメモリアル大学で博士号を取得した Yi Zili 氏です。現在は ByteDance の人工知能専門家(主にマルチモダリティ、超解像度、顔面効果を研究)です。それ以前は、Huawei に勤務していました。

論文の宛先:

https://arxiv.org/abs/2203.00386

<<:  Nvidia の新 GPU: 800 億個のトランジスタを搭載した 4nm プロセス、新しい Hopper アーキテクチャは驚異的

>>:  AIは人間の目で世界を見ることを学習し、人間の瞳孔の微妙なズームをシミュレートすることさえできる。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Java はなぜ機械学習やディープラーニングを実際にサポートできないのでしょうか?何が欠けている?

チームに ML を導入させるにはどうすればよいのでしょうか。また、実行している既存のシステムと ML...

...

AIは人間社会のさまざまなビジネスモデルをどのように変えるのでしょうか?

過去20年間、一部の懐疑論者は、人工知能(AI)の発展が企業構造を混乱させ、大量の失業と富の格差の拡...

GPT-3 の推論高速化は NVIDIA のソリューションを 50% 上回ります。大規模モデル推論システムEnergon-AIオープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

インターネットの理解からユーザーの理解へ、Google は今回何に賭けているのでしょうか?

Google I/O カンファレンスは予定通り開催されます。北京時間5月12日午前1時、Googl...

テンセントが独自開発したHunyuanモデルが正式にリリースされ、Tencent Cloudを通じて一般に公開されました。

国産大型モデルはパラメータ優先から実用性優先へとシフトし、長期化期に入っている。 9月7日、2023...

PyTorch 生成的敵対ネットワーク (GAN) を簡単に構築

あなたの目の前に表示されている画像の人物は現実には存在しません。実は、機械学習モデルによって作成され...

大規模機械学習システムでは無料のランチはない

[[205684]] Tu Weiwei 氏は、Fourth Paradigm Prophet プラ...

...

2024年にIT業界は成長を遂げる:AIとサイバーセキュリティが最大のホットスポット

IDCは、2024年のIT市場はチャンスに満ちていると指摘した。インフレや経済などの要因が懸念材料と...

複合現実技術による医療シナリオ、Weizhuo Zhiyuan は 3D シーンを使用して病変を正確に特定します

[51CTO.comからの原文] 今日の医療業界は、次第にテクノロジー化と精密化が進んでいます。医療...

人間の脳神経を模倣してAIを開発!ケンブリッジ大学の最新研究がネイチャー誌に掲載:人工脳がAIの新たな方向性となる

地球上で最も複雑な知能の担い手である人間の脳の最大の特徴の 1 つは、高いエネルギー効率で知能を生み...

Ctrip列車チケットSMSリコールアルゴリズムの最適化の実践

著者についてCtrip アルゴリズムの専門家であるライアンは、パーソナライズされた推奨事項、スマート...