縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。

縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。

[[441688]]

モデルのパラメータサイズはそれほど大きくする必要はありません。

今年初めにOpenAIがコミュニティを席巻したDALL-Eから、Nvidiaがリアルな写真を生成するGauGAN2まで、テキストから画像を生成することは今年の注目の研究方向でした。現在、OpenAI は新たな進歩を遂げています。35 億のパラメータを持つ新しいモデル GLIDE です。

下の図 1 に示すように、GLIDE は通常、リアルな影と反射、および高品質のテクスチャを生成します。さらに、このモデルは、複数の概念 (コーギー、蝶ネクタイ、誕生日の帽子など) を組み合わせながら、これらのオブジェクトに属性 (色など) をバインドすることができます。

GLIDE には、テキストから画像を生成する機能に加えて、画像編集機能も備わっています。テキスト プロンプトを使用して既存の画像を変更したり、必要に応じて新しいオブジェクト、影、反射を挿入したりできます (下の図 2 を参照)。たとえば、芝生にシマウマを追加するには、次のようにします。

下の図 3 に示すように、GLIDE はゼロショット生成と複雑なシーンの修復にも非常に優れています。

GLIDE はスケッチをリアルな画像編集に変換することもできます。たとえば、蝶ネクタイとバースデーハットをかぶったコーギーの画像は、落書きスケッチからリアルな画像に変換されました。

上記の機能はどのように実現されるのでしょうか?新しいモデル GLIDE では、OpenAI はテキストから画像を生成する問題にガイド付き拡散を適用します。まず、自然言語の説明を条件とするテキスト エンコーダーを使用して 35 億のパラメーターの拡散モデルをトレーニングし、次に拡散モデルをテキスト プロンプトに誘導する 2 つの方法 (CLIP ガイダンスと分類器ガイダンスなし) を比較しました。研究では、手動および自動の評価を通じて、分類器のガイダンスではより高品質の画像を生成できないことが判明しました。

  • 論文アドレス: https://arxiv.org/pdf/2112.10741.pdf
  • プロジェクトアドレス: https://github.com/openai/glide-text2im

研究では、分類器のガイダンスなしでモデルを使用して生成されたサンプルは現実的であり、現実世界の幅広い知識を反映していることがわかりました。人間による評価の結果、GLIDE の生成結果は DALL-E よりも優れていることがわかりました。

さらに、DALL-E には 120 億のパラメータがあるのに対し、GLIDE には 35 億のパラメータしかないにもかかわらず、より優れたパフォーマンスを実現していることも注目に値します。 GLIDEのモデル詳細を詳しく見てみましょう。

GLIDE: 35億のパラメータを持つテキスト条件付き拡散モデル

OpenAI は、64 × 64 の画像解像度で 35 億のパラメータを持つテキスト条件付き拡散モデルと、15 億のパラメータを持つテキスト条件付きアップサンプリング拡散モデルをトレーニングし、画像解像度を 256 × 256 に上げました。 CLIP ガイダンスのために、OpenAI はノイズを考慮した 64 × 64 ViT-L CLIP モデルもトレーニングしました。

テキスト条件拡散モデル

OpenAI は、Dhariwal & Nichol (2021) が提案した ADM モデル アーキテクチャを使用しますが、テキスト条件情報で拡張します。ノイズの多い画像x_tとそれに対応するテキストキャプションごとに、モデルはp(xt−1|xt, caption)を予測します。テキストを条件付けるために、OpenAI はまずテキストを K 個のトークンのシーケンスにエンコードし、次にこれらのトークンを Transformer モデルに入力します (Vaswani ら、2017)。このトランスの出力は、次の 2 つの方法で使用されます。

  • まず、最終的なトークン埋め込みを使用して、ADM モデル内のクラス埋め込みを置き換えます。
  • 次に、最後のレイヤーのトークン埋め込み(K 個の特徴ベクトルのシーケンス)が ADM モデルの各注意レイヤーにそれぞれ投影され、各レイヤーの注意コンテキストに接続されます。

OpenAI は、DALL-E とまったく同じデータセットでモデルをトレーニングし、512 個のモデル チャネルを持つ Dhariwal & Nichol (2021) が提案した ImageNet 64 × 64 モデルと同じモデル アーキテクチャを使用した結果、モデルの視覚部分に約 23 億個のパラメーターが生成されました。テキストエンコーディングTransformerの場合、OpenAIは24個の残差ブロックを使用し、結果として約12億個のパラメータが生成されます。

さらに、OpenAI は 15 億のパラメータを持つアップサンプリング拡散モデルをトレーニングし、画像の解像度を 64×64 から 256×256 に向上させました。このモデルもテキストに基づいていますが、幅が 2048 ではなく 1024 の小さいテキスト エンコーダーを使用します。

分類器のガイダンスなしで微調整

初期モデルのトレーニングが完了したら、ベースモデルを微調整して無条件の画像生成をサポートできます。トレーニング プロセスは事前トレーニングとまったく同じですが、テキスト トークン シーケンスの 20% が空のシーケンスに置き換えられます。このようにして、モデルはテキスト条件付き出力を生成する機能を保持しながら、無条件に画像を生成することもできます。

画像の修復と編集

これまでの画像修復作業の欠点は、モデルがサンプリング プロセス中にコンテキスト情報全体を見ることができないことです。より良い生成効果を得るために、OpenAI はモデルを微調整しました。微調整中に、トレーニング サンプルの一部の領域がランダムに消去され、残りの領域は追加の条件情報としてマスク チャネルとともにモデルに入力されました。 OpenAI はモデル アーキテクチャを変更し、2 番目の RGB チャネル セットとマスク チャネルの 4 つの入力チャネルを追加しました。微調整を行う前に、OpenAI はこれらの新しいチャネルの対応する入力重みをゼロに初期化しました。アップサンプリング モデルの場合、OpenAI は完全な低解像度画像を提供しますが、マスクされていない領域には高解像度画像を提供します。

CLIPガイド拡散

分類器ガイダンスと CLIP ガイダンスの類似性を考慮すると、テキスト条件付き拡散モデルの生成品質を向上させるために CLIP を適用するのは自然なことと思われます。 Dhariwal & Nichol (2021) の分類器ガイダンス手法により適合させるために、OpenAI は、ノイズの多い画像を受信し、64 × 64 の解像度でモデルをトレーニングする画像エンコーダーを使用して、ノイズを考慮した CLIP モデルをトレーニングしました。

実験結果

この研究では、GLIDE と以前の SOTA モデルを定性的に比較し、その結果を以下の図 5 に示します。 GLIDE はよりリアルな画像を生成し、CLIP の並べ替えや選択を必要としません。

定量的な結果

この研究では、まず、画像品質と忠実度のトレードオフのパレート最適解に注目して、分類器を使用しないガイダンスと CLIP ガイダンスの違いを評価します。下の図 6 は、64 × 64 解像度でのゼロショット MS-COCO 生成における 2 つの方法を評価しています。

本研究で実施した人間による評価実験は以下のとおりです。

被験者は 2 つの 256 × 256 の画像を見て、与えられたキャプションによく合っているか、よりリアルに見えるかという 2 つの基準に基づいて、より良い画像を選択するように求められました。評価結果を下の図7に示します。

人間による評価の結果は、以下の表 1 の結果と比較されます。この研究では、人間と CLIP ガイダンスによって与えられたスコアに一貫性がないため、分類器ガイダンスでは人間の認知と一致する高品質の生成結果を生成することができないことがわかりました。

さらに、研究者らは GLIDE を他のテキスト画像変換モデルと比較し、その結果を以下の表 2 に示します。 GLIDE は MS-COCO で競争力のある FID を実現します。

最後に、本研究では上記のヒト評価実験設定を使用してGLIDEとDALL-Eを比較し、その結果を以下の表3に示します。 GLIDE のトレーニングでは DALL-E とほぼ同じトレーニング コンピューティングが使用されますが、モデルははるかに小さく (35 億のパラメーター対 120 億のパラメーター)、必要なサンプリング レイテンシが少なく、CLIP の並べ替えも必要ありません。

<<:  単一のViTモデルがマルチモーダルおよびマルチタスクのタスクを実行し、Googleは共同トレーニング戦略を使用して複数のSOTAを達成します。

>>:  紙画像の不正使用? AI: この道は私が塞いでいる

ブログ    
ブログ    

推薦する

機械翻訳から読心術まで、AIは人類のバベルの塔を再建できるのか?

聖書の旧約聖書創世記には、人類が団結して天国に通じるバベルの塔を建てたという話があります。この計画を...

Microsoft が大規模コード モデル WaveCoder をリリースしました。 4つのコードタスクと20,000のインスタンスデータセットにより、LLMの一般化能力が大幅に向上しました。

高品質のデータ セットを使用して命令のチューニングを実行すると、大規模なモデルのパフォーマンスを迅速...

...

情報の流れの中のゲーム:「易典子心」の探求と思考

[51CTO.comより引用] 「易典子訓」アプリを開くと、オープニング画面に「良質なコンテンツ、価...

...

ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

人間とは異なり、人工ニューラル ネットワークは新しいことを学習するときに以前に学習した情報をすぐに忘...

人工知能の民主化について

人工知能 (AI) の民主化とは、AI ツール、テクノロジー、知識をより幅広い個人や組織が利用しやす...

GMIC 2018: DataVisor が成長中の企業に AI 不正防止機能を導入する方法

9月26日から28日まで、北京でグローバルモバイルインターネットカンファレンス(GMIC 2018)...

...

シェア | 人工知能の典型的な12の事例

今日では AI の例が非常に多く存在するため、代表的な AI の事例をいくつか選択することは困難です...

...

...

コードを書けるAIがオープンソース化! Codex よりも優れた C 言語を書き、12 のプログラミング言語をマスターする

Codex よりも優れた C 言語を記述できる AI コード生成モデルがオープンソース化されました。...

...