縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。

[[441688]]

モデルのパラメータサイズはそれほど大きくする必要はありません。

今年初めにOpenAIがコミュニティを席巻したDALL-Eから、Nvidiaがリアルな写真を生成するGauGAN2まで、テキストから画像を生成することは今年の注目の研究方向でした。現在、OpenAI は新たな進歩を遂げています。35 億のパラメータを持つ新しいモデル GLIDE です。

下の図 1 に示すように、GLIDE は通常、リアルな影と反射、および高品質のテクスチャを生成します。さらに、このモデルは、複数の概念 (コーギー、蝶ネクタイ、誕生日の帽子など) を組み合わせながら、これらのオブジェクトに属性 (色など) をバインドすることができます。

GLIDE には、テキストから画像を生成する機能に加えて、画像編集機能も備わっています。テキストプロンプトを使用して既存の画像を変更したり、必要に応じて新しいオブジェクト、影、反射を挿入したりできます (下の図 2 を参照)。たとえば、芝生にシマウマを追加するには、次のようにします。

下の図 3 に示すように、GLIDE はゼロショット生成と複雑なシーンの修復にも非常に優れています。

GLIDE はスケッチをリアルな画像編集に変換することもできます。たとえば、蝶ネクタイとバースデーハットをかぶったコーギーの画像は、落書きスケッチからリアルな画像に変換されました。

上記の機能はどのように実現されるのでしょうか?新しいモデル GLIDE では、OpenAI はテキストから画像を生成する問題にガイド付き拡散を適用します。まず、自然言語の説明を条件とするテキストエンコーダーを使用して 35 億のパラメーターの拡散モデルをトレーニングし、次に拡散モデルをテキストプロンプトに誘導する 2 つの方法 (CLIP ガイダンスと分類器ガイダンスなし) を比較しました。研究では、手動および自動の評価を通じて、分類器のガイダンスではより高品質の画像を生成できないことが判明しました。

論文アドレス: https://arxiv.org/pdf/2112.10741.pdf
プロジェクトアドレス: https://github.com/openai/glide-text2im

研究では、分類器のガイダンスなしでモデルを使用して生成されたサンプルは現実的であり、現実世界の幅広い知識を反映していることがわかりました。人間による評価の結果、GLIDE の生成結果は DALL-E よりも優れていることがわかりました。

さらに、DALL-E には 120 億のパラメータがあるのに対し、GLIDE には 35 億のパラメータしかないにもかかわらず、より優れたパフォーマンスを実現していることも注目に値します。 GLIDEのモデル詳細を詳しく見てみましょう。

GLIDE: 35億のパラメータを持つテキスト条件付き拡散モデル

OpenAI は、64 × 64 の画像解像度で 35 億のパラメータを持つテキスト条件付き拡散モデルと、15 億のパラメータを持つテキスト条件付きアップサンプリング拡散モデルをトレーニングし、画像解像度を 256 × 256 に上げました。 CLIP ガイダンスのために、OpenAI はノイズを考慮した 64 × 64 ViT-L CLIP モデルもトレーニングしました。

テキスト条件拡散モデル

OpenAI は、Dhariwal & Nichol (2021) が提案した ADM モデルアーキテクチャを使用しますが、テキスト条件情報で拡張します。ノイズの多い画像x_tとそれに対応するテキストキャプションごとに、モデルはp(xt−1|xt, caption)を予測します。テキストを条件付けるために、OpenAI はまずテキストを K 個のトークンのシーケンスにエンコードし、次にこれらのトークンを Transformer モデルに入力します (Vaswani ら、2017)。このトランスの出力は、次の 2 つの方法で使用されます。

まず、最終的なトークン埋め込みを使用して、ADM モデル内のクラス埋め込みを置き換えます。
次に、最後のレイヤーのトークン埋め込み（K 個の特徴ベクトルのシーケンス）が ADM モデルの各注意レイヤーにそれぞれ投影され、各レイヤーの注意コンテキストに接続されます。

OpenAI は、DALL-E とまったく同じデータセットでモデルをトレーニングし、512 個のモデルチャネルを持つ Dhariwal & Nichol (2021) が提案した ImageNet 64 × 64 モデルと同じモデルアーキテクチャを使用した結果、モデルの視覚部分に約 23 億個のパラメーターが生成されました。テキストエンコーディングTransformerの場合、OpenAIは24個の残差ブロックを使用し、結果として約12億個のパラメータが生成されます。

さらに、OpenAI は 15 億のパラメータを持つアップサンプリング拡散モデルをトレーニングし、画像の解像度を 64×64 から 256×256 に向上させました。このモデルもテキストに基づいていますが、幅が 2048 ではなく 1024 の小さいテキストエンコーダーを使用します。

分類器のガイダンスなしで微調整

初期モデルのトレーニングが完了したら、ベースモデルを微調整して無条件の画像生成をサポートできます。トレーニングプロセスは事前トレーニングとまったく同じですが、テキストトークンシーケンスの 20% が空のシーケンスに置き換えられます。このようにして、モデルはテキスト条件付き出力を生成する機能を保持しながら、無条件に画像を生成することもできます。

画像の修復と編集

これまでの画像修復作業の欠点は、モデルがサンプリングプロセス中にコンテキスト情報全体を見ることができないことです。より良い生成効果を得るために、OpenAI はモデルを微調整しました。微調整中に、トレーニングサンプルの一部の領域がランダムに消去され、残りの領域は追加の条件情報としてマスクチャネルとともにモデルに入力されました。 OpenAI はモデルアーキテクチャを変更し、2 番目の RGB チャネルセットとマスクチャネルの 4 つの入力チャネルを追加しました。微調整を行う前に、OpenAI はこれらの新しいチャネルの対応する入力重みをゼロに初期化しました。アップサンプリングモデルの場合、OpenAI は完全な低解像度画像を提供しますが、マスクされていない領域には高解像度画像を提供します。

CLIPガイド拡散

分類器ガイダンスと CLIP ガイダンスの類似性を考慮すると、テキスト条件付き拡散モデルの生成品質を向上させるために CLIP を適用するのは自然なことと思われます。 Dhariwal & Nichol (2021) の分類器ガイダンス手法により適合させるために、OpenAI は、ノイズの多い画像を受信し、64 × 64 の解像度でモデルをトレーニングする画像エンコーダーを使用して、ノイズを考慮した CLIP モデルをトレーニングしました。

実験結果

この研究では、GLIDE と以前の SOTA モデルを定性的に比較し、その結果を以下の図 5 に示します。 GLIDE はよりリアルな画像を生成し、CLIP の並べ替えや選択を必要としません。

定量的な結果

この研究では、まず、画像品質と忠実度のトレードオフのパレート最適解に注目して、分類器を使用しないガイダンスと CLIP ガイダンスの違いを評価します。下の図 6 は、64 × 64 解像度でのゼロショット MS-COCO 生成における 2 つの方法を評価しています。

本研究で実施した人間による評価実験は以下のとおりです。

被験者は 2 つの 256 × 256 の画像を見て、与えられたキャプションによく合っているか、よりリアルに見えるかという 2 つの基準に基づいて、より良い画像を選択するように求められました。評価結果を下の図7に示します。

人間による評価の結果は、以下の表 1 の結果と比較されます。この研究では、人間と CLIP ガイダンスによって与えられたスコアに一貫性がないため、分類器ガイダンスでは人間の認知と一致する高品質の生成結果を生成することができないことがわかりました。

さらに、研究者らは GLIDE を他のテキスト画像変換モデルと比較し、その結果を以下の表 2 に示します。 GLIDE は MS-COCO で競争力のある FID を実現します。

最後に、本研究では上記のヒト評価実験設定を使用してGLIDEとDALL-Eを比較し、その結果を以下の表3に示します。 GLIDE のトレーニングでは DALL-E とほぼ同じトレーニングコンピューティングが使用されますが、モデルははるかに小さく (35 億のパラメーター対 120 億のパラメーター)、必要なサンプリングレイテンシが少なく、CLIP の並べ替えも必要ありません。

<<: 単一のViTモデルがマルチモーダルおよびマルチタスクのタスクを実行し、Googleは共同トレーニング戦略を使用して複数のSOTAを達成します。

>>: 紙画像の不正使用？ AI: この道は私が塞いでいる