縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。

縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。

[[441688]]

モデルのパラメータサイズはそれほど大きくする必要はありません。

今年初めにOpenAIがコミュニティを席巻したDALL-Eから、Nvidiaがリアルな写真を生成するGauGAN2まで、テキストから画像を生成することは今年の注目の研究方向でした。現在、OpenAI は新たな進歩を遂げています。35 億のパラメータを持つ新しいモデル GLIDE です。

下の図 1 に示すように、GLIDE は通常、リアルな影と反射、および高品質のテクスチャを生成します。さらに、このモデルは、複数の概念 (コーギー、蝶ネクタイ、誕生日の帽子など) を組み合わせながら、これらのオブジェクトに属性 (色など) をバインドすることができます。

GLIDE には、テキストから画像を生成する機能に加えて、画像編集機能も備わっています。テキスト プロンプトを使用して既存の画像を変更したり、必要に応じて新しいオブジェクト、影、反射を挿入したりできます (下の図 2 を参照)。たとえば、芝生にシマウマを追加するには、次のようにします。

下の図 3 に示すように、GLIDE はゼロショット生成と複雑なシーンの修復にも非常に優れています。

GLIDE はスケッチをリアルな画像編集に変換することもできます。たとえば、蝶ネクタイとバースデーハットをかぶったコーギーの画像は、落書きスケッチからリアルな画像に変換されました。

上記の機能はどのように実現されるのでしょうか?新しいモデル GLIDE では、OpenAI はテキストから画像を生成する問題にガイド付き拡散を適用します。まず、自然言語の説明を条件とするテキスト エンコーダーを使用して 35 億のパラメーターの拡散モデルをトレーニングし、次に拡散モデルをテキスト プロンプトに誘導する 2 つの方法 (CLIP ガイダンスと分類器ガイダンスなし) を比較しました。研究では、手動および自動の評価を通じて、分類器のガイダンスではより高品質の画像を生成できないことが判明しました。

  • 論文アドレス: https://arxiv.org/pdf/2112.10741.pdf
  • プロジェクトアドレス: https://github.com/openai/glide-text2im

研究では、分類器のガイダンスなしでモデルを使用して生成されたサンプルは現実的であり、現実世界の幅広い知識を反映していることがわかりました。人間による評価の結果、GLIDE の生成結果は DALL-E よりも優れていることがわかりました。

さらに、DALL-E には 120 億のパラメータがあるのに対し、GLIDE には 35 億のパラメータしかないにもかかわらず、より優れたパフォーマンスを実現していることも注目に値します。 GLIDEのモデル詳細を詳しく見てみましょう。

GLIDE: 35億のパラメータを持つテキスト条件付き拡散モデル

OpenAI は、64 × 64 の画像解像度で 35 億のパラメータを持つテキスト条件付き拡散モデルと、15 億のパラメータを持つテキスト条件付きアップサンプリング拡散モデルをトレーニングし、画像解像度を 256 × 256 に上げました。 CLIP ガイダンスのために、OpenAI はノイズを考慮した 64 × 64 ViT-L CLIP モデルもトレーニングしました。

テキスト条件拡散モデル

OpenAI は、Dhariwal & Nichol (2021) が提案した ADM モデル アーキテクチャを使用しますが、テキスト条件情報で拡張します。ノイズの多い画像x_tとそれに対応するテキストキャプションごとに、モデルはp(xt−1|xt, caption)を予測します。テキストを条件付けるために、OpenAI はまずテキストを K 個のトークンのシーケンスにエンコードし、次にこれらのトークンを Transformer モデルに入力します (Vaswani ら、2017)。このトランスの出力は、次の 2 つの方法で使用されます。

  • まず、最終的なトークン埋め込みを使用して、ADM モデル内のクラス埋め込みを置き換えます。
  • 次に、最後のレイヤーのトークン埋め込み(K 個の特徴ベクトルのシーケンス)が ADM モデルの各注意レイヤーにそれぞれ投影され、各レイヤーの注意コンテキストに接続されます。

OpenAI は、DALL-E とまったく同じデータセットでモデルをトレーニングし、512 個のモデル チャネルを持つ Dhariwal & Nichol (2021) が提案した ImageNet 64 × 64 モデルと同じモデル アーキテクチャを使用した結果、モデルの視覚部分に約 23 億個のパラメーターが生成されました。テキストエンコーディングTransformerの場合、OpenAIは24個の残差ブロックを使用し、結果として約12億個のパラメータが生成されます。

さらに、OpenAI は 15 億のパラメータを持つアップサンプリング拡散モデルをトレーニングし、画像の解像度を 64×64 から 256×256 に向上させました。このモデルもテキストに基づいていますが、幅が 2048 ではなく 1024 の小さいテキスト エンコーダーを使用します。

分類器のガイダンスなしで微調整

初期モデルのトレーニングが完了したら、ベースモデルを微調整して無条件の画像生成をサポートできます。トレーニング プロセスは事前トレーニングとまったく同じですが、テキスト トークン シーケンスの 20% が空のシーケンスに置き換えられます。このようにして、モデルはテキスト条件付き出力を生成する機能を保持しながら、無条件に画像を生成することもできます。

画像の修復と編集

これまでの画像修復作業の欠点は、モデルがサンプリング プロセス中にコンテキスト情報全体を見ることができないことです。より良い生成効果を得るために、OpenAI はモデルを微調整しました。微調整中に、トレーニング サンプルの一部の領域がランダムに消去され、残りの領域は追加の条件情報としてマスク チャネルとともにモデルに入力されました。 OpenAI はモデル アーキテクチャを変更し、2 番目の RGB チャネル セットとマスク チャネルの 4 つの入力チャネルを追加しました。微調整を行う前に、OpenAI はこれらの新しいチャネルの対応する入力重みをゼロに初期化しました。アップサンプリング モデルの場合、OpenAI は完全な低解像度画像を提供しますが、マスクされていない領域には高解像度画像を提供します。

CLIPガイド拡散

分類器ガイダンスと CLIP ガイダンスの類似性を考慮すると、テキスト条件付き拡散モデルの生成品質を向上させるために CLIP を適用するのは自然なことと思われます。 Dhariwal & Nichol (2021) の分類器ガイダンス手法により適合させるために、OpenAI は、ノイズの多い画像を受信し、64 × 64 の解像度でモデルをトレーニングする画像エンコーダーを使用して、ノイズを考慮した CLIP モデルをトレーニングしました。

実験結果

この研究では、GLIDE と以前の SOTA モデルを定性的に比較し、その結果を以下の図 5 に示します。 GLIDE はよりリアルな画像を生成し、CLIP の並べ替えや選択を必要としません。

定量的な結果

この研究では、まず、画像品質と忠実度のトレードオフのパレート最適解に注目して、分類器を使用しないガイダンスと CLIP ガイダンスの違いを評価します。下の図 6 は、64 × 64 解像度でのゼロショット MS-COCO 生成における 2 つの方法を評価しています。

本研究で実施した人間による評価実験は以下のとおりです。

被験者は 2 つの 256 × 256 の画像を見て、与えられたキャプションによく合っているか、よりリアルに見えるかという 2 つの基準に基づいて、より良い画像を選択するように求められました。評価結果を下の図7に示します。

人間による評価の結果は、以下の表 1 の結果と比較されます。この研究では、人間と CLIP ガイダンスによって与えられたスコアに一貫性がないため、分類器ガイダンスでは人間の認知と一致する高品質の生成結果を生成することができないことがわかりました。

さらに、研究者らは GLIDE を他のテキスト画像変換モデルと比較し、その結果を以下の表 2 に示します。 GLIDE は MS-COCO で競争力のある FID を実現します。

最後に、本研究では上記のヒト評価実験設定を使用してGLIDEとDALL-Eを比較し、その結果を以下の表3に示します。 GLIDE のトレーニングでは DALL-E とほぼ同じトレーニング コンピューティングが使用されますが、モデルははるかに小さく (35 億のパラメーター対 120 億のパラメーター)、必要なサンプリング レイテンシが少なく、CLIP の並べ替えも必要ありません。

<<:  単一のViTモデルがマルチモーダルおよびマルチタスクのタスクを実行し、Googleは共同トレーニング戦略を使用して複数のSOTAを達成します。

>>:  紙画像の不正使用? AI: この道は私が塞いでいる

ブログ    
ブログ    
ブログ    

推薦する

ArcSoft Open Platformの新しいアルゴリズムは、顔認識セグメンテーションのシナリオの拡張に役立ちます

ArcSoft ビジュアルオープンプラットフォームであるArcFace 3.0の発売以来、アルゴリ...

機械学習モデルをトレーニングする際に避けるべき 6 つの間違い

[51CTO.com クイック翻訳] AI や機械学習モデルの開発は簡単ではありません。さまざまなシ...

Google、再生可能エネルギーと機械学習の力を借りて風力発電の予測に成功

従来の観点から見ると、目に見えず、実体のない風が新しい日にどのような挙動を示すかを予測することは依然...

北京はインターネット診断と治療の監督を強化し、AIによる処方箋の自動生成を厳しく禁止する

8月21日、北京日報によると、北京市衛生健康委員会は最近、「北京市インターネット医療監督実施弁法(試...

焦点: 注目すべき 6 つのスマート セキュリティ トレンド

スマート セキュリティは、新しい AI 機能のおかげで、静的なセキュリティ ビデオ録画からリアルタイ...

2020年の情報セキュリティ:人工知能(AI)はさまざまな情報セキュリティシステムで広く利用されている

マーク・カネル、イマジネーション・テクノロジーズ、 戦略およびセキュリティ担当副社長[[281448...

...

自動運転は道路安全の問題をどのように解決するのでしょうか?

最近、自動運転に関する悪いニュースが数多く報道されていますが、特にアリゾナ州で Uber の自動運転...

過去 50 年間で最も重要な 8 つの統計的進歩!コロンビア大学教授がAI革命を推進する統計的アイデアを列挙

ディープラーニングと人工知能は誰もが知る名前になりましたが、この革命を推進する統計学の進歩はあまり知...

...

ディープフェイクで映画を作る時代が来た:ディズニーが高解像度の顔を変えるアルゴリズムを公開

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Xiaolin が LRU アルゴリズムを破壊!

[[411501]]この記事はWeChatの公開アカウント「Xiao Lin Coding」から転...

ChatGLM-6Bを最適化するにはどうすればいいですか?たった 1 行のコード | 最も「流行」のモデル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...