縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。

縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。

[[441688]]

モデルのパラメータサイズはそれほど大きくする必要はありません。

今年初めにOpenAIがコミュニティを席巻したDALL-Eから、Nvidiaがリアルな写真を生成するGauGAN2まで、テキストから画像を生成することは今年の注目の研究方向でした。現在、OpenAI は新たな進歩を遂げています。35 億のパラメータを持つ新しいモデル GLIDE です。

下の図 1 に示すように、GLIDE は通常、リアルな影と反射、および高品質のテクスチャを生成します。さらに、このモデルは、複数の概念 (コーギー、蝶ネクタイ、誕生日の帽子など) を組み合わせながら、これらのオブジェクトに属性 (色など) をバインドすることができます。

GLIDE には、テキストから画像を生成する機能に加えて、画像編集機能も備わっています。テキスト プロンプトを使用して既存の画像を変更したり、必要に応じて新しいオブジェクト、影、反射を挿入したりできます (下の図 2 を参照)。たとえば、芝生にシマウマを追加するには、次のようにします。

下の図 3 に示すように、GLIDE はゼロショット生成と複雑なシーンの修復にも非常に優れています。

GLIDE はスケッチをリアルな画像編集に変換することもできます。たとえば、蝶ネクタイとバースデーハットをかぶったコーギーの画像は、落書きスケッチからリアルな画像に変換されました。

上記の機能はどのように実現されるのでしょうか?新しいモデル GLIDE では、OpenAI はテキストから画像を生成する問題にガイド付き拡散を適用します。まず、自然言語の説明を条件とするテキスト エンコーダーを使用して 35 億のパラメーターの拡散モデルをトレーニングし、次に拡散モデルをテキスト プロンプトに誘導する 2 つの方法 (CLIP ガイダンスと分類器ガイダンスなし) を比較しました。研究では、手動および自動の評価を通じて、分類器のガイダンスではより高品質の画像を生成できないことが判明しました。

  • 論文アドレス: https://arxiv.org/pdf/2112.10741.pdf
  • プロジェクトアドレス: https://github.com/openai/glide-text2im

研究では、分類器のガイダンスなしでモデルを使用して生成されたサンプルは現実的であり、現実世界の幅広い知識を反映していることがわかりました。人間による評価の結果、GLIDE の生成結果は DALL-E よりも優れていることがわかりました。

さらに、DALL-E には 120 億のパラメータがあるのに対し、GLIDE には 35 億のパラメータしかないにもかかわらず、より優れたパフォーマンスを実現していることも注目に値します。 GLIDEのモデル詳細を詳しく見てみましょう。

GLIDE: 35億のパラメータを持つテキスト条件付き拡散モデル

OpenAI は、64 × 64 の画像解像度で 35 億のパラメータを持つテキスト条件付き拡散モデルと、15 億のパラメータを持つテキスト条件付きアップサンプリング拡散モデルをトレーニングし、画像解像度を 256 × 256 に上げました。 CLIP ガイダンスのために、OpenAI はノイズを考慮した 64 × 64 ViT-L CLIP モデルもトレーニングしました。

テキスト条件拡散モデル

OpenAI は、Dhariwal & Nichol (2021) が提案した ADM モデル アーキテクチャを使用しますが、テキスト条件情報で拡張します。ノイズの多い画像x_tとそれに対応するテキストキャプションごとに、モデルはp(xt−1|xt, caption)を予測します。テキストを条件付けるために、OpenAI はまずテキストを K 個のトークンのシーケンスにエンコードし、次にこれらのトークンを Transformer モデルに入力します (Vaswani ら、2017)。このトランスの出力は、次の 2 つの方法で使用されます。

  • まず、最終的なトークン埋め込みを使用して、ADM モデル内のクラス埋め込みを置き換えます。
  • 次に、最後のレイヤーのトークン埋め込み(K 個の特徴ベクトルのシーケンス)が ADM モデルの各注意レイヤーにそれぞれ投影され、各レイヤーの注意コンテキストに接続されます。

OpenAI は、DALL-E とまったく同じデータセットでモデルをトレーニングし、512 個のモデル チャネルを持つ Dhariwal & Nichol (2021) が提案した ImageNet 64 × 64 モデルと同じモデル アーキテクチャを使用した結果、モデルの視覚部分に約 23 億個のパラメーターが生成されました。テキストエンコーディングTransformerの場合、OpenAIは24個の残差ブロックを使用し、結果として約12億個のパラメータが生成されます。

さらに、OpenAI は 15 億のパラメータを持つアップサンプリング拡散モデルをトレーニングし、画像の解像度を 64×64 から 256×256 に向上させました。このモデルもテキストに基づいていますが、幅が 2048 ではなく 1024 の小さいテキスト エンコーダーを使用します。

分類器のガイダンスなしで微調整

初期モデルのトレーニングが完了したら、ベースモデルを微調整して無条件の画像生成をサポートできます。トレーニング プロセスは事前トレーニングとまったく同じですが、テキスト トークン シーケンスの 20% が空のシーケンスに置き換えられます。このようにして、モデルはテキスト条件付き出力を生成する機能を保持しながら、無条件に画像を生成することもできます。

画像の修復と編集

これまでの画像修復作業の欠点は、モデルがサンプリング プロセス中にコンテキスト情報全体を見ることができないことです。より良い生成効果を得るために、OpenAI はモデルを微調整しました。微調整中に、トレーニング サンプルの一部の領域がランダムに消去され、残りの領域は追加の条件情報としてマスク チャネルとともにモデルに入力されました。 OpenAI はモデル アーキテクチャを変更し、2 番目の RGB チャネル セットとマスク チャネルの 4 つの入力チャネルを追加しました。微調整を行う前に、OpenAI はこれらの新しいチャネルの対応する入力重みをゼロに初期化しました。アップサンプリング モデルの場合、OpenAI は完全な低解像度画像を提供しますが、マスクされていない領域には高解像度画像を提供します。

CLIPガイド拡散

分類器ガイダンスと CLIP ガイダンスの類似性を考慮すると、テキスト条件付き拡散モデルの生成品質を向上させるために CLIP を適用するのは自然なことと思われます。 Dhariwal & Nichol (2021) の分類器ガイダンス手法により適合させるために、OpenAI は、ノイズの多い画像を受信し、64 × 64 の解像度でモデルをトレーニングする画像エンコーダーを使用して、ノイズを考慮した CLIP モデルをトレーニングしました。

実験結果

この研究では、GLIDE と以前の SOTA モデルを定性的に比較し、その結果を以下の図 5 に示します。 GLIDE はよりリアルな画像を生成し、CLIP の並べ替えや選択を必要としません。

定量的な結果

この研究では、まず、画像品質と忠実度のトレードオフのパレート最適解に注目して、分類器を使用しないガイダンスと CLIP ガイダンスの違いを評価します。下の図 6 は、64 × 64 解像度でのゼロショット MS-COCO 生成における 2 つの方法を評価しています。

本研究で実施した人間による評価実験は以下のとおりです。

被験者は 2 つの 256 × 256 の画像を見て、与えられたキャプションによく合っているか、よりリアルに見えるかという 2 つの基準に基づいて、より良い画像を選択するように求められました。評価結果を下の図7に示します。

人間による評価の結果は、以下の表 1 の結果と比較されます。この研究では、人間と CLIP ガイダンスによって与えられたスコアに一貫性がないため、分類器ガイダンスでは人間の認知と一致する高品質の生成結果を生成することができないことがわかりました。

さらに、研究者らは GLIDE を他のテキスト画像変換モデルと比較し、その結果を以下の表 2 に示します。 GLIDE は MS-COCO で競争力のある FID を実現します。

最後に、本研究では上記のヒト評価実験設定を使用してGLIDEとDALL-Eを比較し、その結果を以下の表3に示します。 GLIDE のトレーニングでは DALL-E とほぼ同じトレーニング コンピューティングが使用されますが、モデルははるかに小さく (35 億のパラメーター対 120 億のパラメーター)、必要なサンプリング レイテンシが少なく、CLIP の並べ替えも必要ありません。

<<:  単一のViTモデルがマルチモーダルおよびマルチタスクのタスクを実行し、Googleは共同トレーニング戦略を使用して複数のSOTAを達成します。

>>:  紙画像の不正使用? AI: この道は私が塞いでいる

ブログ    
ブログ    

推薦する

人工知能が新たな技術を切り開く:10年以内に犬が人間と会話できるようになる

本日北京時間のデイリーメール紙の報道によると、有名な技術専門家は、今後10年間で人工知能技術の発展に...

...

...

...

ブラックテクノロジー:AoE-モデルをうまく管理するには?

序文今後ますます多くの企業が AI 関連のテクノロジーを利用するようになるでしょう。ほとんどの AI...

私の国の自動運転開発は、年初に巨額の資金提供を受けて大いに支持されている

自動運転は、さまざまな交通問題を解決し、スマートシティの発展を実現するための共通の選択肢として、近年...

孫玄、Zhuanzhuan 社アーキテクチャアルゴリズム部門: AI によるマイクロサービスアーキテクチャ

[51CTO.com からのオリジナル記事] 2014 年頃から、マイクロサービス アーキテクチャの...

適切な AI ユースケースを選択するための 5 つのヒント

多くの企業はまだ AI を導入する準備ができていない可能性があるため、まずは 1 つのプロジェクトか...

アルゴリズム図: 括弧が有効かどうかを判断するにはどうすればよいでしょうか?

[[346613]]この記事はWeChatの公開アカウント「Java Chinese Commun...

2020 年の生体認証市場 - パンデミックによる業界の動向の変化

生体認証技術市場は、COVID-19の流行により大きな影響を受けるでしょう。 接触のみの生体認証を採...

分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ

分散システムにおける中心的な問題はデータの一貫性です。 Paxos アルゴリズムは分散一貫性における...

ネットワークインテリジェンスに関する誤解は4つある

夕食後に AI について話さないと、社会の一員ではないような気がします。しかし、ネットワーク インテ...

機械経済の到来: つながる世界を動かす

機械経済は、長年にわたる急速な社会の発展と新しい製造プロセスへの移行によって進化してきました。第一次...

OpenAI エンジニア必読: 苦い教訓

OpenAIが動画生成モデルSoraをリリースしてから1週間が経ちましたが、その人気は衰えていません...