モデルのパラメータサイズはそれほど大きくする必要はありません。 今年初めにOpenAIがコミュニティを席巻したDALL-Eから、Nvidiaがリアルな写真を生成するGauGAN2まで、テキストから画像を生成することは今年の注目の研究方向でした。現在、OpenAI は新たな進歩を遂げています。35 億のパラメータを持つ新しいモデル GLIDE です。 下の図 1 に示すように、GLIDE は通常、リアルな影と反射、および高品質のテクスチャを生成します。さらに、このモデルは、複数の概念 (コーギー、蝶ネクタイ、誕生日の帽子など) を組み合わせながら、これらのオブジェクトに属性 (色など) をバインドすることができます。 GLIDE には、テキストから画像を生成する機能に加えて、画像編集機能も備わっています。テキスト プロンプトを使用して既存の画像を変更したり、必要に応じて新しいオブジェクト、影、反射を挿入したりできます (下の図 2 を参照)。たとえば、芝生にシマウマを追加するには、次のようにします。 下の図 3 に示すように、GLIDE はゼロショット生成と複雑なシーンの修復にも非常に優れています。 GLIDE はスケッチをリアルな画像編集に変換することもできます。たとえば、蝶ネクタイとバースデーハットをかぶったコーギーの画像は、落書きスケッチからリアルな画像に変換されました。 上記の機能はどのように実現されるのでしょうか?新しいモデル GLIDE では、OpenAI はテキストから画像を生成する問題にガイド付き拡散を適用します。まず、自然言語の説明を条件とするテキスト エンコーダーを使用して 35 億のパラメーターの拡散モデルをトレーニングし、次に拡散モデルをテキスト プロンプトに誘導する 2 つの方法 (CLIP ガイダンスと分類器ガイダンスなし) を比較しました。研究では、手動および自動の評価を通じて、分類器のガイダンスではより高品質の画像を生成できないことが判明しました。
研究では、分類器のガイダンスなしでモデルを使用して生成されたサンプルは現実的であり、現実世界の幅広い知識を反映していることがわかりました。人間による評価の結果、GLIDE の生成結果は DALL-E よりも優れていることがわかりました。 さらに、DALL-E には 120 億のパラメータがあるのに対し、GLIDE には 35 億のパラメータしかないにもかかわらず、より優れたパフォーマンスを実現していることも注目に値します。 GLIDEのモデル詳細を詳しく見てみましょう。 GLIDE: 35億のパラメータを持つテキスト条件付き拡散モデルOpenAI は、64 × 64 の画像解像度で 35 億のパラメータを持つテキスト条件付き拡散モデルと、15 億のパラメータを持つテキスト条件付きアップサンプリング拡散モデルをトレーニングし、画像解像度を 256 × 256 に上げました。 CLIP ガイダンスのために、OpenAI はノイズを考慮した 64 × 64 ViT-L CLIP モデルもトレーニングしました。 テキスト条件拡散モデルOpenAI は、Dhariwal & Nichol (2021) が提案した ADM モデル アーキテクチャを使用しますが、テキスト条件情報で拡張します。ノイズの多い画像x_tとそれに対応するテキストキャプションごとに、モデルはp(xt−1|xt, caption)を予測します。テキストを条件付けるために、OpenAI はまずテキストを K 個のトークンのシーケンスにエンコードし、次にこれらのトークンを Transformer モデルに入力します (Vaswani ら、2017)。このトランスの出力は、次の 2 つの方法で使用されます。
OpenAI は、DALL-E とまったく同じデータセットでモデルをトレーニングし、512 個のモデル チャネルを持つ Dhariwal & Nichol (2021) が提案した ImageNet 64 × 64 モデルと同じモデル アーキテクチャを使用した結果、モデルの視覚部分に約 23 億個のパラメーターが生成されました。テキストエンコーディングTransformerの場合、OpenAIは24個の残差ブロックを使用し、結果として約12億個のパラメータが生成されます。 さらに、OpenAI は 15 億のパラメータを持つアップサンプリング拡散モデルをトレーニングし、画像の解像度を 64×64 から 256×256 に向上させました。このモデルもテキストに基づいていますが、幅が 2048 ではなく 1024 の小さいテキスト エンコーダーを使用します。 分類器のガイダンスなしで微調整初期モデルのトレーニングが完了したら、ベースモデルを微調整して無条件の画像生成をサポートできます。トレーニング プロセスは事前トレーニングとまったく同じですが、テキスト トークン シーケンスの 20% が空のシーケンスに置き換えられます。このようにして、モデルはテキスト条件付き出力を生成する機能を保持しながら、無条件に画像を生成することもできます。 画像の修復と編集これまでの画像修復作業の欠点は、モデルがサンプリング プロセス中にコンテキスト情報全体を見ることができないことです。より良い生成効果を得るために、OpenAI はモデルを微調整しました。微調整中に、トレーニング サンプルの一部の領域がランダムに消去され、残りの領域は追加の条件情報としてマスク チャネルとともにモデルに入力されました。 OpenAI はモデル アーキテクチャを変更し、2 番目の RGB チャネル セットとマスク チャネルの 4 つの入力チャネルを追加しました。微調整を行う前に、OpenAI はこれらの新しいチャネルの対応する入力重みをゼロに初期化しました。アップサンプリング モデルの場合、OpenAI は完全な低解像度画像を提供しますが、マスクされていない領域には高解像度画像を提供します。 CLIPガイド拡散分類器ガイダンスと CLIP ガイダンスの類似性を考慮すると、テキスト条件付き拡散モデルの生成品質を向上させるために CLIP を適用するのは自然なことと思われます。 Dhariwal & Nichol (2021) の分類器ガイダンス手法により適合させるために、OpenAI は、ノイズの多い画像を受信し、64 × 64 の解像度でモデルをトレーニングする画像エンコーダーを使用して、ノイズを考慮した CLIP モデルをトレーニングしました。 実験結果この研究では、GLIDE と以前の SOTA モデルを定性的に比較し、その結果を以下の図 5 に示します。 GLIDE はよりリアルな画像を生成し、CLIP の並べ替えや選択を必要としません。 定量的な結果この研究では、まず、画像品質と忠実度のトレードオフのパレート最適解に注目して、分類器を使用しないガイダンスと CLIP ガイダンスの違いを評価します。下の図 6 は、64 × 64 解像度でのゼロショット MS-COCO 生成における 2 つの方法を評価しています。 本研究で実施した人間による評価実験は以下のとおりです。 被験者は 2 つの 256 × 256 の画像を見て、与えられたキャプションによく合っているか、よりリアルに見えるかという 2 つの基準に基づいて、より良い画像を選択するように求められました。評価結果を下の図7に示します。 人間による評価の結果は、以下の表 1 の結果と比較されます。この研究では、人間と CLIP ガイダンスによって与えられたスコアに一貫性がないため、分類器ガイダンスでは人間の認知と一致する高品質の生成結果を生成することができないことがわかりました。 さらに、研究者らは GLIDE を他のテキスト画像変換モデルと比較し、その結果を以下の表 2 に示します。 GLIDE は MS-COCO で競争力のある FID を実現します。 最後に、本研究では上記のヒト評価実験設定を使用してGLIDEとDALL-Eを比較し、その結果を以下の表3に示します。 GLIDE のトレーニングでは DALL-E とほぼ同じトレーニング コンピューティングが使用されますが、モデルははるかに小さく (35 億のパラメーター対 120 億のパラメーター)、必要なサンプリング レイテンシが少なく、CLIP の並べ替えも必要ありません。 |
<<: 単一のViTモデルがマルチモーダルおよびマルチタスクのタスクを実行し、Googleは共同トレーニング戦略を使用して複数のSOTAを達成します。
ArcSoft ビジュアルオープンプラットフォームであるArcFace 3.0の発売以来、アルゴリ...
[51CTO.com クイック翻訳] AI や機械学習モデルの開発は簡単ではありません。さまざまなシ...
従来の観点から見ると、目に見えず、実体のない風が新しい日にどのような挙動を示すかを予測することは依然...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
8月21日、北京日報によると、北京市衛生健康委員会は最近、「北京市インターネット医療監督実施弁法(試...
スマート セキュリティは、新しい AI 機能のおかげで、静的なセキュリティ ビデオ録画からリアルタイ...
マーク・カネル、イマジネーション・テクノロジーズ、 戦略およびセキュリティ担当副社長[[281448...
最近、自動運転に関する悪いニュースが数多く報道されていますが、特にアリゾナ州で Uber の自動運転...
ディープラーニングと人工知能は誰もが知る名前になりましたが、この革命を推進する統計学の進歩はあまり知...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[411501]]この記事はWeChatの公開アカウント「Xiao Lin Coding」から転...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...