VAE から拡散モデルへ: テキストを使用して画像を作成する新しいパラダイム

VAE から拡散モデルへ: テキストを使用して画像を作成する新しいパラダイム

1 はじめに

DALL·E のリリースから 15 か月後、OpenAI は今春、続編の DALL·E 2 を発表しました。これは、より素晴らしいエフェクトと豊富なプレイアビリティにより、主要な AI コミュニティですぐに注目を集めました。近年、生成的敵対的ネットワーク (GAN)、変分オートエンコーダー (VAE)、拡散モデルの出現により、ディープラーニングは強力な画像生成能力を世界に実証してきました。また、GPT-3 や BERT などの NLP モデルの成功と相まって、人間は徐々にテキストと画像の間の情報境界を打ち破りつつあります。

DALL·E 2では、簡単なテキスト(プロンプト)を入力するだけで、1024×1024の高解像度画像を複数生成できます。これらの画像は、図 1 の「フォトリアリスティックなスタイルで馬に乗る宇宙飛行士」のように、無意味な意味を表現したり、シュールな形で幻想的な視覚効果を生み出したりすることもできます。

図1. DALL·E 2世代の例

この記事では、DALL·E などの新しいパラダイムがテキストを通じてどのように多くの素晴らしい画像を作成するかを深く解釈します。この記事では、多くの背景知識と基本的な技術の紹介をカバーしており、画像生成の分野に不慣れな読者にも適しています。

2 画像生成

図2. 主流の画像生成方法

2014年に敵対的生成ネットワーク(GAN)が誕生して以来、画像生成の研究はディープラーニング、さらには人工知能の分野全体において重要な最先端のテーマとなっています。この段階では、偽物と本物を区別できないほど技術が発達しています。よく知られている敵対的生成ネットワーク (GAN) に加えて、変分オートエンコーダ (VAE) やフローベースの生成モデル、さらに最近注目を集めている拡散モデルも主流の手法です。図 2 を参考にして、各方法の特徴と相違点を探ります。

2.1 生成的敵対ネットワーク (GAN)

GANの正式名称は  エネルギーのある  敵対的な いいえ このネットワークの成功の根幹は「Adversarial」にあることは、その名前から容易に読み取れます。対決のアイデアはゲーム理論にヒントを得ています。ジェネレータをトレーニングしながら、入力が実際の画像か生成された画像かを判断するように識別器をトレーニングします。式(1)に示すように、2つはミニマックスゲームで互いに競争し、どんどん強くなります。ランダムノイズから「騙される」ほど良い画像を生成すると、実際の画像のデータ分布にうまく適合し、サンプリングによって大量の現実的な画像を生成できると考えられます。

GAN は生成モデルで最も広く使用されているテクノロジーであり、画像、ビデオ、音声、NLP などの多くのデータ合成シナリオで効果を発揮します。ランダムノイズから直接コンテンツを生成するだけでなく、条件 (分類ラベルなど) をジェネレーターと識別子への入力として追加して、生成された結果が条件入力のプロパティを満たし、生成されたコンテンツを制御できるようにすることもできます。 GAN は優れた効果を発揮しますが、ゲームメカニズムが存在するため、トレーニングの安定性が悪く、モード崩壊が発生しやすいです。モデルをゲーム均衡点にスムーズに到達させる方法も、GAN のホットな研究テーマです。

2.2 変分オートエンコーダ(VAE)

変分オートエンコーダはオートエンコーダのバリエーションです。従来のオートエンコーダは、元の入力を中間表現に圧縮してそれを復元するという 2 つのプロセスを完了するために、教師なし方式でニューラル ネットワークをトレーニングするように設計されています。前者は、エンコーダを介して元の高次元入力を低次元の隠し層コードに変換し、後者はデコーダを介してコードからデータを再構築します。オートエンコーダの目標が恒等関数を学習することであることは、簡単に理解できます。クロスエントロピーまたは平均二乗誤差を使用して再構成損失を構築し、入力と出力の差を定量化できます。図 3 に示すように、上記のプロセスでは、元のデータの潜在的な属性をキャプチャし、データ圧縮と特徴表現に使用できる低次元潜在層コードを取得します。

図3. オートエンコーダの潜在属性エンコーディング

オートエンコーダは隠れ層コードの再構成能力のみに焦点を当てているため、隠れ層空間の分布は不規則で不均一であることがよくあります。コードセットを取得するために連続した隠れ層空間でランダムサンプリングまたは補間を行うと、通常、意味がなく説明できない生成結果が生成されます。さまざまな潜在属性をランダムにサンプリングしてスムーズに補間し、最終的にデコーダーを通じて意味のある画像を生成できる規則的な潜在空間を構築するために、研究者は 2014 年に変分オートエンコーダーを提案しました。

変分オートエンコーダは、入力を潜在空間の固定コードにマッピングするのではなく、潜在空間の確率分布推定値に変換します。表現の便宜上、事前分布は標準のガウス分布であると仮定します。同様に、潜在空間分布から実際のデータ分布へのマッピングを実現するために、確率的デコーダー モデルをトレーニングします。入力が与えられると、事後分布を通じて分布のパラメータ(多変量ガウスモデルの平均と共分散)を推定し、この分布をサンプリングします。再パラメータ化手法を使用してサンプリングを微分可能(ランダム変数)にし、最終的に確率デコーダーを通じて分布を出力します(図 4 を参照)。生成された画像をできるだけリアルにするためには、実際の画像の対数尤度を最大化することを目的として事後分布を解く必要があります。

図4. 変分オートエンコーダのサンプリング生成プロセス

残念ながら、真の事後分布はベイズモデルに従って連続空間上での積分を伴い、直接解くことはできません。上記の問題を解決するために、変分オートエンコーダは変分推論法を使用し、学習可能な確率エンコーダを導入して真の事後分布を近似し、KL ダイバージェンスを使用して 2 つの分布の差を測定し、問題を真の事後分布を解くことから 2 つの分布間の距離を狭める方法へと変換します。

中間の導出過程を省略し、上式を展開すると式(2)が得られる。

KLダイバージェンスは非負なので、最大化目標を式(3)のように書き直すことができます。

要約すると、確率エンコーダーと確率デコーダーをモデルの損失関数として定義します。その負の形式は証拠下限と呼ばれます。証拠下限を最大化することは、目的を最大化することと同じです。上記の変分プロセスは、VAE とそのさまざまなバリエーションの核となる考え方です。変分推論を通じて、問題は実際のデータを生成するための証拠の下限を最大化する問題に変換されます。

2.3 フローベースモデル

図5. フローベースの生成プロセス

図5に示すように、一連の可逆変換関数を通じて既知の分布から元のデータ分布を取得できると想定されています。ヤコブ行列式と変数変更規則により、実データの確率密度関数(式(4))を直接推定し、計算可能な対数尤度を最大化することができます。

 これは伝達関数のヤコブ行列式であるため、可逆であり、ヤコブ行列式の計算が容易であることが求められます。 Glow などのフローベースの生成モデルは、正確な密度推定のために 1x1 可逆畳み込みを使用し、顔生成で良好な結果を実現します。

2.4 拡散モデル

図6. 拡散モデルの拡散と逆過程

拡散モデルは、順方向と逆方向の 2 つのプロセスを定義します。順方向プロセス、つまり拡散プロセスは、実際のデータ分布からサンプリングし、サンプルに徐々にガウス ノイズを追加して、ノイズ サンプル シーケンスを生成することです。ノイズ追加プロセスは分散パラメータによって制御でき、ガウス分布とほぼ同等になります。拡散過程は予め設定された制御可能な過程であり、ノイズ付加過程は条件付き分布によって式(5)のように表される。

拡散プロセスの定義から、任意のステップサイズでアップサンプリングを使用できることがわかります。

同様に、拡散過程を逆にして、ガウスノイズからサンプリングし、真の条件付き確率分布を推定するモデルを学習することができる。したがって、逆過程は式(7)のように定義できる。

拡散モデルの最適化対象には多くの選択肢があります。例えば、トレーニングプロセスでは、順方向プロセスから直接計算できるため、予測分布からサンプリングすることができます。サンプリングプロセスでは、画像分類とテキストラベルを条件入力として追加し、最小平均二乗誤差を使用して再構成損失を最適化できます。このプロセスはオートエンコーダーと同等です。

ノイズ除去拡散確率モデルDDPMでは、再パラメータ化技術によりノイズ予測モデル損失(式(8))の簡略版を構築し、ステップサイズ  ノイズを予測するモデルのトレーニング  推論プロセスで使用される

ノイズ除去データの予測  顔画像のノイズ除去にはガウス分布平均が使用されます。

3 マルチモーダル表現学習

3.1 Transformer 上の NLP

図7. BERTとGPT

BERT と GPT は近年の NLP 分野における非常に強力な事前トレーニング済み言語モデルであり、記事生成、コード生成、機械翻訳、Q&A などの下流タスクで大きな進歩を遂げています。どちらもアルゴリズムの主なフレームワークとしてTransformerを使用していますが、実装の詳細は若干異なります(図7)。

BERT は本質的に双方向エンコーダーであり、自己教師ありアプローチを使用して、マスク言語モデル (MLM) と次文予測 (NSP) の 2 つのタスクを通じてテキスト機能表現を学習します。Word2Vec を置き換えて、他の学習タスクに移行できます。 GPT は本質的には自己回帰デコーダーであり、大量のデータと継続的なモデルの積み重ねを使用して、言語モデルが次のテキストを予測する可能性を最大化します。重要なのは、トレーニング プロセス中に、GPT の後続のテキストがマスクされ、前のテキストのトレーニングと予測時に表示されないのに対し、BERT ではすべてのテキストが互いに表示され、自己注意の計算に参加することです。BERT は、入力をランダムにマスクまたは置き換えることで、モデルの堅牢性と表現力を向上させます。

3.2 ViT(ビジョントランスフォーマー)

NLP の分野における Transformer の大きな成功により、研究者たちは画像の特徴を表現する能力について考えるようになりました。 NLP とは異なり、画像情報は膨大かつ冗長です。Transformer モデリングを直接使用すると、トークンの数が多くなり、モデルが学習できなくなります。研究者らがViTを提案したのは2020年になってからで、これはパッチ法と線形投影法によって画像データの次元を削減し、Transformer Encoderを画像エンコーダーとして使用して分類予測結果を出力するもので、かなりの成果を上げました。

図8. ViT

現在、Transformer は画像処理分野における新たな研究対象となっており、その強力な可能性により CNN の地位に挑戦し続けています。

3.3 クリップ

CLIP (Contrastive Language-Image Pretraining) は、OpenAI が提案した画像とテキストの特徴表現を結び付ける対照学習手法です。図9に示すように、CLIPはTransformerを介してテキストと画像のペアをエンコードしてトークンペアを生成し、ドット積演算を使用して類似性を測定します。その結果、各テキストについて、すべての画像のワンホット分類確率が得られ、逆に、各画像からすべてのテキストの分類確率も得られます。トレーニングプロセスでは、図9(1)の確率行列の各行と列を計算することでクロスエントロピー損失を最適化します。

図9. クリップ

CLIP はテキストと画像の特徴表現を同じ空間にマッピングします。クロスモーダル情報転送は実現できませんが、特徴圧縮、類似度測定、クロスモーダル表現学習の手法として非常に効果的です。直感的には、ラベル範囲内で生成されたすべてのテキストプロンプトの出力に最も類似した画像トークンを取得し、画像分類を完了します(図9(2))。特に、画像とラベルのデータ分布がトレーニングセットに一度も現れていない場合でも、CLIPはゼロショット学習の能力を備えています。

4 クロスモーダル画像生成

前 2 章で紹介した後、画像生成とマルチモーダル表現学習に関連する基礎技術を体系的にレビューしました。この章では、最新のクロスモーダル画像生成手法を 3 つ紹介し、これらの基礎技術をどのようにモデリングに使用しているかを説明します。

4.1 ダルE

DALL·Eは2021年初頭にOpenAIによって提案され、テキストを入力して画像を出力する自己回帰デコーダーをトレーニングすることを目的としています。 CLIP の成功経験に基づいて、テキスト機能と画像機能を同じ機能空間にエンコードできることがわかっているので、Transformer を使用して、テキスト トークンと画像トークンを単一のデータ ストリームとして自己回帰的にモデル化できます。

DALL·E のトレーニング プロセスは 2 つの段階に分かれています。図 10 に示すように、最初の段階では画像のエンコードとデコードを行う変分オートエンコーダをトレーニングし、2 番目の段階ではテキストと画像の自己回帰デコーダをトレーニングして、生成された画像のトークンを予測します。

図10. DALL·Eトレーニングプロセス

推論プロセスは比較的直感的です。テキスト トークンは、自己回帰トランスフォーマーを使用して徐々に画像トークンにデコードされます。デコード プロセス中に、分類確率を使用して複数のサンプル グループをサンプリングし、複数のサンプル トークン グループを変分オートエンコーダーに入力して、生成された複数の画像をデコードし、図 11 に示すように、CLIP 類似度計算によってランク付けおよび選択することができます。

図11. DALL·Eの推論プロセス

VAE と同様に、確率エンコーダと確率デコーダを使用して、それぞれ隠れた特徴の事後確率分布と生成された画像の尤度確率分布をモデル化します。Transformer によって予測されたテキストと画像の結合確率分布を事前分布として使用します (最初の段階で均一分布に初期化されます)。同様に、最適化目標の証拠の下限を取得できます。

トレーニングの最初の段階では、DALL E は離散変分オートエンコーダ (Discrete VAE) (略して dVAE) を使用しました。これは、ベクトル量子化 VAE (VQ-VAE) のアップグレード バージョンです。 VAE では、確率分布を使用して連続潜在空間を特徴付け、ランダム サンプリングによって潜在コードを取得しますが、このコードは離散言語やテキストほど決定論的ではありません。画像の隠し空間の「言語」を学習するために、VQ-VAE は学習可能なベクトル量子化のセットを使用して隠し空間を表します。この量子化された隠し空間を埋め込み空間またはコードブック/語彙と呼びます。 VQ-VAE のトレーニングおよび予測プロセスは、画像エンコード ベクトルに最も近い隠しベクトルを見つけ、マッピングされたベクトル言語を画像にデコードすることを目的としています (図 12)。損失関数は 3 つの部分で構成され、それぞれ再構成損失の最適化、埋め込み空間の更新、エンコーダの更新が行われ、勾配が終了します。

図12. VQ-VAE

最近傍選択仮定により、VQ-VAE は事後確率を確定します。つまり、最も近い隠れ層ベクトルの確率は 1 で、残りは 0 であり、ランダムではありません。最近接ベクトル選択プロセスは微分可能ではなく、勾配を渡すためにストレートスルー推定法が使用されます。

図13. dVAE

上記の問題を最適化するために、DALL·E は Gumbel-Softmax を使用して新しい dVAE を構築しました (図 13)。デコーダーの出力は、埋め込み空間内の 32*32 K=8192 次元の分類確率になります。トレーニング プロセス中に、分類確率の Softmax 計算にノイズが追加され、ランダム性が導入されます。徐々に低下する温度を使用して、確率分布をワンホット エンコーディングに近似させます。非表示層ベクトルの選択は、微分可能にするために再パラメーター化されます (式 (11))。推論プロセス中は、最近傍が引き続き使用されます。

PyTorch実装では、hard=Trueを設定すると近似ワンホットエンコーディングを出力し、   y_hard = y_hard - y_soft.detach() + y_soft  伝導性を維持してください。

トレーニングの最初の段階が完了したら、dVAE を修正して、各テキストと画像のペアに対して予測されたターゲットの画像トークンを生成できます。トレーニングの第 2 段階では、DALL E は BPE メソッドを使用して、テキストを画像トークンと同じ次元 d=3968 のテキスト トークンにエンコードし、次にテキスト トークンと画像トークンを連結し、位置エンコードとパディング エンコードを追加し、Transformer Encoder を使用して自己回帰予測を行います (図 14 を参照)。計算速度を向上させるために、DALL·E は行、列、畳み込みの 3 つのスパース アテンション マスク メカニズムも採用しています。

図14. DALL·Eの自己回帰デコーダ

上記の実装に基づいて、DALL·E はテキスト入力に基づいて「実際の」画像を生成するだけでなく、図 15 に示すように、融合作成、シーン理解、スタイル変換も実行できます。また、ゼロショットやプロフェッショナル分野ではDALL·Eの効果が低下する可能性があり、生成される画像の解像度は低くなります(256×256)。

図15. DALL·Eのさまざまな生成シナリオ

4.2 ダレ・エ2

OpenAIは、画像生成の品質をさらに向上させ、テキスト画像特徴空間の解釈可能性を探るために、拡散モデルとCLIPを組み合わせたDALL・E 2を2022年4月に提案しました。生成サイズを1024×1024に拡大しただけでなく、特徴空間での補間操作を通じてテキスト画像特徴空間の移行プロセスを可視化しました。

図16に示すように、DALL·E 2は、CLIPコントラスト学習によって得られたテキスト埋め込みと画像埋め込みをモデル入力および予測オブジェクトとして使用します。具体的なプロセスは、事前Priorを学習し、テキストから対応する画像埋め込みを予測することです。この記事では、トレーニングにそれぞれ自己回帰Transformerと拡散モデルを使用しています。後者はさまざまなデータセットでより優れたパフォーマンスを発揮します。次に、CLIP画像エンコーダーの逆プロセスと見なすことができる拡散モデルデコーダーUnCLIPを学習します。事前予測によって得られた画像埋め込みは、制御を実現するための条件として追加されます。テキスト埋め込みとテキストコンテンツはオプションの条件です。解像度を向上させるために、UnCLIPは2つのアップサンプリングデコーダー(CNNネットワーク)も追加し、逆に大きな画像を生成します。

図16. DALL·E 2

Prior の拡散モデル トレーニングでは、DALL·E 2 は Transformer Decoder を使用して拡散プロセスを予測します。入力シーケンスは、BPE エンコードされたテキスト + テキスト埋め込み + タイムステップ埋め込み + 現在のノイズのある画像埋め込みです。ノイズ除去された画像埋め込みを予測し、MSE を使用して損失関数を構築します。

モデルが特定のテキスト ラベルに対して方向性のある結果を生成しないようにするために、DALL·E 2 は特徴の豊富さを減らし、拡散モデルの予測条件に制限を追加して、分類器を使用しないガイダンスを保証します。例えば、Prior や UnCLIP の拡散モデルのトレーニングでは、テキスト埋め込みを追加するなどの条件に対してドロップ確率が設定されており、生成プロセスが依存する条件入力を完了しないようにします。したがって、逆生成プロセスでは、基本的な特徴を維持しながら画像埋め込みをサンプリングすることで、同じ画像の異なるバリエーションを生成することができます。また、画像埋め込みとテキスト埋め込みをそれぞれ補間し、補間率を制御して、図17に示すように、スムーズな移行の視覚的な結果を生成することもできます。

図17. DALL·E 2で実現可能な画像特徴の保存と移行

DALL·E 2は、PriorとUnCLIPの有効性を検証するために、多数の実験を行いました。例えば、1) UnCLIP生成モデルにテキストコンテンツのみを入力する、2) UnCLIP生成モデルにテキストコンテンツとテキスト埋め込みのみを入力する、3) 上記の方法に基づいてPriorが予測した画像埋め込みを追加する、という3つの方法が使用されました。3つの方法の生成効果は徐々に向上し、Priorの有効性が検証されました。さらに、DALL·E 2 は PCA を使用して潜在空間の埋め込みの次元を削減します。次元が減少するにつれて、生成された画像の意味的特徴は徐々に弱まります。最後に、DALL·E 2はMS-COCOデータセットで他の方法と比較し、FID = 10.39で最高の生成品質を達成しました(図18)。

図18. MS-COCOデータセットにおけるDALL·E 2の比較結果

4.3 アーニー・ヴィルグ

ERNIE-VILG は、2022 年初頭に Baidu Wenxin によって提案された中国語シナリオ向けのテキストと画像の双方向生成モデルです。

図19. ERNIE-VILG

ERNIE-VILG の考え方は DALL·E の考え方に似ています。これは、事前トレーニング済みの変分オートエンコーダーを介して画像の特徴をエンコードし、Transformer を使用してテキストトークンと画像トークンを自己回帰的に予測します。主な違いは次のとおりです。

  • ERNIE-VILG は Baidu Wenxin プラットフォーム技術を採用しており、中国のシーンを処理できます。
  • テキストから画像への自己回帰プロセスに加えて、画像からテキストへの方向性プロセスもモデル化され、双方向プロセスパラメータが共有されます。
  • テキストから画像への自己回帰のプロセスでは、テキスト トークン間でマスク処理は実行されません。
  • VQ-VAE と VQ-GAN は、画像のエンコードとデコードに使用されます。画像のデコード プロセスは、マップとフラット化を介して自己回帰プロセスに接続され、エンドツーエンドのトレーニングを実現します。

ERNIE-VILG のもう 1 つの強力な機能は、図 20 に示すように、中国のシーンにおける複数のオブジェクトと複雑な位置関係の生成を処理できることです。

図20 ERNIE-VILG生成の例

IV. 結論

この記事では、変分オートエンコーダや拡散モデルなどの生成手法の応用、CLIP などのテキスト-画像潜在空間表現の学習方法、離散化や再パラメータ化などのモデリング手法など、例を挙げてテキストから画像を生成する最新の新しいパラダイムについて説明します。

現在、テキストから画像への生成技術は敷居が高く、そのトレーニングコストは顔認識、機械翻訳、音声合成などの単一モーダル方式をはるかに上回っています。DALL Eを例にとると、OpenAIは2億5000万組のサンプルを収集してラベル付けし、1,024個のV100 GPUを使用して120億のパラメータを持つモデルをトレーニングしました。さらに、画像生成の分野では、人種差別、暴力的なポルノ、機密性の高いプライバシーなどの問題が常に存在しています。 2020年以降、ますます多くのAIチームがクロスモーダル生成研究に投資しており、近い将来、現実世界と生成された世界の真実と虚偽を区別することが困難になるかもしれません。

<<:  デジタル変革の本質、道筋、段階、課題を1つの記事で解説

>>:  スマートホームにはスマートロボットが必要ですか?

ブログ    

推薦する

5G+AIは通信とコンピューティングを統合する

人工知能(AI)の急速な発展は、さまざまな業界に革命的な変化をもたらし、イノベーションの新たな時代を...

在庫 | 今年の世界の AI 事情

​​​ [[253255]]​​ 1. 2018 年の世界の AI 業界の発展は非常に爆発的でした。...

人工知能と機械学習の違いは何ですか?

[[197626]]人工知能は新しい用語ではなく、その開発の歴史は数十年にわたります。それは 19...

サーマルイメージングによって施設と従業員の安全性がどのように向上するのでしょうか?

監視範囲の死角、互換性のないビデオおよびアクセス制御システム、適切な境界保護の欠如...これらは、施...

リソースインベントリ: 便利な自動データサイエンスおよび機械学習ソフトウェア

[[208290]]概要: この記事では、海外の便利な自動データ サイエンスおよび機械学習ソフトウェ...

マスク:オプティマスプライムと歩く

テスラのロボットが服を畳むという現象が、今、大流行している。数日後、マスク氏はオプティマスプライムが...

人民日報オンライン:「初の顔認証事件」の最終判決は極めて重要な意味を持つ

[[392372]] 4月9日、注目されていた「初の顔認証事件」の最終判決が下された。被告杭州野生動...

新しい調査によると、アメリカ人の48%は自動運転車に乗りたくないと考えている。

自動運転の開発は本当に難しいです。この困難は技術的な難しさだけでなく、人々の直感的な不信感によっても...

チューリングマシン: コンピューターが存在しないときに計算についてどのように話せばいいのでしょうか?

1950 年 10 月に、「機械は考えることができるか?」と題する論文が発表されました。この論文で...

AIと機械学習が建設業界にもたらす変化

建設業界は長い間、伝統的な手作業のプロセスで知られてきましたが、テクノロジーの進歩により急速に変化し...

AIカンファレンスは数多くあるが、私たちは違う

[51CTO.com からのオリジナル記事] テクノロジーが国の基盤であるならば、人工知能は将来の技...

計算知能とは何ですか?今日の世界における人工知能と機械学習

テクノロジーは発見に依存し、発見はテクノロジーの進歩に依存します。これは計算知能の文脈ではまさに真実...

ファーウェイクラウドは、2021年世界インターネット会議で人工知能イノベーションの3つの要素を提案し、新たな産業エコシステムを構築

本日、2021年世界インターネット大会烏鎮サミットにおいて、ファーウェイ上級副社長、ファーウェイクラ...

...