これはオートエンコーダーとRNNの両方である。DeepMindの科学者は拡散モデルを8つの観点から分析する。

最も人気のある AI ペイントツールの 1 つである Stable Diffusion を試したことがあれば、拡散モデルの強力な生成機能をすでに体験していることになります。しかし、詳しく調べて仕組みを理解しようとすると、さまざまな形式の拡散モデルがあることがわかります。

拡散モデルに関する研究論文をランダムに 2 つ選択し、それぞれの序論にあるモデルクラスの説明を見ると、おそらくその説明がかなり異なっていることに気付くでしょう。これは、イライラさせられると同時に啓発的でもあります。イライラさせられるのは、論文と実装の関係がわかりにくくなるからです。啓発されるのは、それぞれの視点から新たなつながりが明らかになり、新たなアイデアが生まれるからです。

最近、DeepMind の研究科学者 Sander Dieleman 氏が、拡散モデルに関する自身の見解をまとめた長いブログ記事を公開しました。

この記事は、昨年執筆された「拡散モデルはオートエンコーダである」という記事のさらなる拡張です。このタイトルは少し皮肉っぽいですが、拡散モデルとオートエンコーダの密接な関係も強調しています。彼は、人々は今でもこのつながりを過小評価していると考えています。

興味のある読者は、https://sander.ai/2022/01/31/diffusion.html をご覧ください。

この新しい記事では、Dieleman が、オートエンコーダーとしての拡散モデル、深層潜在変数モデル、スコア関数を予測するモデル、逆確率微分方程式を解くモデル、フローモデル、リカレントニューラルネットワーク、自己回帰モデル、期待値を推定するモデルなど、さまざまな観点から拡散モデルを分析しています。また、普及モデル研究の現状についての見解も述べました。

拡散モデルはオートエンコーダである

ノイズ除去オートエンコーダは、入力がノイズによって破損したニューラルネットワークであり、そのタスクはクリーンな入力を予測すること、つまり破損を修復することです。このタスクをうまく実行するには、クリーンなデータの分布を学習する必要があります。これらは非常に一般的に使用されている表現学習方法であり、ディープラーニングの初期には、ディープニューラルネットワークのレイヤーごとの事前トレーニングにも使用されていました。

拡散モデルで使用されるニューラルネットワークは、多くの場合、非常によく似た問題を解決します。つまり、ノイズに汚染された入力例が与えられた場合、そのデータ分布に関連する何らかの量を予測する必要があるということです。これは、対応するクリーンな入力（ノイズ除去オートエンコーダーの場合）、追加されたノイズ、またはその中間のもの（これについては後で詳しく説明します）になります。障害プロセスが線形の場合、つまりノイズが加算される場合、これらすべては同等であり、ノイズの多い入力から予測値を減算するだけで、ノイズの多い入力を予測するモデルをクリーンな入力を予測するモデルに変換できます。ニューラルネットワークの用語では、これは入力から出力への残差接続を追加することを意味します。

ノイズ除去オートエンコーダ（左）と拡散モデル（右）の概略図

いくつかの重要な違いがあります:

入力の有用な表現を学習する場合、ノイズ除去オートエンコーダの途中のどこかに、表現を学習する能力を制限する何らかの情報ボトルネックが発生する傾向があります。ノイズ除去タスク自体は、目的を達成するための手段にすぎず、トレーニング後にモデルを実際に使用する目的ではありません。拡散モデリングに使用されるニューラルネットワークには、予測に到達するために使用される内部表現よりも予測自体が重視されるため、通常、このようなボトルネックはありません。
ノイズ除去オートエンコーダは、さまざまな種類のノイズを使用してトレーニングできます。たとえば、入力の一部をマスクしたり (ノイズをマスクしたり)、任意の分布 (通常はガウス分布) からノイズを追加したりできます。拡散モデルの場合、多くの操作を簡素化する有用な数学的特性があるため、通常はガウスノイズを追加します。
もう 1 つの重要な違いは、ノイズ除去オートエンコーダーは特定の強度のノイズを処理するようにトレーニングされていることです。拡散モデルでは、ノイズの多い入力や少ない入力に基づいて何かを予測します。ノイズレベルもニューラルネットワークへの入力となります。

実際、著者は以前にもこの2つの関係について詳しく論じています。この関係をより深く理解したい読者は、https://sander.ai/2022/01/31/diffusion.htmlをご覧ください。

拡散モデルは深層潜在変数モデルである

Sohl-Dickstein らは、ICML 2015 の論文で、拡散プロセスを使用してデータの構造を徐々に破壊し、そのプロセスを逆に学習することで生成モデルを構築することを初めて提案しました。 5年後、Hoらはこれに基づいてノイズ除去拡散確率モデル（DDPM）を開発し、スコアベースモデルとともに拡散モデルの青写真を形成しました。

DDPM図

DDPM 上図に示すように、x_T (暗黙的) はガウスノイズを表し、x_0 (観測) はデータ分布を表します。これらのランダム変数は、有限個の中間潜在変数 x_t (通常 T=1000) によって接続され、マルコフ連鎖を形成します。つまり、x_{t-1} は x_t のみに依存し、連鎖内の以前のランダム変数には直接依存しません。

このマルコフ連鎖のパラメータは、変分推論を使用して拡散プロセスを逆転させることによってフィッティングされます。拡散プロセス自体はマルコフ連鎖です（図では反対方向、q(x_t|x_{t−1}) として表されます）が、この連鎖により、データに徐々にガウスノイズが追加されます。

具体的には、変分オートエンコーダ (VAE) と同様に、簡単に最大化できる対数尤度の境界である証拠下限値 (ELBO) を記述できます。実は、このセクションのサブタイトルは「拡散モデルは Deep VAE」とも言えるのですが、別の観点から「拡散モデルはオートエンコーダー」と書いたことがあるため、混乱を避けるために現在のサブタイトルを選択しました。

q(x_t|x_{t−1}) はガウス分布であることはわかっていますが、モデルに適合させたい p(x_{t−1}|x_t) はガウス分布である必要はありません。しかし、個々のステップが十分に小さい限り（つまり、Tが十分に大きい限り）、パラメータを設定してp（x_{t−1}|x_t）をガウス分布のように見えるようにすることができ、その近似誤差はモデルが高品質のサンプルを生成できるほど十分に小さくなります。考えてみれば、これは少し意外なことです。サンプリングプロセスにおけるエラーは、T とともに蓄積される可能性が高いからです。

拡散モデルは分数関数を予測する

ほとんどの尤度ベースの生成モデルは、入力 x の対数尤度、log p (x|θ) をパラメータ化し、それを近似的に (VAE の場合) または正確に (フローモデルや自己回帰モデルの場合) 最大化するようにモデルパラメータ θ を適合させます。対数尤度は正規化する必要がある確率分布を表すため、通常、パラメータ θ のすべての可能な値が有効な分布を生成することを保証するためにいくつかの制約が必要になります。たとえば、自己回帰モデルは因果マスキングを通じてこれを保証しますが、ほとんどのフローモデルでは可逆的なニューラルネットワークアーキテクチャが必要です。

正規化の要件をうまく回避して分布を適合させる別の方法、スコアマッチングがあることがわかりました。これは、いわゆるスコアマッチング関数がp(x|θ)のスケーリングによって変化しないという観察に基づいています。これは簡単にわかります:

確率密度に適用されたスケーリング係数はすべて消滅します。したがって、スコア推定値を直接パラメータ化するモデルがあれば、尤度を直接最大化するのではなく、スコアマッチング損失を最小化することで分布を適合させることができます。

ただし、この形式を使用すると、任意のデータポイント x のグラウンドトゥルーススコアを計算する適切な方法がないため、損失関数は実用的ではない可能性があります。この要件を回避し、簡単に計算できる損失関数に変換するために使用できる手法はいくつかあり、その中には暗黙的スコアマッチング (ISM)、スライススコアマッチング (SSM)、ノイズ除去スコアマッチング (DSM) などがあります。ここでは最後の方法を詳しく見ていきます。

ここで、 x にガウスノイズを加えることによって得られます。これは、分布がガウス分布 N (x,σ^2) に基づいていることを意味し、その基本的な真理条件スコア関数は閉じた形式で計算できます。

この形式は非常に直感的な解釈が可能です。つまり、 x にノイズを追加して得られる x の拡張バージョンです。したがって、スコア（対数尤度の勾配上昇）に従って可能性を高めることは、ノイズ（の一部）を除去することに直接相当します。

ステップサイズ η=σ^2 を選択すると、1 ステップでクリーンなデータ x を回復できます。

L_SM と L_DSM は異なる損失関数ですが、期待される最小値が同じであるという利点があります。

ここで、C は定数です。 Pascal Vincent 氏は 2010 年にこの同等性を導き出しました。これをより深く理解したい場合は、彼の技術レポートを読むことを強くお勧めします: http://www.iro.umontreal.ca/~vincentp/Publications/smdae_techreport.pdf

このアプローチは重要な疑問を提起します。どれくらいのノイズを追加すべきか、つまり σ はいくらにすべきかということです。このハイパーパラメータに固定値を選択しても、実際にはうまく機能しません。騒音レベルが低い場合、低密度エリアのスコアを正確に推定することは非常に困難です。ノイズレベルが高い場合、追加されたノイズによって密度が全方向に広がるため、これはそれほど問題にはなりません。そして、モデル化している分布はノイズによって大幅に歪んでしまいます。良いアプローチは、さまざまなノイズレベルで密度をモデル化することです。このようなモデルができたら、サンプリングプロセス中に σ をアニールすることができます。つまり、大量のノイズから始めて、徐々にノイズを減らしていくのです。 Song と Ermon は、2019 年の論文でこれらの問題を詳細に説明し、この優れた解決策を提案しています。

このアプローチは、複数のノイズレベルでのノイズ除去スコアのマッチングと、サンプリング中のノイズの段階的なアニーリングを組み合わせたものです。結果として得られるモデルは基本的に DDPM と同等ですが、導出プロセスは完全に異なり、ELBO はまったくありません。

この方法のより詳細な議論については、論文の著者の一人であるSong Yangのブログを参照してください：https://yang-song.net/blog/2021/score/

拡散モデルは逆確率微分方程式を解く。

拡散モデルに関するこれまでの 2 つの観点 (深層潜在変数モデルとスコアマッチング) では、離散的かつ有限のステップが考慮されていました。これらのステップはガウスノイズのさまざまなレベルに対応しており、ステップインデックス t をそのステップでのノイズの標準偏差にマッピングする単調マップ σ(t) を記述できます。

ステップ数を無限大にすると、これらの離散インデックス変数を区間[0,T]上の連続値tに置き換えることができます。これは時間変数として解釈できます。つまり、σ(t)は時間の経過に伴うノイズの標準偏差の変化を記述するようになります。連続時間では、データポイント x に徐々にノイズを追加する拡散プロセスを次の確率微分方程式 (SDE) として記述できます。

この式は、x の微小変化と t の微小変化を関連付けます。ここで、dw は微小ガウスノイズを表し、ウィーナー過程とも呼ばれます。 f と g はそれぞれドリフト係数と拡散係数と呼ばれます。 f と g を具体的に選択すると、DDPM の構築に使用されるマルコフ連鎖の連続時間バージョンが生成されます。

SDE は微分方程式とランダム変数を組み合わせたもので、最初は難しそうに思えるかもしれません。幸いなことに、この観点が拡散モデルにどのように適用されるかを理解するために、既存の高度な SDE メカニズムをあまり必要としません。しかし、私たちが利用できる非常に重要な結果が 1 つあります。上記のような拡散プロセスを記述する SDE が与えられた場合、時間を逆にして反対方向のプロセスを記述する別の SDE を記述できます。

この式は拡散プロセスも記述します。

これは逆ウィーナー過程であり、時間依存のスコア関数です。この時間依存性は、ノイズレベルが時間の経過とともに変化するという事実から生じます。

なぜそうなるのかを説明するのはこの記事の範囲を超えています。興味のある読者は、拡散モデルのための SDE ベースの形式論を紹介した Song Yang らによるオリジナルの論文「確率微分方程式によるスコアベースの生成モデリング」を読むことができます。

具体的には、時間依存のスコア関数を推定する方法があれば、逆拡散プロセスをシミュレートして、ノイズから始まるデータ分布からサンプルを抽出することができます。この量を予測するためにニューラルネットワークを再度トレーニングし、それを逆 SDE に挿入して連続時間拡散モデルを取得できます。

実際には、この SDE をシミュレートするには、時間変数 t を再度離散化する必要があるため、なぜそうする必要があるのか疑問に思うかもしれません。これのすばらしい点は、サンプリング時にこの離散化を決定できるようになり、スコア予測モデルをトレーニングするまで固定する必要がないことです。つまり、サンプリングステップの数を選択することで、モデルを変更することなく、サンプリング品質と計算コストのバランスを自然に取ることができます。

拡散モデルはフローモデルである

フローモデルを覚えていますか?フローモデルは、パフォーマンスにおいて他のモデルに追いつくためにより多くのパラメータを必要とするため、現在では一般的に使用される生成モデルではありません。これは、表現力が限られているためです。フローモデルで使用されるニューラルネットワークは可逆である必要があり、ヤコビアンの対数は簡単に計算できる必要があります。これにより、実行可能な計算の種類が大幅に制限されます。

少なくとも、これは離散正規化フローの場合に当てはまります。連続正規化フロー (CNF) も存在し、通常はニューラルネットワークによってパラメーター化された常微分方程式 (ODE) の形式であり、データ分布内のサンプルと単純な基礎分布内の対応するサンプル間の決定論的なパスを記述します。 CNF は前述のニューラルネットワークアーキテクチャの制約を受けませんが、元の形式ではバックプロパゲーションを使用した ODE ソルバーを通じてトレーニングする必要があります。これをより効率的に行うために使用できるトリックがいくつかありますが、これにより、より多くの人がこれを使用できなくなる可能性もあります。

拡散モデルの SDE 形式化を思い出します。これは、単純な基礎分布からのサンプルをデータ分布からのサンプルにマッピングするランダムプロセスを記述します。興味深い疑問が生じます。中間サンプル p_t(x) の分布はどのようなもので、時間の経過とともにどのように変化するのでしょうか?これはフォッカー・プランク方程式によって規定されます。これを実際に確認したい場合は、Song et al. (2021) の付録 D.1 を参照してください。

ここで驚くべきことが起こります。この SDE によって記述されるランダムプロセスと同じ時間依存分布を持つ決定論的プロセスを記述する ODE が存在するのです。これは確率フロー ODE と呼ばれます。さらに、単純な閉じた形式を持ちます。

この式は、順方向プロセスと逆方向プロセスの両方を表します (方向を変えるには符号を反転するだけです)。また、時間依存のスコア関数がまだ存在することに注意してください。これを証明するには、SDE と確率フロー ODE の Fokker-Planck 方程式を書き、代数計算を実行すると、それらが同一であり、したがって同じ形式の解 p_t(x) を持つ必要があることがわかります。

ODE によって記述されるプロセスは SDE と同じではないことに注意してください。これは、決定論的微分方程式では確率過程を記述できないため、当てはまりません。これは、両方のプロセスの分布 p_t(x) が同じであるという固有の特性を持つ異なるプロセスを記述します。

この現象は重要な意味合いを明らかにします。つまり、単純な基礎分布からの特定のサンプルとデータ分布からのサンプルの間には、一対一のマッピングがあるということです。すべてのランダム性が初期の基礎分布サンプルに含まれているサンプリングプロセスの場合、サンプリングが完了すると、これに基づいてデータサンプルを取得するプロセスは完全に決定論的になります。これは、ODE を順方向にシミュレートすることでデータポイントを対応する潜在表現にマッピングし、それらを操作してから、ODE を逆方向にシミュレートすることでデータ空間にマッピングし直すことができることも意味します。

この確率フロー ODE によって記述されるモデルは連続正規化フローモデルですが、ODE を介してバックプロパゲーションせずにトレーニングできるため、この方法ははるかにスケーラブルになります。

モデルのトレーニング方法を変えずにこれができるのは素晴らしいことではないでしょうか?スコア予測子を前のセクションの逆 SDE またはこのセクションの ODE に挿入すると、同じ分布を異なる方法でモデル化する 2 つの異なる生成モデルを取得できます。かっこいいでしょう？

さらに、確率フローODEでは拡散モデルの尤度計算も可能になります。Song et al. (2021)の付録D.2を参照してください。これも ODE を解く必要があるため、コストはサンプリングとほぼ同じくらい高くなります。

上記の理由により、確率フロー ODE パラダイムは最近非常に人気が高まっています。たとえば、Karras らは、さまざまな拡散モデル設計オプションを検討するための基礎としてこれを使用しました。また、この論文の著者とその協力者も、拡散言語モデルでこれを使用しました。これはまた、フローマッチング、整流フロー、および確率的補間の形式で、任意の分布のペア間のマッピングを学習するために、拡散を超えて一般化および拡張されました。

補足: DDIM は、深層潜在変数モデルの観点に基づいて、拡散モデルの決定論的サンプリングプロセスを取得するための別のアプローチを示します。

拡散モデルはリカレントニューラルネットワーク（RNN）である。

拡散モデルからのサンプリングでは、ニューラルネットワークを使用して繰り返し予測を行い、その予測を使用して、最初はランダムノイズで満たされた「キャンバス」を更新します。このプロセスの完全な計算グラフを考慮すると、リカレントニューラルネットワーク (RNN) によく似ています。 RNN では、隠れ状態は、1 つ以上の非線形パラメーター化された操作 (LSTM のゲーティングメカニズムなど) で構成される再帰ユニットを通じて繰り返し更新されます。隠し状態はキャンバスなので入力空間内にあり、そのユニットは拡散モデル用にトレーニングしたノイズ除去ニューラルネットワークで構成されます。

拡張拡散サンプリングループの概略図

RNN は通常、ループを通じて勾配が伝播される時間的逆伝播 (BPTT) を使用してトレーニングされます。ループを介してバックプロパゲーションされるステップの数は、通常、計算コストを削減するために、ある最大値に制限されます。これを切り捨て BPTT と呼びます。拡散モデルもバックプロパゲーションによってトレーニングされますが、一度に 1 ステップのみです。ある意味で、拡散モデルはディープリカレントニューラルネットワークをトレーニングする方法を提供します。このアプローチにより、ループを介したバックプロパゲーションの必要性が完全になくなり、よりスケーラブルなトレーニングプロセスが実現します。

RNN は通常は決定論的であるため、この類推は、前のセクションで説明した確率フロー ODE に基づく決定論的プロセスに最も適しています。ただし、正規化の方法として RNN の隠し状態にノイズを注入することは珍しくないため、著者らはこの類推が確率過程にも当てはまると考えています。

この計算グラフの合計深さは、非線形層の数で表すと、ニューラルネットワークの層の数にサンプリングステップの数を掛けた値になります。展開されたループは、おそらく数千の層を持つ非常に深いニューラルネットワークと考えることができます。これはかなり深いですが、現実世界のデータの生成モデリングにはこのような深い計算グラフが必要なので、理にかなっています。

また、各拡散サンプリングステップで同じニューラルネットワークを使用せず、異なるノイズレベル範囲ごとに異なるニューラルネットワークを使用した場合に何が起こるかについても考えてみましょう。これらのネットワークは個別に独立してトレーニングすることができ、異なるアーキテクチャを使用することもできます。これは、非常に深いニューラルネットワーク内の重みを効果的に「解きほぐして」、RNN を単純な古いディープニューラルネットワークに変換できることを意味しますが、それでも一度にすべての重みをバックプロパゲーションすることを避けることはできません。 Stable Diffusion XL は、Refiner モデルでこのアプローチを効果的に使用しているため、このアプローチが普及する可能性があります。

著者は、2010 年に博士課程を始めたとき、2 つ以上の隠れ層を持つニューラルネットワークをトレーニングすることは困難な作業だったと述べています。バックプロパゲーションはすぐには使いこなせなかったため、バックプロパゲーションを可能にする適切な初期化を見つけるために、教師なしの層ごとの事前トレーニングを使用するというアプローチを採用しました。今日では、何百もの隠れたレイヤーも障害にはなりません。したがって、数年後には、バックプロパゲーションを使用して数万層からなるニューラルネットワークをトレーニングできるようになることは想像に難くありません。その時までに、拡散モデルが提供する「分割統治」アプローチは魅力を失い、おそらく私たちはすべて深層変分オートエンコーダのトレーニングに戻ることになるでしょう。（同じ「分割統治」の観点は自己回帰モデルにも当てはまるので、これが将来であれば、自己回帰モデルも時代遅れになる可能性があることに注意してください。）

この観点からの 1 つの疑問は、サンプリングプロセスを 2 ステップ以上バックプロパゲーションすると、拡散モデルのパフォーマンスが向上するかどうかです。このアプローチは一般的ではないため、実際には非常にコストがかかる可能性があります。ただし、重要な例外が 1 つあります (ある程度)。Recurrent Interface Network (RIN) などの自己調整機能を使用するモデルは、拡散サンプリングステップ間で更新されたキャンバスに加えて、何らかの形式の状態を渡します。モデルにこの状態の使用を学習させるには、追加のフォワードパスを実行して、トレーニング中にこの状態の近似値を提供します。ただし、ここでは追加の後方パスはないので、これは実際には BPTT の 2 ステップではなく、1.5 ステップに近いものになります。

拡散モデルは自己回帰モデルである

自然画像の拡散モデルの場合、サンプリングプロセスでは、最初に大規模な構造が生成され、その後、より細かい詳細が繰り返し追加される傾向があります。実際、ノイズレベルと特徴スケールの間にはほぼ直接的な対応関係があるようです。

しかし、なぜこのようなことが起こるのでしょうか?これを理解するには、空間周波数の観点から考えると役立ちます。画像内の大規模な特徴は低い空間周波数に対応し、細かい詳細は高い周波数に対応します。 2D フーリエ変換 (またはそのバリエーション) を使用して、画像を空間周波数成分に分解できます。これは多くの場合、画像圧縮アルゴリズムの最初のステップです。人間の視覚システムは高周波に対して敏感ではないことが知られており、圧縮では高周波をより多く圧縮し、低周波をより少なく圧縮することでこれを活用できるためです。

8x8 離散コサイン変換の空間周波数成分の視覚化 (たとえば、JPEG 圧縮方式で使用される)

自然画像やその他多くの自然信号は、周波数領域で興味深い現象を示します。異なる周波数の成分の振幅は、周波数の逆数に比例して減少する傾向があります(振幅スペクトルではなくパワースペクトルを見ている場合は、周波数の 2 乗の逆数に比例します)。

一方、ガウスノイズのスペクトルは非常に平坦です。予想どおり、すべての周波数の振幅は同じです。フーリエ変換は線形演算であるため、自然画像にガウスノイズを追加すると、元の画像のスペクトルとノイズの平坦化されたスペクトルの合計のスペクトルを持つ新しい画像が生成されます。対数領域では、2 つのスペクトルの重ね合わせはヒンジのように見え、ノイズを追加すると、より高い空間周波数に存在する構造が何らかの形でぼやけることがわかります (下の図を参照)。このノイズの標準偏差が大きいほど、影響を受ける空間周波数が大きくなります。

自然画像、ガウスノイズ、ノイズ画像の振幅スペクトル

拡散モデルは、入力サンプルに徐々にノイズを追加するように構築されているため、このプロセスにより、すべての構造が削除されるまで、徐々に低い周波数のコンテンツがかき消されると言えます (少なくとも自然画像の場合)。モデルからサンプリングする場合、方向を逆にして、より高い空間周波数で構造を効果的に追加します。これは基本的に自己回帰と同じですが、頻度空間で行われます。 Rissanen et al. (2023) は、逆熱放散（ガウス拡散の代替）を使用した生成モデリングにおけるこの現象の観察について議論していますが、自己回帰モデルとは関連付けていません。この関連性はこの記事の著者自身によって提案されており、議論の余地があるかもしれません。

重要な注意点は、この解釈は自然信号の周波数特性に依存しているため、言語モデルなどの拡散モデルの他のアプリケーションではこの類推が意味をなさない可能性があるということです。

拡散モデルは、期待される

遷移密度 p (x_t|x_0) は、時刻 t における元のクリーンな入力 x_0 から (ノイズを追加することによって) 導出されたノイズの多いデータ例 x_t の分布を表します。拡散モデルにおけるニューラルネットワークのタスクは、この分布からのサンプルに基づいて期待値E[x_0|x_t]（または期待値の線形時間依存関数）を予測することです。これは明白なことのように思えるかもしれませんが、何かを説明しているので、ここで強調したいと思います。

まず、これは、拡散モデルをトレーニングするときに損失関数として平均二乗誤差 (MSE) を使用することが正しい選択であるという証拠を提供します。トレーニング中は期待値E[x_0|x_t]は不明なので、x_0自体を使用してモデルを監視します。 MSE損失の最小値はまさに期待値なので、この量を事前に知らなくても、最終的にはE[x_0|x_t]（の近似値）を回復できます。これは典型的な教師あり学習の問題とは多少異なります。一般的な教師あり学習の問題の場合、理想的な結果は、モデルが教師に使用されるターゲットを正確に予測できることです (ラベル付けエラーを除く)。ここでは、意図的にこれを望んでいません。より一般的には、条件付き期待値を推定する概念は（サンプルによる監督のみがある場合でも）非常に強力です。

実際、これは拡散モデルの蒸留がなぜそれほど説得力のある提案であるかを説明しています。この場合、予測したいターゲット期待値 E[x_0|x_t] の近似値を使用して拡散モデルを直接監視できます。これは教師モデルによってすでに提供されているためです。その結果、トレーニング損失の分散は最初からトレーニングする場合よりもはるかに低くなり、収束ははるかに速くなります。もちろん、これは教師として使用するトレーニング済みのモデルがすでにある場合にのみ機能します。

離散拡散モデルと連続拡散モデル

これまで、離散的なノイズレベルのケースをいくつかの観点から検討し、また、時間ステップをノイズの対応する標準偏差にマッピングするマッピング関数 σ(t) と組み合わせて、連続時間の概念を使用したいくつかの観点から検討してきました。これらはそれぞれ離散時間または連続時間と呼ばれることがよくあります。非常に素晴らしいのは、これが主に解釈の問題であるということです。離散時間の観点からトレーニングされたモデルは、連続時間の設定で動作するように簡単に再利用できることが多く、その逆も同様です。

拡散モデルが離散的か連続的かを調べる別の方法は、入力空間を調べることです。著者らは、文献では「連続」または「離散」が時間に対するものなのか、それとも入力に対するものなのかが明確でないことが多いことを発見しました。これは非常に重要です。なぜなら、一部のビューは入力の勾配 (つまり、スコア関数のすべてのビュー) に依存するため、連続入力に対してのみ意味をなすからです。

離散性と連続性の組み合わせは 4 つあります。

離散時間、連続入力: オリジナルの深層潜在変数モデルの観点 (DDPM) とスコアベースの観点。
時間連続、入力連続: SDE と ODE の観点から;
時間的に離散的、入力的に離散的: D3PM、MaskGIT、Mask-predict、ARDM、Polynomial Diffusion、および SUNDAE はすべて、離散入力に対して反復改良を使用する方法です。これらすべてを拡散モデルと見なすべきかどうかは完全には明らかではありません (誰に尋ねるかによって異なります)。
連続時間、離散入力: 連続時間マルコフ連鎖 (CTMC)、分数ベースの連続時間離散拡散モデル、およびブラックアウト拡散はすべて、離散入力と連続時間をペアにします。この設定は通常、離散データをユークリッド空間に埋め込み、その空間で入力に対してアナログビット、自己調整埋め込み拡散、CDCD などの連続拡散を実行することによって処理されます。

その他の形式

最近の論文では、第一原理からこのクラスのモデルに対する新しい導出が提案されており、後知恵で言えば、微分方程式、ELBO、または分数マッチングをまったく使用しないものとなっています。しかし、これらの研究は、背景知識が少なくて済むため、理解しやすい可能性がある拡散モデルに関する代替的な視点を提供します。

Inversion by Direct Iteration (InDI) は、反復的な改良を使用して知覚される品質を向上させることを目的とした画像復元の形式です。画像劣化の性質については何も仮定せず、モデルは低品質と高品質のサンプルのペアを使用してトレーニングされます。反復 α-(de) ブレンディングは、開始点として 2 つの異なる分布からのサンプル間を線形補間することにより、2 つの分布間の決定論的なマッピングを取得します。これら両方のアプローチは、前述のフローマッチング、修正フロー、およびランダム補間の方法と密接に関連しています。

一貫性

最近の文献では、拡散モデルの一貫性について異なる概念が提示されています。

一貫性モデル (CM) は、確率フロー ODE の任意の軌跡上の点を軌跡の原点 (つまり、クリーンなデータポイント) にマッピングするようにトレーニングされ、これにより 1 つのステップでサンプリングが実現されます。これは、特定の軌道上の点のペアを取得し、モデルが両方に対して同じ結果を出力するようにすることで間接的に行われます (したがって一貫性)。既存の拡散モデルから開始する蒸留バリアントがありますが、一貫性モデルを最初からトレーニングすることも可能です。
一貫性のある拡散モデル (CDM) は、一貫性を明示的に促進する正規化項を使用してトレーニングされます。これは次のように定義されます。ノイズ除去装置の予測は、条件付き期待値 E[x_0|x_t] に対応する必要があります。
FP-Diffusion のタスクは、フォッカー・プランク方程式を使用して、時間の経過に伴う p_t(x) の変化を記述することです。ここでは、方程式が成立することを保証するために、明示的な正規化項が導入されています。

理想的な拡散モデル（完全に収束し、容量が無制限であるモデル）の場合、これらの各特性は簡単に実現されます。ただし、実際の拡散モデルは理想的なモデルではなく近似モデルであるため、実際には有効ではないため、新しいメカニズムを通じて明示的に実装する必要があります。

この記事のこのセクションの理由は、著者が「一貫性型モデル、一貫した拡散モデル、およびFokker-Planckの正則化の同等性に関する最近の論文を強調したい」ことです。著者は、この結果はエレガントで、この記事のトピックと非常に一致していると言います。

ルールを破る

概念レベルでのこれらの異なる視点に加えて、著者は、拡散モデルに関する論文も、シンボルを再発明し、慣習に違反するという点で特に心配していると述べています。時には、人々はお互いに何の関係もないと思われる同じ概念に2つの説明を使用します。これは、人々が理解して学習するのに役立ちません。また、入場障壁を引き起こします。（ごめんなさい。）

一見無害な詳細とパラメーター化の選択肢は、広範囲にわたる結果をもたらす可能性があります。注意すべき3つのことは次のとおりです。

一般に、人々は分散摂取（VP）拡散プロセスを使用します。つまり、各ステップでノイズを追加することに加えて、現在のキャンバスのサイズも調整され、全体的な分散を維持します。ただし、分散抽出（VE）メソッドには多くのファンがあります。このファンでは、キャンバスサイズが調整されておらず、追加ノイズの分散が無限に増加します。最も注目すべきは、Karrasらが使用するアプローチです。 VP拡散法を保持する特定の結果は、VE拡散には当てはまりません。拡散論文を読んでいる場合は、使用されている建設方法と、それについて仮定がなされているかどうかを確認してください。
拡散モデルで使用されるニューラルネットワークのパラメーターは、入力に追加された（正規化された）ノイズ、つまりスコア関数を予測するように設計されている場合があります。これらの目的はすべて、互いのすべての時間依存の線形関数と騒々しい入力X_Tであるという点で同等です。しかし、トレーニング中のさまざまな時刻ステップでこれが損失貢献の相対的な重みでどのように機能するかを理解することが重要です。これは、モデルのパフォーマンスに大きく影響する可能性があります。画像データの場合、標準化されたノイズの予測が良い選択のようです。潜在的な拡散の潜在的な含有量など、特定の他の数量をモデル化する場合、クリーン入力の予測はより良いことがわかっています。これは主に、それがノイズレベルの異なる重み付け、したがって機能スケールを意味するためです。
一般に、損傷プロセスによって追加されるノイズの標準偏差は時間とともに増加すると考えられています。つまり、エントロピーは宇宙と同じように時間とともに増加すると考えられています。したがって、X_0はクリーンデータに対応し、X_T（Tが十分に大きい場合）は純粋なノイズに対応します。フローマッチングなどのいくつかの研究は、この慣習を逆転させます。

最後に、生成モデリングのコンテキストでは、「拡散」の定義が非常に広く、「反復的な洗練」とほぼ同義になっていることに注意する価値があります。離散入力の多くの「拡散モデル」は実際には拡散プロセスに基づいていませんが、もちろん密接に関連しているため、ラベル拡散は徐々に拡張されており、それらを含めるように拡張されています。ラインがどこにあるかは明確ではありません。段階的な損傷のプロセスを逆にすることで繰り返し洗練されているモデルが拡散モデルである場合、すべての自己回帰モデルも拡散モデルです。著者らは、これは混乱しすぎており、「拡散」という用語を役に立たないと主張しています。

結論

拡散モデルについて学ぶことは現時点では確かに混乱している可能性がありますが、これらの異なる視点の調査は、基礎となるモデルが同じであるため、組み合わせて一緒に使用できるさまざまな方法とツールにつながりました。さらに、これらの異なる視点がどのように関連しているかを理解することは、より深い理解を提供することができます。ある観点から神秘的であると思われるものは、別の観点から明らかであるかもしれません。

拡散モデルを学び始めたばかりの場合、この記事がガイダンスを提供し、さらなる学習資料を見つけるのに役立つことを願っています。すでに経験がある場合は、この記事が拡散モデルの理解を広げ、過去を確認して新しいことを学ぶことができることを願っています。読んでくれてありがとう！

どの視点が拡散について一番好きですか？記事ではどのような有用な視点が言及されていませんか？あなたの意見を私たちと共有してください。

<<: カリフォルニア大学バークレー校の教授が驚くべき予測を発表: 2030年までにGPTは180万年分の人間の作業を実行し、2,500年分の知識を1日で学習できるようになる

>>: 最適化問題におけるステップサイズが大きいほど、収束速度が速くなり、数十年にわたる勾配降下法アルゴリズムの従来の考え方を覆すものとなった。