機械が人間の想像力を持てるようにするために、深層生成モデルは大きな進歩を遂げました。これらのモデルは、特に拡散モデルなどの現実的なサンプルを作成でき、多くの分野で優れたパフォーマンスを発揮します。拡散モデルは、VAE の事後分布アライメント問題、GAN の不安定性、EBM の高い計算コスト、NF のネットワーク制約問題など、他のモデルの制限を解決します。そのため、拡散モデルはコンピュータービジョンや自然言語処理などの分野で大きな注目を集めています。 拡散モデルは、順方向プロセスと逆方向プロセスの 2 つのプロセスで構成されます。順方向プロセスではデータを単純な事前分布に変換し、逆方向プロセスではこの変換を逆にして、トレーニングされたニューラル ネットワークを使用して微分方程式をシミュレートしてデータを生成します。他のモデルと比較して、拡散モデルはより安定したトレーニング ターゲットとより優れた生成効果を提供します。 しかし、拡散モデルのサンプリングプロセスには、推論評価の繰り返しが伴います。このプロセスは、不安定性、高次元の計算要件、複雑な尤度最適化などの課題に直面しています。研究者らは、ODE/SDE ソルバーの改善や、サンプリングを高速化するためのモデル蒸留戦略の採用、安定性の向上と次元の削減のための新しいフォワード プロセスなど、さまざまなソリューションを提案しています。 最近、香港中文大学はウェストレイク大学、MIT、志江研究所と共同で、IEEE TKDE に「生成拡散モデルの調査」と題するレビュー論文を発表しました。この論文では、サンプリング加速、プロセス設計、尤度最適化、分布ブリッジングの 4 つの側面から拡散モデルの最新の進歩について議論しました。このレビューでは、画像合成、ビデオ生成、3D モデリング、医療分析、テキスト生成など、さまざまなアプリケーション分野における拡散モデルの成功についても詳しく説明します。これらの応用事例を通じて、現実世界における普及モデルの実用性と可能性が実証されています。
アルゴリズムの改善サンプリングの高速化
拡散モデルの分野では、サンプリング速度を向上させる重要な技術の 1 つが知識蒸留です。このプロセスでは、大規模で複雑なモデルから知識を抽出し、それをより小さく効率的なモデルに転送します。たとえば、知識蒸留を使用すると、モデルのサンプリング軌跡を簡素化して、各ステップでより効率的にターゲット分布に近づくことができます。 Salimansら[13]は、これらの軌道を最適化するために常微分方程式(ODE)ベースのアプローチを使用しましたが、他の研究者はノイズの多いサンプルから直接クリーンなデータを推定する技術を開発し、それによってT時点でのプロセスを高速化しました。
トレーニング方法を改善することも、サンプリング効率を向上させる方法の 1 つです。一部の研究では、データにガウスノイズを単純に追加するのではなく、より複雑な方法を通じて潜在空間にマッピングする新しい拡散スキームの学習に焦点を当てています。これらの方法の中には、エンコードの深度を調整するなど、逆デコード プロセスの最適化に重点を置いているものもあれば、ノイズの追加が静的ではなく、トレーニング中に学習できるパラメーターになるように新しいノイズ スケールの設計を探求するものもあります。
効率を向上させるために新しいモデルをトレーニングすることに加えて、事前トレーニング済みの拡散モデルのサンプリング プロセスを高速化するための専用のテクニックもいくつかあります。 ODE アクセラレーションは、ODE を使用して拡散プロセスを記述し、サンプリングをより高速に実行できるようにする手法の 1 つです。たとえば、DDIM は ODE を使用してサンプリングする方法であり、その後の研究では PNDM や EDM などのより効率的な ODE ソルバーが導入され、サンプリング速度がさらに向上しました。
さらに、一部の研究者は、サンプリングを高速化するための分析手法を提案しています。これらの手法は、反復処理なしでノイズの多いデータからクリーンなデータを直接回復できる分析ソリューションを見つけようとします。これらの方法には、高速で正確なサンプリング戦略を提供する Analytic-DPM とその改良版 Analytic-DPM++ が含まれます。 拡散プロセス設計
LSGM や INDM などの潜在空間拡散モデルは、VAE または正規化フロー モデルを組み合わせて、共通の加重ノイズ除去スコア マッチング損失を通じてエンコーダー/デコーダーと拡散モデルを最適化します。これにより、ELBO または対数尤度の最適化は、学習しやすくサンプルを生成しやすい潜在空間を構築することを目指します。たとえば、Stable Diffusion は最初に VAE を使用して潜在空間を学習し、次にテキスト入力を受け入れるように拡散モデルをトレーニングします。 DVDP は、画像の摂動中にピクセル空間内の直交成分を動的に調整します。
生成モデルの効率と強度を向上させるために、研究者は新しい順方向プロセス設計を検討しました。ポアソン場生成モデルは、データを電荷として扱い、単純な分布を電界線に沿ったデータ分布に向けます。これにより、従来の拡散モデルと比較して、より強力な逆サンプリングが実現します。 PFGM++ では、この概念がさらに高次元変数に組み込まれています。 Dockhorn らによる臨界減衰ランジュバン拡散モデルは、ハミルトン力学における速度変数を使用して条件付き速度分布の分数関数の学習を簡素化します。
離散空間データ (テキスト、カテゴリデータなど) の拡散モデルでは、D3PM は離散空間での順方向プロセスを定義します。この方法に基づいて、言語テキスト生成、グラフセグメンテーション、ロスレス圧縮へと研究が拡張されました。マルチモーダルチャレンジでは、ベクトル量子化データがコードに変換され、優れた結果が示されます。ロボット工学やタンパク質モデリングなどのリーマン多様体に関する多様体データでは、リーマン多様体を組み込むために拡散サンプリングが必要です。 EDP-GNN や GraphGDP などのグラフ ニューラル ネットワークと拡散理論の組み合わせは、グラフ データを処理して順列不変性を実現します。 尤度最適化 拡散モデルは ELBO を最適化しますが、特に連続時間拡散モデルの場合、尤度最適化は依然として課題です。 ScoreFlow や変分拡散モデル (VDM) などの方法は、MLE トレーニングと DSM の目的との間の接続を確立し、Girsanov の定理がこれに重要な役割を果たします。改良されたノイズ除去拡散確率モデル (DDPM) は、変分下限と DSM を組み合わせたハイブリッド学習目標と、単純な再パラメータ化手法を提案します。 分散接続 拡散モデルは、ガウス分布を複雑な分布に変換する際には優れたパフォーマンスを発揮しますが、任意の分布を接続する際には課題が生じます。 α ブレンディング法は、ブレンディングとアンブレンディングを繰り返すことで決定論的なブリッジを作成します。修正フローは、ブリッジ パスを修正するための追加手順を追加します。別のアプローチは、ODE を介して 2 つの分布を接続することですが、中間接続ポイントとしてのシュレーディンガー橋またはガウス分布も研究されています。 応用分野画像生成 拡散モデルは画像生成において非常に成功しており、通常の画像を生成するだけでなく、テキストを画像に変換するなどの複雑なタスクも実行します。 Imagen、Stable Diffusion、DALL-E 2 などのモデルは、この点に関して高度な技術を示しています。拡散モデル構造とクロスアテンションレイヤー技術を組み合わせて、生成された画像にテキスト情報を統合します。これらのモデルは、新しい画像を生成するだけでなく、再トレーニングなしで画像を編集することもできます。編集は、クロスアテンションレイヤー (キー、値、アテンションマトリックス) を調整することによって実現されます。たとえば、特徴マップを調整して画像要素を変更したり、新しいテキスト埋め込みを導入して新しい概念を導入したりします。画像が説明を正確に反映するように、テキストのすべてのキーワードに注意を払うモデルが生成されるようにするための研究があります。拡散モデルは、これらの特徴をエンコードして統合し、画像生成をガイドすることで、ソース画像、深度マップ、人間の骨格などの画像ベースの条件付き入力も処理できます。いくつかの研究では、画像間の編集を実現するために、モデルの開始レイヤーにソース画像エンコーディング機能が追加されており、これは深度マップ、エッジ検出、またはスケルトンを条件とするシナリオにも適用できます。 3D生成 3D 生成に関しては、拡散モデルによる 2 つの主なアプローチがあります。 1 つ目は、NeRF、ポイント クラウド、ボクセルなどのさまざまな 3D 表現に効果的に適用されている 3D データ上でモデルを直接トレーニングすることです。たとえば、研究者は 3D オブジェクトのポイント クラウドを直接生成する方法を示しました。サンプリング効率を向上させるために、いくつかの研究ではハイブリッドポイントボクセル表現を導入したり、ポイントクラウド生成の追加条件として画像合成を使用したりしました。一方、いくつかの研究では、拡散モデルを使用して 3D オブジェクトの NeRF 表現を処理し、ビュー条件付き拡散モデルをトレーニングして NeRF 表現を最適化することで新しいビューを合成しています。 2 番目のアプローチでは、2D 拡散モデルに関する事前の知識を使用して 3D コンテンツを生成することに重点が置かれています。たとえば、Dreamfusion プロジェクトでは、スコア蒸留サンプリング目標を使用して、事前トレーニング済みのテキストから画像へのモデルから NeRF を抽出し、勾配降下法の最適化プロセスを通じて損失の少ないレンダリング画像を実現します。このプロセスは、生成を高速化するためにさらに拡張されました。 ビデオ生成 ビデオ拡散モデルは、ビデオシーケンスを生成するために時間次元を追加することで 2D 画像拡散モデルを拡張したものです。この方法の基本的な考え方は、既存の 2D 構造に時間レイヤーを追加して、ビデオ フレーム間の連続性と依存性をモデル化することです。関連する研究では、Make-A-Video、AnimatedDiff などのビデオ拡散モデルを使用して動的コンテンツを生成する方法が実証されています。具体的には、RaMViD モデルは、3D 畳み込みニューラル ネットワークを使用して画像拡散モデルをビデオに拡張し、一連のビデオ固有の調整手法を開発します。 医療分析 拡散モデルは、医療分析において高品質のデータセットを取得するという課題に対処するのに役立ち、医療画像処理において優れています。これらのモデルは、強力な画像キャプチャ機能により、画像解像度、分類、ノイズ処理の改善に成功しています。たとえば、Score-MRI と Diff-MIC は高度な技術を使用して MRI 画像の再構成を高速化し、より正確な分類を実現します。 MCG は、CT 画像の超解像における多様体補正を使用して、再構成の速度と精度を向上させます。珍しい画像を生成する場合、モデルは特定の技術を通じて異なるタイプの画像間を遷移することができます。たとえば、FNDM と DiffuseMorph は、それぞれ脳の異常検出と MR 画像の登録に使用されます。いくつかの新しい手法では、少数の高品質サンプルからトレーニング データセットを合成します。たとえば、31,740 個のサンプルを使用するモデルは、100,000 個のインスタンスを含むデータセットを合成し、非常に低い FID スコアを達成しました。 テキスト生成 テキスト生成技術は人間と AI をつなぐ重要な架け橋であり、流暢で自然な言語を生成することができます。自己回帰言語モデルは、強い一貫性を持つテキストを生成しますが、生成速度が遅く、一方、拡散モデルは、比較的弱い一貫性を持つテキストを素早く生成できます。主な 2 つのアプローチは、離散生成と潜在生成です。離散生成は高度な技術と事前トレーニング済みモデルに依存します。たとえば、D3PM と Argmax は語彙をカテゴリ ベクトルとして扱い、DiffusionBERT は拡散モデルと言語モデルを組み合わせてテキスト生成を改善します。潜在生成は、トークンの潜在空間にテキストを生成します。たとえば、LM-Diffusion や GENIE などのモデルはさまざまなタスクで優れたパフォーマンスを示しており、テキスト生成における拡散モデルの可能性を示しています。拡散モデルは、自然言語処理のパフォーマンスを向上させ、大規模な言語モデルと組み合わせ、クロスモーダル生成をサポートすることが期待されています。 時系列生成 時系列データのモデリングは、金融、気候科学、医療などの分野における予測と分析のための重要な技術です。拡散モデルは、高品質のデータサンプルを生成できるため、時系列データの生成に使用されてきました。この分野では、拡散モデルは通常、時系列データの時間的依存性と周期性を考慮して設計されます。たとえば、CSDI (Conditional Sequence Diffusion Interpolation) は、双方向畳み込みニューラル ネットワーク構造を使用して時系列データ ポイントを生成または補間するモデルです。医療データ生成や環境データ生成において優れたパフォーマンスを発揮します。 DiffSTG や TimeGrad などの他のモデルは、時空間畳み込みネットワークを組み合わせることで、時系列の動的特性をより適切に捉え、より現実的な時系列サンプルを生成できます。これらのモデルは、自己調整的な方法でガウスノイズから意味のある時系列データを徐々に回復します。 オーディオ生成 オーディオ生成には、音声合成から音楽生成に至るまで、さまざまなアプリケーション シナリオが含まれます。オーディオ データには通常、複雑な時間構造と豊富なスペクトル情報が含まれているため、拡散モデルはこの分野でも可能性を示しています。たとえば、WaveGrad と DiffSinger は、条件付き生成プロセスを利用して高品質のオーディオ波形を生成する 2 つの拡散モデルです。 WaveGrad は条件付き入力としてメルスペクトルを使用し、DiffSinger はピッチやリズムなどの追加の音楽情報を追加して、より洗練されたスタイル制御を提供します。テキスト読み上げ (TTS) のアプリケーションでは、Guided-TTS と Diff-TTS はテキスト エンコーダーと音響分類器の概念を組み合わせて、テキスト コンテンツに準拠し、特定のサウンド スタイルに従う音声を生成します。 Guide-TTS2 はさらに、モデル自体が学習した特徴を通じて音声生成をガイドすることで、明示的な分類器なしで音声を生成する方法を示します。 分子設計 医薬品設計、材料科学、化学生物学などの分野では、分子設計は新しい化合物の発見と合成において重要な役割を果たします。ここで、拡散モデリングは、化学空間を効率的に探索し、特定の特性を持つ分子を生成する強力なツールとして機能します。無条件分子生成では、拡散モデルは事前の知識に依存せず、自発的に分子構造を生成します。クロスモーダル生成では、モデルに薬力学や標的タンパク質への結合傾向などの特定の機能条件を組み込んで、望ましい特性を持つ分子を生成することができます。配列ベースの方法では、タンパク質の配列を考慮して分子の生成をガイドする場合があります。一方、構造ベースの方法では、タンパク質の 3 次元構造情報を使用します。このような構造情報は、分子ドッキングや抗体設計における事前知識として使用でき、生成される分子の品質を向上させることができます。 グラフ生成 グラフは拡散モデルを使用して生成され、現実世界のネットワーク構造と拡散プロセスをよりよく理解し、シミュレートすることを目的としています。このアプローチは、研究者が複雑なシステム内のパターンと相互作用を発見し、起こりそうな結果を予測するのに役立ちます。アプリケーションには、ソーシャル ネットワークと生物学的ネットワークの分析、グラフ データセットの作成などがあります。従来の方法は隣接行列またはノード機能の生成に依存していますが、これらの方法はスケーラビリティが低く、実用性が限られています。したがって、現代のグラフ生成技術では、特定の条件に基づいてグラフを生成することが好まれます。たとえば、PCFI モデルはグラフの部分的な特徴と最短経路の予測を使用して生成プロセスをガイドします。EDGE と DiffFormer は、それぞれノード次数とエネルギー制約を使用して生成を最適化します。D4Explainer は、分布と反事実的損失を組み合わせてグラフのさまざまな可能性を探ります。これらの方法により、グラフ生成の精度と実用性が向上します。 結論と展望データ制約の課題 推論速度が遅いことに加えて、拡散モデルは低品質のデータからパターンや規則性を識別するのが難しいことが多く、その結果、新しいシナリオやデータセットに一般化することができません。さらに、大規模なデータセットを扱う場合、トレーニング時間の延長、メモリの過剰使用、目的の状態への収束の失敗など、計算上の課題があり、モデルのサイズと複雑さが制限されます。さらに重要なのは、偏ったデータ サンプリングや不均一なデータ サンプリングによって、さまざまなドメインや集団に適応できる出力を生成するモデルの能力が制限される可能性があることです。 制御可能な配電ベースの発電 特定の分布内でサンプルを理解して生成するモデルの能力を向上させることは、限られたデータでより優れた一般化を実現するために不可欠です。データ内のパターンと相関関係の識別に重点を置くことで、モデルはトレーニング データと密接に一致し、特定の要件を満たすサンプルを生成できます。これには、効果的なデータ サンプリング、活用手法、およびモデル パラメータと構造の最適化が必要です。最終的には、この理解の強化により、より制御された正確な生成が可能になり、一般化のパフォーマンスが向上します。 大規模言語モデルによる高度なマルチモーダル生成 普及モデルの将来の方向性としては、大規模言語モデル (LLM) を統合してマルチモーダル生成を進化させることが挙げられます。この統合により、モデルはテキスト、画像、その他のモダリティの組み合わせを含む出力を生成できるようになります。 LLM を組み込むことで、異なるモダリティ間の相互作用に関するモデルの理解が強化され、生成される出力はより多様で現実的なものになります。さらに、LLM は、テキストと他のモダリティ間の接続を効果的に活用することで、プロンプトベースの生成の効率を大幅に向上させます。さらに、LLM は、普及モデルの生成能力を向上させ、モダリティを生成できるドメインの範囲を拡大するための触媒として機能します。 機械学習分野との統合 拡散モデルと従来の機械学習理論を組み合わせることで、さまざまなタスクのパフォーマンスを向上させる新たな機会が生まれます。半教師あり学習は、一般化の問題などの拡散モデルに固有の課題に対処したり、データが限られている場合に効果的な条件付き生成を実現したりする上で特に役立ちます。ラベルなしデータを活用することで、拡散モデルの一般化能力を強化し、特定の条件下でのサンプル生成時に理想的なパフォーマンスを実現します。 さらに、強化学習は、微調整されたアルゴリズムを使用してモデルのサンプリング プロセス中にターゲットを絞ったガイダンスを提供することで、重要な役割を果たします。このガイダンスにより、集中的な探索が保証され、制御された生成が促進されます。さらに、追加のフィードバックを組み込むことで強化学習が強化され、制御可能な条件を生成するモデルの能力が向上します。 アルゴリズムの改善方法(付録) 現場での応用方法(付録) |
<<: モデル融合、ハイブリッド専門家、小規模LLM、2024年のLLMの発展方向を理解するためのいくつかの論文
今日、人工知能 (AI) は多くの業界に多くの資産と利点をもたらし、チャットボットから Siri や...
2019年も残り1か月余りとなり、各種年間総括も迫ってまいりました。今年の AI の発展を振り返る...
今では、このビッグモデルもその失敗から学んでいます。香港科技大学とファーウェイ・ノアの箱舟研究所によ...
数日後には、2019 年の新しい iPhone シリーズが登場します。iPhone が Face I...
最近、Kuaishou-ICIP 2019モバイルビデオ復元コンテストの登録が正式に開始されました。...
10月9日、英国バース大学のREVEAL研究センターが主導した新たな研究で、ディープフェイク技術を使...
翻訳: ブガッティ企画:千山ほとんどの企業は、記録システムの IT 監査を毎年実施しています。しかし...
人工知能は 2010 年代の技術であり、時が経つにつれて、ますます多くの AI 技術が登場しています...