SDXL TurboやLCMが次々とリリースされ、AI描画はリアルタイム生成の時代に入り、入力が速いほど描画も速くなります。

火曜日、Stability AIは新世代の画像合成モデル「Stable Diffusion XL Turbo」を発表し、大きな拍手を浴びた。画像からテキストを生成することはかつてないほど簡単になったと言われています。

他に何もする必要はありません。テキストボックスにアイデアを入力するだけで、SDXL Turbo がすぐに応答し、対応するコンテンツを生成します。入力された通りに生成され、コンテンツの増減によって速度に全く影響しません。

既存の画像を利用して、より細かな作品を作ることもできます。白い紙を手に持ち、SDXL Turbo に白い猫が欲しいと伝えます。入力が終わる前に、小さな白い猫がすでにあなたの手の中にいます。

SDXL Turbo モデルの速度は「リアルタイム」に近いレベルに達しており、人々は「画像生成モデルは何か他のこともできるのだろうか？」と考え始めています。

誰かがゲームを直接接続して、2fps スタイルの転送画像を取得しました:

公式ブログによると、A100 では、SDXL Turbo は 512x512 の画像を 207 ミリ秒 (オンザフライエンコード + 単一のノイズ除去ステップ + デコード、fp16) で生成でき、そのうち単一の UNet フォワード評価には 67 ミリ秒かかります。

このように、文生図は「リアルタイム」の時代に入ったと判断できます。

こうした「瞬間発電」の効率は、少し前に人気が高まった清華 LCM モデルと多少似ていますが、その背後にある技術的な内容は異なります。スタビリティ社は、同時に発表した研究論文で、このモデルの内部の仕組みを詳しく説明した。この研究は、敵対的拡散蒸留 (ADD) と呼ばれる手法に焦点を当てています。 SDXL Turbo の利点の 1 つは、特にシングルステップの画像出力を生成するという点で、生成的敵対的ネットワーク (GAN) との類似性です。

論文アドレス: https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf

論文の詳細

つまり、敵対的拡散蒸留は、高いサンプリング忠実度を維持しながら、事前トレーニング済みの拡散モデルの推論ステップ数を 1 ～ 4 サンプリングステップに削減し、モデルの全体的なパフォーマンスをさらに向上させることができる一般的な方法です。

この目的のために、研究者らは、(i)敵対的損失と(ii)SDSに対応する蒸留損失という2つのトレーニング目標の組み合わせを導入しました。敵対的損失により、モデルは各フォワードパスで真の画像マニホールド上に直接配置されるサンプルを生成するように強制され、他の蒸留方法でよく見られるぼやけやその他のアーティファクトを回避します。蒸留損失は、別の事前トレーニング済み（および固定）拡散モデルを教師として使用し、その広範な知識を効果的に活用し、大規模な拡散モデルで観察される強力な組み合わせ性を維持します。推論中、研究者は分類器を使用しないガイダンスを使用しなかったため、メモリ要件がさらに削減されました。これらは、反復的な改良を通じて結果を改善するモデルの能力を保持しており、これは以前の GAN ベースのシングルステップ方式よりも優れています。

トレーニング手順を図 2 に示します。

表 1 にアブレーション実験の結果を示します。主な結論は次のとおりです。

次に、他のSOTAモデルとの比較です。ここでは、研究者は自動指標を使用せず、より信頼性の高いユーザー嗜好評価方法を選択し、迅速なコンプライアンスと全体的なイメージを評価することを目指しました。

実験では、同じプロンプトを使用して出力を生成することで、いくつかの異なるモデルバリアント (StyleGAN-T++、OpenMUSE、IF-XL、SDXL、および LCM-XL) を比較します。ブラインドテストでは、SDXL Turbo は LCM-XL の 4 ステップ構成を 1 ステップで上回り、SDXL の 50 ステップ構成をわずか 4 ステップで上回りました。これらの結果から、SDXL Turbo は、画像品質を犠牲にすることなく、計算要件が大幅に低い最先端のマルチステップモデルよりも優れていることがわかります。

図 7 は推論速度に対する ELO スコアを視覚化したものです。

表 2 では、同じ基本モデルを使用して、さまざまな数ステップのサンプリングと蒸留方法を比較しています。結果は、ADD が 8 ステップの標準 DPM ソルバーを含む他のすべての方法よりも優れていることを示しています。

本論文では、定量的な実験結果の補足として、初期サンプルに基づく ADD-XL の改善能力を示す定性的な実験結果もいくつか提示しています。図 3 は、ADD-XL (1 ステップ) と、数ステップスキームにおける現在の最良のベースラインを比較しています。図 4 は、ADD-XL の反復サンプリングプロセスを示しています。図 8 は、ADD-XL とその教師モデル SDXL-Base を直接比較しています。ユーザー調査で示されているように、ADD-XL は品質とプロンプトの調整の両方の点で教師モデルよりも優れています。

研究の詳細については原著論文を参照してください。

<<: ChatGPT がリリースされてから 1 年が経ちました。主要なオープンソースモデルはすべて追いついたのでしょうか?

>>: ChatGPT が個人情報を含むトレーニングデータを吐き出す: DeepMind が論争を巻き起こす大きなバグを発見