1024解像度で最速モデル、ByteDanceのオープンモデルSDXL-Lightningがリリース

モデル｜ https://huggingface.co/ByteDance/SDXL-Lightning

論文 | https://arxiv.org/abs/2402.13929

1. 超高速画像生成

生成 AI は、テキストプロンプトに基づいて魅力的な画像やビデオを作成できる機能により、世界的な注目を集めています。現在の最先端の生成モデルは、ノイズを徐々に画像サンプルに変換する反復プロセスである拡散に依存しています。このプロセスには膨大な計算リソースが必要であり、時間がかかります。高品質の画像サンプルを生成するプロセスでは、1 つの画像の処理時間は約 5 秒で、通常は大規模なニューラルネットワークへの複数回 (20 ～ 40 回) の呼び出しが必要になります。このような速度は、高速でリアルタイムの生成要件を持つアプリケーションシナリオを制限します。プロセスを高速化しながら生成品質を向上させる方法は、現在の研究のホットな話題であり、私たちの研究の中心的な目標でもあります。

SDXL-Lightning は、革新的なテクノロジーであるProgressive Adversarial Distillationによってこの障壁を打ち破り、これまでにない生成速度を実現します。このモデルは、わずか 2 ～ 4 ステップで非常に高品質かつ高解像度の画像を生成できるため、計算コストと時間が 10 倍削減されます。私たちのアプローチでは、品質が若干犠牲になるものの、時間に敏感なアプリケーション向けに 1 ステップで画像を生成することもできます。

SDXL-Lightning は、速度の利点に加えて、画質においても優れたパフォーマンスを発揮し、評価において従来の加速技術を上回っています。優れた多様性と画像とテキストのマッチングを維持しながら、より高い解像度と優れた詳細を実現します。

速度比較

オリジナルモデル（20ステップ）、SDXL-Lightningモデル（2ステップ）

2. モデル効果

SDXL-Lightningモデルは、1 ステップ、2 ステップ、4 ステップ、8 ステップで画像を生成できます。推論ステップが増えるほど、画像の品質は向上します。

4 段階の生成の結果は次のとおりです。

微笑む少女

山道を登るピックアップトラック

自転車に乗った魚、カラフルなアート

サングラスをかけたアジア人女性のクローズアップ

美しいカップ

モナ・リザ、スケッチ

泳ぐパンダ

山道を登るピックアップトラック

砂漠の家、シュールな風景

2 段階生成の結果は次のとおりです。

リビングルームの家具デザイン

精巧なイタリアの僧侶のローブを着た子アライグマの映画のようなショット

居心地の良いリビングルームで、柔らかい毛と明るい目をした犬がおもちゃを追いかけて飛び跳ねている

雲が入ったティーカップ

家族、ミディアムショット

雪の中でおもちゃで遊ぶ赤ちゃん

老人と犬が公園を散歩している

車を運転するドラゴン

ラテアートを作る猿

従来の方法 (Turbo および LCM) と比較すると、私たちの方法は詳細が大幅に改善された画像を生成するとともに、元の生成モデルのスタイルとレイアウトに忠実です。

3. コミュニティに還元し、モデルを公開する

オープンソースとオープン性の波は人工知能の急速な発展を推進する重要な力となり、ByteDance はこの波の一部であることを誇りに思っています。私たちのモデルは、テキストから画像を生成するための最も人気のあるオープンモデルである SDXL に基づいており、すでに活発なエコシステムを持っています。現在、私たちは SDXL-Lightning を世界中の開発者、研究者、クリエイティブな実践者に公開し、彼らがこのモデルにアクセスして適用し、業界全体でイノベーションとコラボレーションをさらに促進できるようにすることを決定しました。

SDXL-Lightning を設計する際には、オープンモデルコミュニティとの互換性を考慮しました。コミュニティ内の多くのアーティストや開発者が、漫画やアニメスタイルなど、さまざまな様式化された画像生成モデルを作成しています。これらのモデルをサポートするために、スピードアッププラグインとして SDXL-Lightning を提供しています。このプラグインは、さまざまなスタイルの SDXL モデルにシームレスに統合され、さまざまなモデルのイメージ生成を高速化できます。

SDXL-Lightningモデルは、現在非常に人気のある制御プラグイン ControlNet と組み合わせて、非常に高速で制御可能な画像生成を実現することもできます。

SDXL-Lightningモデルは、オープンソースコミュニティで最も人気のある生成ソフトウェアである ComfyUI もサポートしています。モデルは直接読み込んで使用できます。

4. 技術的な詳細について

理論的には、画像生成はノイズから鮮明な画像への段階的な変換プロセスです。このプロセスでは、ニューラルネットワークはこの変換フローの各位置での勾配を学習します。

画像を生成する具体的な手順は次のとおりです。

まず、フローの開始点でノイズサンプルをランダムにサンプリングし、ニューラルネットワークを使用して勾配を計算します。現在の位置の勾配に基づいてサンプルを微調整し、このプロセスを繰り返します。反復するごとに、サンプルは最終的な画像分布に近づき、鮮明な画像が得られます。

図: 生成プロセス(画像: https://arxiv.org/abs/2011.13456)

生成フローは複雑かつ非線形であるため、勾配誤差の蓄積を減らすために、生成プロセスは一度に小さなステップのみを実行する必要があり、ニューラルネットワークの頻繁な計算が必要になり、計算量が多くなります。

図: 曲線フロー(画像: https://arxiv.org/abs/2210.05475)

画像を生成するために必要な手順の数を減らすための解決策を見つけるために、多くの研究が行われてきました。いくつかの研究では誤差を減らすことができるサンプリング方法を提案しており、他の研究では生成されたフローをより直線的にしようとしています。これらの方法は進歩していますが、画像を生成するには依然として 10 以上の推論ステップが必要です。

もう 1 つのアプローチはモデル蒸留であり、10 未満の推論ステップで高品質の画像を生成できます。モデル蒸留は、現在のフロー位置での勾配を計算する代わりに、モデル予測のターゲットを変更し、次のより遠いフロー位置を直接予測できるようにします。具体的には、複数の推論ステップを完了した後、教師ネットワークの結果を直接予測するように生徒ネットワークをトレーニングします。このような戦略により、必要な推論ステップの数を大幅に削減できます。このプロセスを繰り返し適用することで、推論ステップの数をさらに削減できます。このアプローチは、以前の研究では漸進的蒸留と呼ばれていました。

図: 漸進的蒸留、生徒ネットワークは複数のステップを経て教師ネットワークを予測する

実際には、学生ネットワークが将来のフロー位置を正確に予測することは難しいことがよくあります。エラーは各ステップで蓄積され、増幅されるため、推論のステップが 8 ステップ未満の場合には、モデルによって生成された画像がぼやけ始めます。

この問題に対処するための私たちの戦略は、生徒ネットワークを教師ネットワークの予測と正確に一致させることではなく、確率分布において生徒ネットワークを教師ネットワークと一致させることです。言い換えれば、学生ネットワークは確率的な位置を予測するようにトレーニングされており、それが完全に正確でなくてもペナルティを課すことはありません。この目標は、敵対的トレーニングを通じて達成され、追加の識別ネットワークを導入して、生徒ネットワークと教師ネットワークの出力間の分布マッチングを実現します。

これは私たちの研究方法の簡単な概要です。技術論文 ( https://arxiv.org/abs/2402.13929 ) では、より詳細な理論的分析、トレーニング戦略、およびモデルの具体的な定式化の詳細を提供します。

5. SDXL-Lightningを超えて

この研究では主に SDXL-Lightning 技術を画像生成に使用する方法を検討していますが、提案する漸進的敵対的蒸留法の応用可能性は静止画像の範囲に限定されません。この革新的なテクノロジーは、ビデオ、オーディオ、その他のマルチモーダルコンテンツを迅速かつ効率的に生成するためにも使用できます。ぜひ、HuggingFace プラットフォームで SDXL-Lightning を体験していただき、貴重なコメントやフィードバックをお待ちしております。

モデル: https://huggingface.co/ByteDance/SDXL-Lightning

論文: https://arxiv.org/abs/2402.13929

<<: 商用 AI をマスターする: RAG と CRAG を使用したエンタープライズレベルの AI プラットフォームの構築

>>: OpenAIがテキストから動画を生成するAIジェネレーター「Sora」をリリース