1024解像度で最速モデル、ByteDanceのオープンモデルSDXL-Lightningがリリース

1024解像度で最速モデル、ByteDanceのオープンモデルSDXL-Lightningがリリース

モデル| https://huggingface.co/ByteDance/SDXL-Lightning

論文 | https://arxiv.org/abs/2402.13929

1. 超高速画像生成

生成 AI は、テキストプロンプトに基づいて魅力的な画像やビデオを作成できる機能により、世界的な注目を集めています。現在の最先端の生成モデルは、ノイズを徐々に画像サンプルに変換する反復プロセスである拡散に依存しています。このプロセスには膨大な計算リソースが必要であり、時間がかかります。高品質の画像サンプルを生成するプロセスでは、1 つの画像の処理時間は約 5 秒で、通常は大規模なニューラル ネットワークへの複数回 (20 ~ 40 回) の呼び出しが必要になります。このような速度は、高速でリアルタイムの生成要件を持つアプリケーション シナリオを制限します。プロセスを高速化しながら生成品質を向上させる方法は、現在の研究のホットな話題であり、私たちの研究の中心的な目標でもあります。

SDXL-Lightning は、革新的なテクノロジーであるProgressive Adversarial Distillationによってこの障壁を打ち破り、これまでにない生成速度を実現します。このモデルは、わずか 2 ~ 4 ステップで非常に高品質かつ高解像度の画像を生成できるため、計算コストと時間が 10 倍削減されます。私たちのアプローチでは、品質が若干犠牲になるものの、時間に敏感なアプリケーション向けに 1 ステップで画像を生成することもできます。

SDXL-Lightning は、速度の利点に加えて、画質においても優れたパフォーマンスを発揮し、評価において従来の加速技術を上回っています。優れた多様性と画像とテキストのマッチングを維持しながら、より高い解像度と優れた詳細を実現します。

速度比較

オリジナルモデル(20ステップ)、SDXL-Lightningモデル(2ステップ)

2. モデル効果

SDXL-Lightningモデルは、1 ステップ、2 ステップ、4 ステップ、8 ステップで画像を生成できます。推論ステップが増えるほど、画像の品質は向上します。

4 段階の生成の結果は次のとおりです。


微笑む少女

山道を登るピックアップトラック

自転車に乗った魚、カラフルなアート

サングラスをかけたアジア人女性のクローズアップ

美しいカップ

モナ・リザ、スケッチ

泳ぐパンダ

山道を登るピックアップトラック

砂漠の家、シュールな風景

2 段階生成の結果は次のとおりです。

リビングルームの家具デザイン

精巧なイタリアの僧侶のローブを着た子アライグマの映画のようなショット

居心地の良いリビングルームで、柔らかい毛と明るい目をした犬がおもちゃを追いかけて飛び跳ねている

雲が入ったティーカップ

家族、ミディアムショット

雪の中でおもちゃで遊ぶ赤ちゃん

老人と犬が公園を散歩している

車を運転するドラゴン

ラテアートを作る猿

従来の方法 (Turbo および LCM) と比較すると、私たちの方法は詳細が大幅に改善された画像を生成するとともに、元の生成モデルのスタイルとレイアウトに忠実です。


3. コミュニティに還元し、モデルを公開する

オープンソースとオープン性の波は人工知能の急速な発展を推進する重要な力となり、ByteDance はこの波の一部であることを誇りに思っています。私たちのモデルは、テキストから画像を生成するための最も人気のあるオープン モデルである SDXL に基づいており、すでに活発なエコシステムを持っています。現在、私たちは SDXL-Lightning を世界中の開発者、研究者、クリエイティブな実践者に公開し、彼らがこのモデルにアクセスして適用し、業界全体でイノベーションとコラボレーションをさらに促進できるようにすることを決定しました。

SDXL-Lightning を設計する際には、オープン モデル コミュニティとの互換性を考慮しました。コミュニティ内の多くのアーティストや開発者が、漫画やアニメスタイルなど、さまざまな様式化された画像生成モデルを作成しています。これらのモデルをサポートするために、スピードアップ プラグインとして SDXL-Lightning を提供しています。このプラグインは、さまざまなスタイルの SDXL モデルにシームレスに統合され、さまざまなモデルのイメージ生成を高速化できます。

SDXL-Lightningモデルは、現在非常に人気のある制御プラグイン ControlNet と組み合わせて、非常に高速で制御可能な画像生成を実現することもできます。

SDXL-Lightningモデルは、オープンソース コミュニティで最も人気のある生成ソフトウェアである ComfyUI もサポートしています。モデルは直接読み込んで使用できます。


4. 技術的な詳細について

理論的には、画像生成はノイズから鮮明な画像への段階的な変換プロセスです。このプロセスでは、ニューラル ネットワークはこの変換フローの各位置での勾配を学習します。

画像を生成する具体的な手順は次のとおりです。

まず、フローの開始点でノイズ サンプルをランダムにサンプリングし、ニューラル ネットワークを使用して勾配を計算します。現在の位置の勾配に基づいてサンプルを微調整し、このプロセスを繰り返します。反復するごとに、サンプルは最終的な画像分布に近づき、鮮明な画像が得られます。

図: 生成プロセス(画像: https://arxiv.org/abs/2011.13456)

生成フローは複雑かつ非線形であるため、勾配誤差の蓄積を減らすために、生成プロセスは一度に小さなステップのみを実行する必要があり、ニューラル ネットワークの頻繁な計算が必要になり、計算量が多くなります。

図: 曲線フロー(画像: https://arxiv.org/abs/2210.05475)

画像を生成するために必要な手順の数を減らすための解決策を見つけるために、多くの研究が行われてきました。いくつかの研究では誤差を減らすことができるサンプリング方法を提案しており、他の研究では生成されたフローをより直線的にしようとしています。これらの方法は進歩していますが、画像を生成するには依然として 10 以上の推論ステップが必要です。

もう 1 つのアプローチはモデル蒸留であり、10 未満の推論ステップで高品質の画像を生成できます。モデル蒸留は、現在のフロー位置での勾配を計算する代わりに、モデル予測のターゲットを変更し、次のより遠いフロー位置を直接予測できるようにします。具体的には、複数の推論ステップを完了した後、教師ネットワークの結果を直接予測するように生徒ネットワークをトレーニングします。このような戦略により、必要な推論ステップの数を大幅に削減できます。このプロセスを繰り返し適用することで、推論ステップの数をさらに削減できます。このアプローチは、以前の研究では漸進的蒸留と呼ばれていました。

図: 漸進的蒸留、生徒ネットワークは複数のステップを経て教師ネットワークを予測する


実際には、学生ネットワークが将来のフロー位置を正確に予測することは難しいことがよくあります。エラーは各ステップで蓄積され、増幅されるため、推論のステップが 8 ステップ未満の場合には、モデルによって生成された画像がぼやけ始めます。

この問題に対処するための私たちの戦略は、生徒ネットワークを教師ネットワークの予測と正確に一致させることではなく、確率分布において生徒ネットワークを教師ネットワークと一致させることです。言い換えれば、学生ネットワークは確率的な位置を予測するようにトレーニングされており、それが完全に正確でなくてもペナルティを課すことはありません。この目標は、敵対的トレーニングを通じて達成され、追加の識別ネットワークを導入して、生徒ネットワークと教師ネットワークの出力間の分布マッチングを実現します。

これは私たちの研究方法の簡単な概要です。技術論文 ( https://arxiv.org/abs/2402.13929 ) では、より詳細な理論的分析、トレーニング戦略、およびモデルの具体的な定式化の詳細を提供します。

5. SDXL-Lightningを超えて

この研究では主に SDXL-Lightning 技術を画像生成に使用する方法を検討していますが、提案する漸進的敵対的蒸留法の応用可能性は静止画像の範囲に限定されません。この革新的なテクノロジーは、ビデオ、オーディオ、その他のマルチモーダル コンテンツを迅速かつ効率的に生成するためにも使用できます。ぜひ、HuggingFace プラットフォームで SDXL-Lightning を体験していただき、貴重なコメントやフィードバックをお待ちしております。

モデル: https://huggingface.co/ByteDance/SDXL-Lightning

論文: https://arxiv.org/abs/2402.13929

<<:  商用 AI をマスターする: RAG と CRAG を使用したエンタープライズ レベルの AI プラットフォームの構築

>>:  OpenAIがテキストから動画を生成するAIジェネレーター「Sora」をリリース

ブログ    
ブログ    

推薦する

...

AI規制に関するマスク氏の見解:規制は面倒だが、審判がいるのは良いことだ

現地時間11月3日、木曜日の2日間にわたる英国人工知能安全サミットで、テスラのイーロン・マスクCEO...

将来に影響を与える戦略的テクノロジートレンドトップ10

常に進化するテクノロジーの世界では、企業、政府、個人にとって、常に最先端を行くことが重要です。このダ...

...

GIF 圧縮アルゴリズムの発明者が IEEE の最高栄誉賞を受賞

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

「Nvidia人工呼吸器」オープンソース:コンピュータアーキテクチャのマスターによって構築され、コストが98%削減され、黄仁訓が賞賛

この人工呼吸器は、コンピューターアーキテクチャの巨匠ビル・ダリー氏によって設計されました。コンピュー...

復活したジャンルのトップ10を数えると、必ず気に入るジャンルが見つかる

統計モデルやその他のアルゴリズムに加えて、回帰は機械学習を正常に動作させるための重要な要素です。回帰...

調査レポート:世界中の企業の75%が職場でのChatGPTの使用を禁止または禁止を検討中

8月9日、BlackBerryは新たな調査レポートを発表し、現在、世界中の企業の75%が職場でのCh...

AWS クラウド機械学習を使用したサーバーレスニュースデータパイプラインの構築

[[436699]] [51CTO.com クイック翻訳]アナリストとして、私はニュースや業界の最新...

テンセントクラウドがAIペイント製品をリリース、25以上の生成スタイルをサポート

9月10日、テンセントクラウドは9月7日に開催された2023テンセントグローバルデジタルエコシステム...

AIはオミクロン変異体の構造を1時間で予測、誤差は原子直径の半分のみ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

クラウド AIGC をめぐる戦い: 最後に笑うのは Microsoft か Amazon か?

ChatGPTが11月下旬にリリースされて以来、テクノロジー業界の多くの人々は、OpenAIの資金...

...