火曜日、Stability AIは新世代の画像合成モデル「Stable Diffusion XL Turbo」を発表し、大きな拍手を浴びた。画像からテキストを生成することはかつてないほど簡単になったと言われています。 他に何もする必要はありません。テキスト ボックスにアイデアを入力するだけで、SDXL Turbo がすぐに応答し、対応するコンテンツを生成します。入力された通りに生成され、コンテンツの増減によって速度に全く影響しません。 既存の画像を利用して、より細かな作品を作ることもできます。白い紙を手に持ち、SDXL Turbo に白い猫が欲しいと伝えます。入力が終わる前に、小さな白い猫がすでにあなたの手の中にいます。 SDXL Turbo モデルの速度は「リアルタイム」に近いレベルに達しており、人々は「画像生成モデルは何か他のこともできるのだろうか?」と考え始めています。 誰かがゲームを直接接続して、2fps スタイルの転送画像を取得しました: 公式ブログによると、A100 では、SDXL Turbo は 512x512 の画像を 207 ミリ秒 (オンザフライ エンコード + 単一のノイズ除去ステップ + デコード、fp16) で生成でき、そのうち単一の UNet フォワード評価には 67 ミリ秒かかります。 このように、文生図は「リアルタイム」の時代に入ったと判断できます。 こうした「瞬間発電」の効率は、少し前に人気が高まった清華 LCM モデルと多少似ていますが、その背後にある技術的な内容は異なります。スタビリティ社は、同時に発表した研究論文で、このモデルの内部の仕組みを詳しく説明した。この研究は、敵対的拡散蒸留 (ADD) と呼ばれる手法に焦点を当てています。 SDXL Turbo の利点の 1 つは、特にシングルステップの画像出力を生成するという点で、生成的敵対的ネットワーク (GAN) との類似性です。 論文アドレス: https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf 論文の詳細つまり、敵対的拡散蒸留は、高いサンプリング忠実度を維持しながら、事前トレーニング済みの拡散モデルの推論ステップ数を 1 ~ 4 サンプリング ステップに削減し、モデルの全体的なパフォーマンスをさらに向上させることができる一般的な方法です。 この目的のために、研究者らは、(i)敵対的損失と(ii)SDSに対応する蒸留損失という2つのトレーニング目標の組み合わせを導入しました。敵対的損失により、モデルは各フォワードパスで真の画像マニホールド上に直接配置されるサンプルを生成するように強制され、他の蒸留方法でよく見られるぼやけやその他のアーティファクトを回避します。蒸留損失は、別の事前トレーニング済み(および固定)拡散モデルを教師として使用し、その広範な知識を効果的に活用し、大規模な拡散モデルで観察される強力な組み合わせ性を維持します。推論中、研究者は分類器を使用しないガイダンスを使用しなかったため、メモリ要件がさらに削減されました。これらは、反復的な改良を通じて結果を改善するモデルの能力を保持しており、これは以前の GAN ベースのシングルステップ方式よりも優れています。 トレーニング手順を図 2 に示します。 表 1 にアブレーション実験の結果を示します。主な結論は次のとおりです。 次に、他のSOTAモデルとの比較です。ここでは、研究者は自動指標を使用せず、より信頼性の高いユーザー嗜好評価方法を選択し、迅速なコンプライアンスと全体的なイメージを評価することを目指しました。 実験では、同じプロンプトを使用して出力を生成することで、いくつかの異なるモデルバリアント (StyleGAN-T++、OpenMUSE、IF-XL、SDXL、および LCM-XL) を比較します。ブラインド テストでは、SDXL Turbo は LCM-XL の 4 ステップ構成を 1 ステップで上回り、SDXL の 50 ステップ構成をわずか 4 ステップで上回りました。これらの結果から、SDXL Turbo は、画像品質を犠牲にすることなく、計算要件が大幅に低い最先端のマルチステップ モデルよりも優れていることがわかります。 図 7 は推論速度に対する ELO スコアを視覚化したものです。 表 2 では、同じ基本モデルを使用して、さまざまな数ステップのサンプリングと蒸留方法を比較しています。結果は、ADD が 8 ステップの標準 DPM ソルバーを含む他のすべての方法よりも優れていることを示しています。 本論文では、定量的な実験結果の補足として、初期サンプルに基づく ADD-XL の改善能力を示す定性的な実験結果もいくつか提示しています。図 3 は、ADD-XL (1 ステップ) と、数ステップ スキームにおける現在の最良のベースラインを比較しています。図 4 は、ADD-XL の反復サンプリング プロセスを示しています。図 8 は、ADD-XL とその教師モデル SDXL-Base を直接比較しています。ユーザー調査で示されているように、ADD-XL は品質とプロンプトの調整の両方の点で教師モデルよりも優れています。 研究の詳細については原著論文を参照してください。 |
<<: ChatGPT がリリースされてから 1 年が経ちました。主要なオープン ソース モデルはすべて追いついたのでしょうか?
>>: ChatGPT が個人情報を含むトレーニングデータを吐き出す: DeepMind が論争を巻き起こす大きなバグを発見
地元警察は、ここ数日話題になっている「グーグルの人員削減により清華大学の夫婦が自殺」事件の詳細を発表...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
千人の人々の目には千のハムレットがいる。主観的な違いにより、人間には何千万通りもの異なる美的嗜好が存...
アリゾナ州フェニックスからテキサス州エルパソまでの距離は約 690 キロメートルで、地図に示されてい...
畳み込みの目的は、入力から有用な特徴を抽出することです。画像処理では、さまざまなフィルターを選択でき...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
ジョンズ・ホプキンス大学医学部の研究チームは、人間の皮膚にある触覚受容体の複雑な神経ネットワークを利...
世界はクリーンで安全、かつ手頃な価格で持続可能な電力を緊急に必要としており、各国は化石エネルギーに代...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[347640]] Facebookはまた失敗したのか?フェイスブックは昨日、自社の機械翻訳が画期...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...