リアルタイムのテキストおよび画像処理の速度が 5 ~ 10 倍向上しました。Tsinghua LCM/LCM-LoRA は人気を博し、視聴回数は 100 万回を超えました。

リアルタイムのテキストおよび画像処理の速度が 5 ~ 10 倍向上しました。Tsinghua LCM/LCM-LoRA は人気を博し、視聴回数は 100 万回を超えました。

テキストから作成された画像や写真から作成された画像は、新しいものではありません。しかし、これらのツールを使用する過程で、通常は実行速度が遅く、生成された結果を得るまでにしばらく待たなければならないことがわかりました。

しかし最近では、「LCM」と呼ばれるモデルがこの状況を変え、リアルタイムで連続画像を生成することさえできるようになりました。

画像出典: https://twitter.com/javilopen/status/1724398666889224590

LCM の正式名称は潜在的一貫性モデルであり、清華大学の学際情報科学研究所の研究者によって構築されました。このモデルがリリースされる前は、Stable Diffusion などの潜在拡散モデル (LDM) は、反復サンプリング プロセスで大量の計算が必要だったため、生成に非常に時間がかかりました。 LCM は革新的な方法により、わずか数ステップの推論で高解像度の画像を生成できます。統計によると、LCM は主流のテキストベースのグラフ モデルの効率を 5 ~ 10 倍向上させることができるため、リアルタイムの効果を発揮できます。


  • 論文リンク: https://arxiv.org/pdf/2310.04378.pdf
  • プロジェクトアドレス: https://github.com/luosiallen/latent-consistency-model

この記事は公開後 1 か月以内に 100 万回以上閲覧され、著者は新しく開発された LCM モデルとデモを Hugging Face、Replicate、Puyuan などの複数のプラットフォームに展開するよう依頼されました。 Hugging Faceプラットフォーム上のLCMモデルのダウンロード数は20万回を超え、ReplicateのオンラインAPI呼び出し回数は54万回を超えました。

これを基に、研究チームはさらに LCM-LoRA を提案しました。これは、追加のトレーニングなしで LCM の高速サンプリング機能を他の LoRA モデルに転送でき、オープンソース コミュニティにすでに存在するさまざまなスタイルの多数のモデルに直接的かつ効果的なソリューションを提供します。

技術レポートのリンク: https://arxiv.org/pdf/2311.05556.pdf

潜在的一貫性モデルを迅速に生成する機能により、画像生成技術の新たな応用分野が開かれます。このモデルは、入力テキスト(プロンプト)に基づいてリアルタイムでキャプチャされた画像を迅速に処理およびレンダリングできるため、高速な画像生成を実現します。つまり、ユーザーは表示したいシーンや視覚効果をカスタマイズできます。

X プラットフォームでは、画像生成、ビデオ生成、画像編集、リアルタイム ビデオ レンダリングなど、さまざまなアプリケーションを含め、多くの研究者がこのモデルを使用して達成した生成効果も共有しています。

画像出典: https://twitter.com/javilopen/status/1724398666889224590

画像出典: https://twitter.com/javilopen/status/1724398708052414748

著者チームは現在、LCM コードを完全にオープンソース化しており、SD-v1.5 や SDXL などの事前トレーニング済みモデルから抽出したモデル重みファイルとオンライン デモもリリースしています。さらに、Hugging Face チームは、潜在的一貫性モデルを公式ディフューザー リポジトリに統合し、LCM と LCM-LoRA の関連コード フレームワークを 2 つの連続した公式バージョン v0.22.0 と v0.23.0 で更新し、潜在的一貫性モデルを適切にサポートしています。 Hugging Faceで発表されたモデルは、プラットフォーム全体の文学・グラフィックモデルの中で人気1位、今日の人気ランキングではすべてのカテゴリのモデルの中で人気3位にランクされました。


次に、LCMとLCM-LoRAという2つの研究成果についてそれぞれ紹介します。

LCM: わずか数ステップの推論で高解像度画像を生成

AIGC 時代では、安定拡散や DALL-E 3 などの拡散モデルベースの Wensheng グラフ モデルが広く注目を集めています。拡散モデルは、トレーニング データにノイズを追加し、そのプロセスを逆にすることで高品質の画像を生成します。ただし、拡散モデルでは画像を生成するために複数のサンプリング手順が必要であり、これは比較的遅いプロセスであり、推論のコストが増加します。このようなモデルを展開する場合、遅いマルチステップサンプリングの問題が大きなボトルネックとなります。

OpenAI の Song Yang 博士が今年提案した一貫性モデル (CM) は、上記の問題を解決するためのアイデアを提供します。一貫性モデルは、単一ステップ生成が可能になるように設計されており、拡散モデルの生成を加速する大きな可能性を示しています。ただし、一貫性モデルは無条件の画像生成に限定されているため、テキスト生成画像や画像生成画像などの多くの実用的なアプリケーションでは、このモデルの潜在的な利点を享受することが依然として困難です。

上記の問題を解決するために、潜在的一貫性モデル (LCM) が作成されました。潜在的一貫性モデルは、与えられた条件下での画像生成タスクをサポートし、潜在的コーディングや分類器フリーガイダンスなど、拡散モデルで広く使用されている多くの技術を組み合わせて、条件付きノイズ除去プロセスを大幅に加速し、実用的なアプリケーションの重要性を持つ多くのタスクへの道を開きます。

LCM 技術詳細

具体的には、潜在的整合性モデルは、拡散モデルのノイズ除去問題を、以下に示すように、拡張確率フロー常微分方程式を解くプロセスとして解釈します。

従来の拡散モデルでは、数値的手法を使用して常微分方程式を反復的に解きます。より正確なソルバーを設計することで、各ステップの精度を向上させ、必要な反復回数を減らすことができますが、これらの方法の最良の場合でも、十分に優れた解を得るには約 10 回の反復が必要です。

常微分方程式の反復解とは異なり、潜在的整合性モデルでは常微分方程式の直接的な単一ステップ解が必要であり、方程式の最終解を直接予測するため、理論的には単一ステップで画像を生成することが可能です。

潜在的一貫性モデルをトレーニングするために、この研究では、事前トレーニング済みの拡散モデル(安定拡散など)のパラメータを微調整することで、リソース消費をほとんどかけずにモデルに高速生成効果を与えることができると指摘しました。この蒸留プロセスは、Yang Song 博士が提案した一貫性損失関数の最適化に基づいています。テキスト グラフ タスクのパフォーマンスを向上させ、計算オーバーヘッドを削減するために、この論文では 3 つの重要なテクノロジを提案します。

(1)事前学習済みのオートエンコーダを使用して元の画像を潜在空間にエンコードし、画像内の冗長な情報を圧縮しながら画像の意味的な一貫性を高めます。

(2)分類器フリーガイダンスは、潜在的一貫性モデルの入力パラメータとして抽出される。分類器フリーガイダンスによってもたらされるより良い画像とテキストの一貫性を享受しながら、分類器フリーガイダンス振幅は入力パラメータとして潜在的一貫性モデルに抽出され、推論に必要な計算オーバーヘッドを削減することができる。

(3)スキップステップ戦略を使用して一貫性損失を計算すると、潜在的一貫性モデルの蒸留プロセスが大幅に高速化されます。潜在的一貫性モデルの蒸留アルゴリズムの疑似コードを以下に示します。

定性的および定量的な結果は、1 ~ 4 ステップで高品質の画像を生成できる潜在的一貫性モデルの迅速な生成能力を実証しています。実際の推論時間と生成品質指標 FID を比較すると、潜在一貫性モデルは、同じ生成品質を維持しながら、既存の最速サンプラーの 1 つである DPM ソルバー ++ と比較して、実際の推論時間の約 4 倍の高速化を実現できることがわかります。

LCMによって生成された画像

LCM-LORA: ユニバーサル安定拡散加速モジュール

著者チームはその後、潜在的一貫性モデルに基づいて、LCM-LoRA に関する技術レポートをさらに公開しました。潜在的整合性モデルの蒸留プロセスは、元の事前トレーニング済みモデルの微調整プロセスと見なすことができるため、LoRA などの効率的な微調整手法を使用して潜在的整合性モデルをトレーニングできます。 LoRA 技術によってもたらされたリソースの節約のおかげで、著者チームは Stable Diffusion シリーズの中で最も多くのパラメータを持つ SDXL モデルの蒸留を実行し、非常に少ないステップで数十ステップの SDXL を生成できる潜在的な一貫性モデルを取得することに成功しました。

論文の「はじめに」のセクションでは、潜在拡散モデル (LDM) はテキスト生成、線画生成などで成功を収めているものの、その固有の遅い逆サンプリング プロセスがリアルタイム アプリケーションを妨げ、ユーザー エクスペリエンスに影響を与えると述べられています。現在のオープンソース モデルとアクセラレーション技術は、標準的な消費者向け GPU ではリアルタイムで生成できません。

LDM を高速化する方法は通常 2 つのカテゴリに分けられます。最初のカテゴリでは、DDIM、DPMSolver、DPM-Solver++ などの高度な ODE ソルバーを使用して生成プロセスを高速化します。 2 番目のカテゴリでは、LDM を精製してその機能を簡素化します。 ODE ソルバーは推論ステップの数を削減しますが、特に分類器ガイダンスが使用されていない場合は、依然としてかなりの計算オーバーヘッドが必要になります。一方、Guided-Distill などの蒸留方法は有望ではあるものの、膨大な計算が必要となるため、実用上の限界に直面しています。 LDM によって生成される画像の速度と品質のバランスを見つけることは、この分野では依然として課題となっています。

最近、一貫性モデル (CM) に触発されて、潜在的一貫性モデル (LCM) が画像生成における低速サンプリング問題の解決策として登場しました。 LCM は、逆拡散プロセスを強化確率フロー ODE (PF-ODE) 問題として扱います。このタイプのモデルは潜在空間内のソリューションを革新的に予測し、数値 ODE ソルバーによる反復ソリューションを必要としません。その結果、高解像度の画像を合成するのに非常に効率的になり、必要な推論ステップは 1 ~ 4 ステップのみになります。さらに、LCM は蒸留効率にも優れており、A100 でわずか 32 時間のトレーニングで最小ステップの推論を完了できます。

これに基づいて、教師拡散モデルから開始せずに事前トレーニング済みの LCM を微調整する方法として、潜在的一貫性ファインチューニング (LCF) が開発されました。アニメ、実際の写真、ファンタジー画像データセットなどのプロフェッショナルデータセットの場合、潜在的一貫性蒸留 (LCD) を使用して事前トレーニング済みの LDM を LCM に蒸留したり、LCF を使用して LCM を直接微調整したりするなどの追加の手順も必要です。ただし、この追加のトレーニングにより、さまざまなデータセットへの LCM の迅速な展開が妨げられる可能性があり、カスタム データセットで高速でトレーニング不要の推論を実現できるかどうかという重要な疑問が生じます。

上記の質問に答えるために、研究者らは、さまざまな安定拡散 (SD) 微調整モデルまたは SD LoRA に直接プラグインして、最小限の手順で高速な推論をサポートできる、一般的なトレーニング不要の加速モジュールである LCM-LoRA を提案しました。 DDIM、DPM-Solver、DPM-Solver++ などの初期の数値確率フロー ODE (PF-ODE) ソルバーと比較すると、LCM-LoRA は、ニューラル ネットワーク ベースの PF-ODE ソルバー モジュールの新しいクラスを表します。さまざまな微調整された SD モデルと LoRA にわたる強力な一般化機能を実証します。

LCM-LoRA の概要図。この研究では、LCM の蒸留プロセスに LoRA を導入することで、蒸留のメモリ オーバーヘッドが大幅に削減され、限られたリソースで SDXL や SSD-1B などの大規模なモデルをトレーニングできるようになりました。さらに重要なのは、LCM-LoRA トレーニングによって取得された LoRA パラメータ (加速度ベクトル) を、特定のスタイル データセットで微調整して取得された他の LoRA パラメータ (スタイル ベクトル) と直接組み合わせることができることです。トレーニングなしで、加速度ベクトルとスタイルベクトルの線形結合によって得られたモデルは、最小のサンプリングステップで特定の絵画スタイルの画像を生成できます。

LCM-LoRA 技術詳細

通常、潜在的一貫性モデルは、事前トレーニング済みのオートエンコーダ潜在空間を使用してガイド付き拡散モデルを LCM に蒸留する、単一ステージのガイド付き蒸留アプローチを使用してトレーニングされます。このプロセスには、確率フロー (ODE) の拡張が含まれます。これは、生成されたサンプルが高品質の画像を生成する軌跡をたどることを保証する数式として理解できます。

蒸留の焦点は、必要なサンプリング手順の数を大幅に削減しながら、これらの軌跡の忠実性を維持することにあることに留意してください。アルゴリズム 1 は LCD の疑似コードを提供します。

LCM の蒸留プロセスは事前トレーニング済みの拡散モデルのパラメータに対して実行されるため、潜在的一貫性の蒸留を拡散モデルの微調整プロセスと見なすことができ、LoRA などの効率的なパラメータ調整方法を採用することができます。

LoRA は、低ランク分解を適用して、事前トレーニング済みの重み行列を更新します。具体的には、重み行列 が与えられた場合、その更新方法は次のように表現されます。ここで、W_0 はトレーニング中に変更されず、勾配更新は 2 つのパラメーター A と B にのみ適用されます。したがって、入力 x の場合、順方向伝播の変化は次のように表されます。

hは出力ベクトルを表す。式(1)から、完全なパラメータ行列を2つの低ランク行列の積に分解することにより、LoRAはトレーニング可能なパラメータの数を大幅に削減し、メモリ使用量を削減することがわかる。

次の表は、LoRA テクノロジーを使用する場合の完全なモデル内のパラメーターの合計数とトレーニング可能なパラメーターを比較したものです。明らかに、LCM 蒸留プロセスに LoRA 技術を組み合わせることで、トレーニング可能なパラメータの数が大幅に削減され、トレーニングに必要なメモリが効果的に削減されます。

この研究では、一連の実験を通じて、LCD パラダイムが SDXL や SSD-1B などのより大規模なモデルにうまく適応できることを実証しました。さまざまなモデルの生成結果を図 2 に示します。

LoRA 技術を使用して蒸留プロセスをより効率的にすることに加えて、著者らは、このようにトレーニングされた LoRA パラメータを汎用加速モジュールとして使用し、他の LoRA パラメータと直接組み合わせることができることも発見しました。

上記の図 1 に示すように、著者チームは、特定のスタイル データセットを微調整して得られた「スタイル パラメータ」と、潜在的一貫性蒸留によって得られた「加速パラメータ」を単純に線形結合するだけで、高速生成機能と特定のスタイルの両方を備えた新しい潜在的一貫性モデルを取得できることを発見しました。この発見は、既存のオープンソース コミュニティにすでに存在する多数のオープンソース モデルに大きな後押しを与え、これらのモデルが追加のトレーニングなしでも潜在的な一貫性モデルによってもたらされる加速効果を享受できるようにします。

下の図は、この手法を用いて「切り絵風」モデルを改良することで得られた新モデルの生成効果を示しています。

要約すると、LCM-LoRA は、安定拡散 (SD) モデル用の汎用のトレーニング不要の加速モジュールです。これは、PF-ODE の解を予測するためのスタンドアロンで効率的なニューラル ネットワーク ベースのソルバー モジュールとして使用でき、さまざまな微調整された SD モデルと SD LoRA で最小限の手順で高速な推論を可能にします。広範囲にわたるテキストから画像への生成実験により、LCM-LoRA の強力な一般化能力と優位性が実証されています。

チームについて

論文の著者は全員、清華大学理工大学の出身者で、共同筆頭著者は Luo Simian 氏と Tan Yiqin 氏です。

羅思面さんは清華大学クロススクールの修士課程2年生で、指導教員は趙星教授です。復旦大学ビッグデータ学院卒業。彼の研究分野はマルチモーダル生成モデルです。彼の研究対象には、拡散モデル、一貫性モデル、AIGC アクセラレーションなどがあります。彼は次世代の生成モデルの開発に取り組んでいます。これまでに、ICCV および NeurIPS カンファレンスで第一著者としていくつかの論文を発表しています。

Tan Yiqun さんは清華大学クロススクールの修士課程 2 年目の学生で、指導教員は Huang Longbo 教授です。清華大学電子工学科卒業。彼の研究対象には、深層強化学習と拡散モデルが含まれます。これまで、彼は第一著者として ICLR などの会議で注目論文や口頭報告を発表してきました。

注目すべきは、2人の共著者がフォーク大学のLi Jian教授の高度なコンピュータ理論の授業でLCMのアイデアを提案し、最終的にそれを最終コースプロジェクトとして発表したことです。 3人の講師のうち、Li Jian氏とHuang Longbo氏は清華大学学際情報科学学院の准教授であり、Zhao Xing氏は清華大学学際情報科学学院の助教授です。

1列目(左から右):Luo Simian、Tan Yiqin。 2 列目 (左から右へ): Huang Longbo、Li Jian、Zhao Xing。

<<: 

>>:  OpenAIの「クレイジーウィーク」の力はあらゆる分野に影響を及ぼした

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

次のマーク・ザッカーバーグはAIになるのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

九張雲吉DataCanvasマルチモーダル大規模モデルプラットフォームの実践と思考

1. マルチモーダル大規模モデルの歴史的発展上の写真は、1956年にアメリカのダートマス大学で開催さ...

SIZEアルゴリズム: データストレージセキュリティの革命

スケンダーさん、あなたの発明の本質から始めましょう。 SIZEアルゴリズム開発とは何ですか?このアル...

...

人工知能によってどの産業が繁栄し、どの産業が消滅するのでしょうか?

[[264320]]人工知能の概念は最近非常に人気があります。BAT(百度、テンセント、アリババ)...

自然言語処理にディープラーニングを使用するにはどうすればよいでしょうか?ベストプラクティスのリストはこちら

この記事の著者である Sebastian Ruder は、自然言語処理にディープラーニングを使用する...

...

...

AI バイアスを検出して防止するにはどうすればよいでしょうか?

[[417154]] [51CTO.com クイック翻訳]あらゆる AI アプリケーションの成功は...

...

GAN は教師なし表現学習に使われており、その効果は今でも驚くべきものです...

全能の GAN がまたひとつの丘を征服しました。近年、DeepMindが提案したBigGANなど、G...

人工知能は、新たな技術と産業の変化のトレンドになりつつある

人工知能(AI)は、コンピュータサイエンスの一分野として、1970年代から世界の3大最先端技術の1つ...

...

面接でコンシステントハッシュアルゴリズムについて再度質問されました。この答えは面接官を即死させるでしょう!

[[284994]]データシャーディングまずは例を見てみましょう。多くの場合、キャッシュには Re...