Stable Diffusion で 1 秒で写真を作成しましょう。清華大学マスターアクセラレーターはホットなトレンドで、いくつかの企業が参加している

Stable Diffusion で 1 秒で写真を作成しましょう。清華大学マスターアクセラレーターはホットなトレンドで、いくつかの企業が参加している

AI画像生成は秒単位のスピードに達しました。描画を完了するには4ステップの推論しかかからず、最速では1秒以内に完了します。

現在、清華大学とHuggingFaceの研究者らは、新しい描画モデル加速モジュールを立ち上げました。

作者が提供している試用版では、生成ボタンをクリックした後、わずか数秒でモデルが 4 つの鮮明な画像を描画しました。

このアクセラレーション モジュールは LCM-LoRA と呼ばれ、リリース後すぐに 2,000 を超える GitHub スターを獲得しました。

強力な加速機能と優れた一般化性能を備えているだけでなく、互換性のあるモデルの範囲も広く、SD モデルと LoRA モデルの両方を加速できます。

チームが独自に最適化した LCM-LoRA に基づくテキストベースのグラフ モデルは HuggingFace で体験できるようになり、画像ベースのグラフ モデルも CoLab やその他のバージョンでリリースされました。

AI描画ツールに素早くアクセス

LCM-LoRAがオープンソース化された直後、AI描画ツールメーカーのScenarioは、これをベースにした「リアルタイム描画」機能をリリースすると発表した。

𝕏で近日公開予定のリアルタイム描画機能DEMOも、シナリオのCEO自らが実演しました。

一方がスケッチを描いている間に、もう一方はAIが対応する絵を描いており、時間はほぼ同期していました。

プロンプト単語と関連パラメータを調整することで、モデルは迅速かつ効率的に応答します。

これらのデモが公開されると、世間から満場一致の賞賛が集まりました。

では、LCM-LoRA アクセラレーション モジュールはどれほど強力で、どのように実現されているのでしょうか?

メモリオーバーヘッドを削減する「スキップステップ」

LCM-LoRA は、潜在的一貫性モデル (LCM) の蒸留プロセスに LoRA を導入し、トレーニング メモリのオーバーヘッドを大幅に削減してパフォーマンスを向上させます。

LCM は潜在拡散モデル (LDM) から抽出され、「蒸留」プロセスは拡散モデルの微調整とも考えられます。

その中心的なアイデアは、画像の潜在変数空間における一貫したマッピング関数を学習することです。これにより、拡散プロセス内の任意の点を終点、つまり微分方程式の解に直接マッピングできます。

この一貫したマッピングにより、LCM は反復的なサンプリング プロセスをスキップし、数ステップまたは 1 ステップのサンプリングを直接実行できるため、画像生成が大幅に高速化されます。

ピクセル空間ベースの方法と比較すると、潜在変数空間演算では計算の複雑さとメモリ要件が低くなります。

LoRA と組み合わせると、低ランク分解行列のみをトレーニングすればよく、トレーニング可能なパラメータの量とメモリのオーバーヘッドがさらに削減され、適用範囲も単純なテキスト生成画像から画像生成画像やビデオ生成へと拡大されます。

最も直感的な表現は、数秒で画像が出力されることです。トレーニング時間に関して言えば、LCM-LoRA 最適化モデルは A100 でトレーニングするのに 32 GPU 時間しかかかりません。

トレーニング時間の短縮は、トレーニング パラメータの数が大幅に削減されたことにも密接に関係しています。

  • SD-V1.5 の総パラメータ数は 980 億です。LoRA を使用すると、トレーニング可能なパラメータは 6750 万に削減され、約 99.9% 削減されます。
  • SSD-1B パラメータの数は 130 億から 1 億 500 万に削減され、約 99% 削減されました。
  • SDXL パラメータの数は 350 億から 1 億 9,700 万に削減され、約 99.4% 削減されました。

トレーニングコストが削減されるだけでなく、推論プロセスのステップ数も大幅に削減されます。通常、高品質の画像を描くために必要な推論ステップは 4 つだけです。

場合によっては、FID スコアが 50 未満 (低いほど良い) で、1 秒未満で 1 ステップだけで完了できることもあります。

LCM-LoRAは優れた加速性能を備えているだけでなく、幅広い適応性も備えています。

LCM-LoRA トレーニングによって取得された LoRA パラメータは、加速度ベクトルとも呼ばれます。追加のトレーニングを必要とせずに、データセットの微調整によって取得された LoRA パラメータと直接線形結合できます。

この組み合わせにより、LCM-LoRA は、さまざまな微調整されたモデルに直接プラグインできる汎用画像生成アクセラレーション モジュールになります。

著者について

LCM および LCM-LoRA 論文の主著者は、清華大学学際情報科学研究所の大学院生 Simian Luo 氏と Yiqin Tan 氏です。

清華大学クロススクールの黄龍波准教授、李建准教授、趙星助教授もこの2つの研究に参加した。

HuggingFace の研究者も LCM-LoRA の研究に貢献しました。

論文の宛先:
[1] https://arxiv.org/abs/2310.04378
[2] https://arxiv.org/abs/2311.05556

<<:  ChatGPTの10の実用的なビジネスユースケース

>>:  GPT-4V の新しいゲームプレイは GitHub のホット リストのトップにランクインし、簡単な描画だけで Web ページを生成できるようになりました。ウェブ開発者:脅威を感じる

ブログ    
ブログ    
ブログ    

推薦する

カリフォルニア大学バークレー校のDeepMindと他の企業が共同で、仮想と現実の境界を打ち破る現実世界シミュレーターをリリースした。

現実世界のシミュレーターが登場!トレーニングされた大規模モデルが現実の物理世界に適応できないのではな...

大規模モデルアプリケーションの探索 - エンタープライズ ナレッジ スチュワード

1. 伝統的なナレッジマネジメントの背景と課題1. 企業知識管理の必要性ナレッジ マネジメントは、あ...

...

...

...

機械学習において、トレーニングおよび検証メトリック グラフから何がわかるでしょうか?

この記事では、トレーニングと検証の考えられる状況をまとめ、これらのチャートがどのような情報を提供でき...

ジョン・マカフィーの意見: 人工知能は人類を滅ぼすのか?

2017 年 3 月 9 日、ハッカー アンダーグラウンド テクノロジーの専門家であり作家でもある...

...

センスタイムは香港証券取引所に上場し、最悪の時期から脱却した。

【51CTO.comオリジナル記事】著者: 張傑本日2021年12月30日、SenseTimeの2...

スマート農業におけるモノのインターネットの応用

人口は飛躍的に増加しており、農業は人口を養う問題を解決する必要がある。農業をより効率的かつ持続可能な...

多くの場所でAI顔認識の使用が制限されており、監視は技術開発のペースに追いついています

最近、南京、江蘇省、天津などではAI顔認識技術の使用を禁止し始めている。 11月末、南京市のある男性...

LLM評価にArthur Benchを使用する方法を学ぶ

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

LVS 負荷分散モードとアルゴリズムの概要

先ほど、Lvs ロード バランシングの状態監視とトラブルシューティングについて紹介しましたが、Lvs...

ついに、人工知能の3つの重要な機能を説明する人がいた。

人間の知性は広大かつ複雑です。人間の成果の中には、今日の機械では到底達成できないものもあり、機械がこ...

スマートイメージセンサー業界の過去と現在を1つの記事で理解する

スマートイメージセンサーは、イメージセンサーと視覚ソフトウェアで構成されており、視覚情報をキャプチャ...