Vincent の画像は 10 倍高速になり、ビデオはリアルタイムでレンダリングされます。清華大学が LCM をリリース: すべての SD 大規模モデル、LoRA、プラグインなどと互換性あり。

Vincent の画像は 10 倍高速になり、ビデオはリアルタイムでレンダリングされます。清華大学が LCM をリリース: すべての SD 大規模モデル、LoRA、プラグインなどと互換性あり。

潜在的整合性モデルは、生成速度を主な特徴とする画像生成アーキテクチャです。

複数の反復ステップを必要とする従来の拡散モデル (安定拡散など) とは異なり、LCM では、従来のモデルの約 30 ステップの効果をわずか 1 ~ 4 ステップで実現できます。

清華大学学際情報科学研究所の大学院生である羅思敏氏と譚一琴氏によって発明されたLCMは、テキスト画像生成速度を5~10倍向上させ、リアルタイム生成AIの時代を切り開きました。

LCM-LoRA: https://huggingface.co/papers/2311.05556

プロジェクトのホームページ: https://latent-consistency-models.github.io/

安定拡散キラー:LCM

LCM が登場する前は、さまざまなグループがさまざまな方向から SD1.5 と SDXL のさまざまな代替案を検討していました。これらのプロジェクトにはそれぞれ特徴がありますが、いずれも LoRA と互換性がなく、Stable Diffusion エコシステムと完全に互換性がないという欠点があります。リリース時間の順に、より重要なプロジェクトは次のとおりです。

モデル名

導入

スポーン速度

トレーニングの難易度

SDエコ適合性

ディープフロイド IF

高品質でテキストを生成できるが、アーキテクチャが複雑

もっとゆっくり

もっとゆっくり

互換性がない

カンディンスキー 2.2

SDXLより早くリリースされ、同等の高品質。ControlNetと互換性あり

似ている

似ている

互換性のないモデルとLoRA、ControlNetなどの一部のプラグインと互換性あり

ヴュルシュチェン V2

SDXLと同様の品質

2倍 - 2.5倍

より簡単に

互換性がない

SSD-1B

Segmind の SDXL から抽出、品質が若干低下

1.6倍

より簡単に

部分的に互換性あり

ピクサートα

ファーウェイは大学と協力して高品質の

似ている

SD1.5 10分の1

ControlNetなどの一部のプラグインと互換性があります

LCM (SDXL、SD1.5)

DreamShaperとSDXLからトレーニングされ、高品質で高速です

5倍~10倍

より簡単に

部分的に互換性あり

LCM-LoRA

小型で使いやすく、プラグインするだけでスピードアップしますが、品質が多少犠牲になります

5倍~10倍

より簡単に

すべてのSD大型モデル、LoRA、ControlNet、多数のプラグインと互換性があります

このとき、LCM-LoRA が登場しました。これは、SD1.5、SSD1B、SDXL を LCM の LoRA に統合し、すべての SDXL モデルに 5 倍高速な生成機能をもたらし、生成品質を少し犠牲にしながらも既存のすべての LoRA と互換性がありました。このプロジェクトは、Stable Diffusion エコシステム内の多数のプラグインと配布バージョンからすぐにサポートされました。

LCM は、生成品質と速度の両方を考慮しながら、独自の LCM 大規模モデル (LCM-SDXL など) または LCM-LoRA のトレーニングをサポートできるトレーニング スクリプトもリリースしました。たった 1 回のトレーニングで、生成品質を維持しながら速度を 5 倍に上げることができます。

現時点では、LCM エコシステムには SD を完全に置き換えるプロトタイプが存在します。

2023/11/22現在、LCMをサポートするオープンソースプロジェクトは次のとおりです。

  • 安定拡散放出
  • WebUI (LCM-LoRA のネイティブ サポート、LCM プラグインは LCM-SDXL をサポート)、ComfyUI、Fooocus (LCM-LoRA)、DrawThings
  • 小型モデル
  • LCM-LoRAは他のLoRA、ControlNetと互換性があります

  • AnimateDiff WebUI プラグイン

サポートを追加する予定のプロジェクト:

  • WebUI マスターおよびサブマスターのサポート
  • トレーニングスクリプト Kohya SS
  • LCM-SDXL および LCM-DreamShaper 用 ControlNet
  • LCM-AnimateDiff

エコシステムが徐々に発展するにつれて、LCM は次世代画像生成の基盤レイヤーとして Stable Diffusion を完全に置き換える可能性を秘めています。

今後の展望

Stable Diffusion のリリース以来、生成コストは徐々に最適化され、LCM の出現により、画像生成コストが 1 桁直接削減されました。革命的なテクノロジーが登場するたびに、業界を改革する豊富な機会がもたらされます。 LCM は、少なくとも、画像生成コストの削減、ビデオ生成、リアルタイム生成という 3 つの側面で、業界の状況に大きな変化をもたらすことができます。

1. 画像生成コストがなくなる

C 製品側では、無料が有料に置き換えられます。 GPU コンピューティング能力の高コストによって制限されているため、Midjourney に代表される多数のグラフィック サービスは、ビジネス モデルとして無料の付加価値を選択しています。 LCM により、モバイル クライアント、パーソナル コンピューターの CPU、ブラウザー (WebAssembly)、および CPU の計算能力が、将来の画像生成の計算能力要件を満たすために、より簡単に弾力的に拡張できるようになります。 Midjourney などの単純な有料画像処理サービスは、高品質の無料サービスに置き換えられます。

B サーバー側では、減少した生成コン​​ピューティング パワー需要が、増加したトレーニング コンピューティング パワー需要に置き換えられます。

AI画像生成サービスにおけるコンピューティング能力の需要はピークと谷の間で大きく変動し、購入したサーバーのアイドル時間は通常50%を超えます。この機能により、米国のReplicateや中国のAlibaba Cloudなど、多数の機能コンピューティングGPU(サーバーレスGPU)の開発が活発化しました。

ハードウェア仮想化の面では、RuiyunやTencent Cloudなどの国内企業も画像モデルのトレーニングに関連する仮想デスクトップ製品を発売している。コンピューティング能力がエッジ、クライアント、またはより簡単に拡張可能な CPU コンピューティング能力に分散されるにつれて、AI 画像生成はさまざまなアプリケーション シナリオで普及し、画像モデルの微調整の需要が大幅に増加します。イメージング分野では、プロフェッショナルで使いやすい垂直モデルトレーニングサービスが、次の段階でクラウドベースの GPU コンピューティングパワーの主な消費者になるでしょう。

2. ヴィンセントビデオ

現在、Vincent Video の非常に高い制作コストにより、この技術の開発と普及が制限されており、消費者向けグラフィックス カードでは低速でフレームごとにレンダリングすることしかできません。 AnimateDiff WebUI プラグインによって表される多くのプロジェクトは、LCM のサポートを優先しており、より多くの人が Vincent Video のオープン ソース プロジェクトに参加できます。閾値が低くなれば、必然的に文生ビデオの普及と発展が加速するでしょう。

3分間の高速レンダリング: AnimateDiff Vid2Vid + ​​LCM

3. リアルタイムレンダリング

速度の向上により、多数の新しいアプリケーションが生まれ、人々の想像力が絶えず広がりました。

RT-LCMとAR

RealTime LCM を先駆けとして、コンシューマーグレードの GPU で 1 秒あたり約 10 フレームのリアルタイム ビデオ生成が初めて実現され、AR 分野に大きな影響を与えることは間違いありません。

現在、視野内のシーン全体を高解像度かつ低遅延でキャプチャして再描画するには、非常に高い計算能力が必要であるため、これまでの AR アプリケーションでは、主に新しいオブジェクトを追加し、特徴を抽出してから、一部のオブジェクトを低解像度で再描画することに重点が置かれていました。 LCM を使用すると、シーン全体をリアルタイムで再描画できるため、ゲーム、インタラクティブ ムービー、ソーシャル インタラクションなどのシナリオで無限の想像力を発揮できます。

将来、新しいゲームシーンを構築する必要はありません。AR グラスを装着するだけで、プレイヤーが探索できるネオンに照らされたサイバーパンクの未来のスタイルに、現在いる街が即座に変わります。将来のインタラクティブなホラー映画を観るときに、AR グラスを装着すると、家の中にある見慣れたものすべてがシーンにシームレスに統合され、寝室のドアの後ろに恐ろしいものが隠れるようになります。仮想と現実がシームレスに融合し、現実と夢を区別することがますます困難になります。そして、LCM がこのすべての根底にあるのかもしれません。

RT-LCM ビデオレンダリング

インタラクション方法 - 想像したものが実現します

Krea.aiとilumine.aiが初めて商品化したリアルタイム画像編集UIは、創作の敷居を改めて下げ、創造性の境界を広げ、より多くの人が細かい制御に基づいて最終的な絵画に対するリアルタイムのフィードバックを得ることができるようになりました。

Krea.ai リアルタイム画像編集

リアルタイム画像編集

モデリング ソフトウェア + LCM は 3D モデリングの新しい方向性を探求し、3D モデラーが WYSIWYG に基づいてさらに一歩進んで、考えを形にする能力を獲得できるようにします。

LCMリアルタイム空間モデリングレンダリング

手は人間にとって最も役に立たないものです。なぜなら、手は脳のスピードに決して追いつけないからです。見たものがそのまま手に入るというやり方では遅すぎます。想像したものがそのまま手に入るというのが、これからのクリエイティブな仕事の主流になるでしょう。

LCM により、初めて、表示効果がインスピレーションと創造性のスピードに追いつくことが可能になりました。新しいインタラクションの方法が次々と登場し、AIGC 革命の最終目標は創造性のコストと技術的閾値をゼロに近づけることです。業界全体において、優れたアイデアは不足から過剰へと変化します。 LCM は私たちを未来へと一歩前進させます。

<<: 

>>:  LLaMA 2 エンドツーエンド推論が利用可能になりました。中国チームより

ブログ    
ブログ    

推薦する

認知知能は魔法のようなもの:2021 年の主要なブレークスルーを振り返る

著者: ユン・チャオ[51CTO.com からのオリジナル記事]人工知能ソリューションの応用が進むに...

...

機械学習の導入を容易にする 6 つのツール

「機械学習」という言葉には魔法のような雰囲気があります。機械学習は一般に一般の人々に受け入れられてい...

...

AIカーゴのロープロファイルバージョン?ネットユーザーがCNN1台を使って「ニード・フォー・スピード9」でレース

最近、Redditユーザーが、2005年にリリースされたクラシックゲーム「ニード・フォー・スピード9...

AIがハイパフォーマンスコンピューティングから学べる7つの教訓

効果的な IT 組織は、ハイパフォーマンス コンピューティング (HPC) から教訓を得て、システム...

スポーツへの人工知能とビッグデータの導入は、市場を混乱させたり、破壊したりするのでしょうか?

英国ラフバラー大学とチェルシー・フットボール・クラブの研究者らが共同で、最近のシーズンの選手のデータ...

調査によると、経営幹部はAIが職務記述書を時代遅れにしていると考えている

最近の調査によると、機械が仕事を奪っていくのを見ると、人間の従業員の士気が低下する可能性があることが...

製造および自動化アプリケーション向けの人工知能技術の選び方

人工知能 (AI) の定義は、産業オートメーションにおける生産と、研究室外の日常生活では大きく異なり...

消費財の画像認識:無人店舗を支える商品認識技術

[[208848]]人工知能は世界を席巻しており、AIの重要な分野の1つであるコンピュータービジョン...

...

ドローンの用途は急速に拡大しています。これらの 4 つの驚くべき用途をご存知ですか?

近年、ドローン産業の発展は急速です。業界の段階的な改善と成熟により、製品の種類、数量、市場規模の継続...

フロントエンドインテリジェンスは、AIがセキュリティに着地するための第2の足掛かりになりつつある

近年、セキュリティ業界のデータ量は飛躍的に増加しており、バックエンド サーバーはますます多くのデータ...

ニューラルコンピュータAIモデルのブレークスルー!トレーニング時間は1秒あたり120万フレームに達し、新記録を樹立

[[326502]]今週、IBMは、同社のニューラル・コンピュータ・システムが1秒あたり120万フレ...