AI画像生成は秒単位のスピードに達しました。描画を完了するには4ステップの推論しかかからず、最速では1秒以内に完了します。 現在、清華大学とHuggingFaceの研究者らは、新しい描画モデル加速モジュールを立ち上げました。 作者が提供している試用版では、生成ボタンをクリックした後、わずか数秒でモデルが 4 つの鮮明な画像を描画しました。 このアクセラレーション モジュールは LCM-LoRA と呼ばれ、リリース後すぐに 2,000 を超える GitHub スターを獲得しました。 強力な加速機能と優れた一般化性能を備えているだけでなく、互換性のあるモデルの範囲も広く、SD モデルと LoRA モデルの両方を加速できます。 チームが独自に最適化した LCM-LoRA に基づくテキストベースのグラフ モデルは HuggingFace で体験できるようになり、画像ベースのグラフ モデルも CoLab やその他のバージョンでリリースされました。 AI描画ツールに素早くアクセスLCM-LoRAがオープンソース化された直後、AI描画ツールメーカーのScenarioは、これをベースにした「リアルタイム描画」機能をリリースすると発表した。 𝕏で近日公開予定のリアルタイム描画機能DEMOも、シナリオのCEO自らが実演しました。 一方がスケッチを描いている間に、もう一方はAIが対応する絵を描いており、時間はほぼ同期していました。 プロンプト単語と関連パラメータを調整することで、モデルは迅速かつ効率的に応答します。 これらのデモが公開されると、世間から満場一致の賞賛が集まりました。 では、LCM-LoRA アクセラレーション モジュールはどれほど強力で、どのように実現されているのでしょうか? メモリオーバーヘッドを削減する「スキップステップ」LCM-LoRA は、潜在的一貫性モデル (LCM) の蒸留プロセスに LoRA を導入し、トレーニング メモリのオーバーヘッドを大幅に削減してパフォーマンスを向上させます。 LCM は潜在拡散モデル (LDM) から抽出され、「蒸留」プロセスは拡散モデルの微調整とも考えられます。 その中心的なアイデアは、画像の潜在変数空間における一貫したマッピング関数を学習することです。これにより、拡散プロセス内の任意の点を終点、つまり微分方程式の解に直接マッピングできます。 この一貫したマッピングにより、LCM は反復的なサンプリング プロセスをスキップし、数ステップまたは 1 ステップのサンプリングを直接実行できるため、画像生成が大幅に高速化されます。 ピクセル空間ベースの方法と比較すると、潜在変数空間演算では計算の複雑さとメモリ要件が低くなります。 LoRA と組み合わせると、低ランク分解行列のみをトレーニングすればよく、トレーニング可能なパラメータの量とメモリのオーバーヘッドがさらに削減され、適用範囲も単純なテキスト生成画像から画像生成画像やビデオ生成へと拡大されます。 最も直感的な表現は、数秒で画像が出力されることです。トレーニング時間に関して言えば、LCM-LoRA 最適化モデルは A100 でトレーニングするのに 32 GPU 時間しかかかりません。 トレーニング時間の短縮は、トレーニング パラメータの数が大幅に削減されたことにも密接に関係しています。
トレーニングコストが削減されるだけでなく、推論プロセスのステップ数も大幅に削減されます。通常、高品質の画像を描くために必要な推論ステップは 4 つだけです。 場合によっては、FID スコアが 50 未満 (低いほど良い) で、1 秒未満で 1 ステップだけで完了できることもあります。 LCM-LoRAは優れた加速性能を備えているだけでなく、幅広い適応性も備えています。 LCM-LoRA トレーニングによって取得された LoRA パラメータは、加速度ベクトルとも呼ばれます。追加のトレーニングを必要とせずに、データセットの微調整によって取得された LoRA パラメータと直接線形結合できます。 この組み合わせにより、LCM-LoRA は、さまざまな微調整されたモデルに直接プラグインできる汎用画像生成アクセラレーション モジュールになります。 著者についてLCM および LCM-LoRA 論文の主著者は、清華大学学際情報科学研究所の大学院生 Simian Luo 氏と Yiqin Tan 氏です。 清華大学クロススクールの黄龍波准教授、李建准教授、趙星助教授もこの2つの研究に参加した。 HuggingFace の研究者も LCM-LoRA の研究に貢献しました。 論文の宛先: |
>>: GPT-4V の新しいゲームプレイは GitHub のホット リストのトップにランクインし、簡単な描画だけで Web ページを生成できるようになりました。ウェブ開発者:脅威を感じる
顔検出などの物体検出用のディープラーニング ネットワークにとって、誤検出は非常に厄介なものです。犬を...
この記事では、機械学習に最適なソフトウェアについて説明します。これらのソフトウェアは、ML コードを...
2019 年、OpenAI は、特定の「安全制約」に準拠した AI モデルを開発するためのツール ...
イーロン・マスク氏は、人工知能が人類にもたらす避けられない課題に対処するためには、人間が機械と「つな...
生体認証技術といえば、アメリカの Clearview AI 社を挙げなければなりません。同社は最も包...
ラスベガスで開催された2022年コンシューマーエレクトロニクスショー(CES)で、ジョンディアは、ジ...
調査データによると、過去18か月間、企業はさまざまな緊急事態に対応するために技術革新のペースを加速さ...
イベントレビュー大学入試中国語テストが終了してすぐに、大学入試作エッセイのテーマが話題になりました。...
IT 組織は、サポートの改善、インフラストラクチャの最適化、システム障害の予測のために AI ベース...
自動化された意思決定ツールは組織内でますます一般的になりつつあります。しかし、顔認識システムからオン...
自然言語処理は人工知能の分野で常に重要なトピックであり、2018年も話題となりました。大量のテキスト...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...