一枚4090枚、1秒間に二次元の女の子の写真100枚!カリフォルニア大学バークレー校などの新モデルがGithubを席巻、スループットが60倍近く増加

一枚4090枚、1秒間に二次元の女の子の写真100枚!カリフォルニア大学バークレー校などの新モデルがGithubを席巻、スループットが60倍近く増加

1 枚の画像を生成するのに 10 ミリ秒かかり、1 分間に 6,000 枚の画像を生成します。これはどういう意味ですか?

下の写真では、AI の超能力を深く感じることができます。

2D の女の子の画像を生成するためのプロンプトに新しい要素を追加し続けると、さまざまなスタイルの写真が一瞬にして表示されます。

このような驚異的なリアルタイム画像生成速度は、カリフォルニア大学バークレー校、日本の筑波大学などの研究者によって提案されたストリーム拡散法の結果です。

新しいソリューションは、100fps を超えるリアルタイムのインタラクティブな画像生成を可能にする拡散モデリング ワークフローです。

論文アドレス: https://arxiv.org/abs/2312.12491

StreamDiffusion がオープンソース化された後、すぐに GitHub リストを独占し、3.7k のスターを獲得しました。

StreamDiffusion は、シーケンスノイズ除去の代わりに革新的なバッチ処理戦略を採用しており、従来の方法よりも約 1.5 倍高速です。さらに、著者らが提案した新しい残差分類器フリーガイダンス (RCFG) アルゴリズムは、従来の分類器フリーガイダンスよりも 2.05 倍高速です。

最も注目すべきは、この新しい方法では、RTX 4090 で 91.07fps の画像間生成速度を達成できることです。

将来的には、メタバース、ビデオゲームのグラフィックレンダリング、ライブビデオストリーミングなどのさまざまなシナリオにおいて、StreamDiffusion はこれらのアプリケーションの高スループット要件を満たすデータを迅速に生成します。

特に、リアルタイム画像生成は、ゲーム開発やビデオレンダリングに携わる人々に強力な編集および作成機能を提供できます。

リアルタイム画像生成用に設計

現在、さまざまな分野での拡散モデルの応用には、効率的な人間とコンピューターの相互作用を確保するために、高スループットで低レイテンシの拡散パイプラインが必要です。

典型的な例としては、拡散モデリングを使用して、ユーザーの入力にスムーズに応答できる仮想キャラクター VTuber を作成することが挙げられます。

高スループットとリアルタイムのインタラクション機能を向上させるために、現在の研究では、ノイズ除去の反復回数を 50 回から数回または 1 回に減らすことに重点を置いています。

一般的な戦略は、多段階拡散モデルをいくつかの段階に細分化し、常微分方程式 (ODE) を使用して拡散プロセスを再定式化することです。効率性を向上させるために、拡散モデルを定量化した人もいます。

最新の論文では、研究者らは直交方向から始めて、インタラクティブな画像生成の高スループットのために設計されたリアルタイム拡散パイプラインである StreamDiffusion を紹介しました。

既存のモデル設計作業は、StreamDiffusion と統合できます。さらに、高いスループットを維持しながら N ステップのノイズ除去拡散モデルを使用することもできるため、ユーザーにはより柔軟な選択肢が提供されます。

リアルタイム画像生成 | コラム 1 および 2: AI 支援によるリアルタイム描画の例、コラム 3: 3D アバターからの 2D イラストのリアルタイム レンダリング。 4列目と5列目: ライブカメラフィルター

具体的にはどのように実現されるのでしょうか?

StreamDiffusionアーキテクチャ

StreamDiffusion は、スループットを向上させるために設計された新しい拡散パイプラインです。

いくつかの主要な部分から構成されます:

ストリーム バッチ処理戦略、残差分類器フリー ガイダンス (RCFG)、入出力キュー、確率的類似性フィルター、事前計算手順、マイクロ オートエンコーダーなどのモデル高速化ツール。

バッチノイズ除去

拡散モデルでは、ノイズ除去ステップが順番に実行されるため、U-Net の処理時間はステップ数に比例して増加します。

ただし、忠実度の高い画像を生成するには、ステップ数を増やす必要があります。

インタラクティブな拡散における高遅延生成の問題を解決するために、研究者は Stream Batch と呼ばれる方法を提案しました。

下の図に示すように、最新の方法では、1 つの画像が完全にノイズ除去されるまで待ってから次の入力画像を処理するのではなく、各ノイズ除去ステップの後に次の入力画像が受け入れられます。

これにより、各画像のノイズ除去手順がインターリーブされたノイズ除去バッチが形成されます。

研究者は、これらのインターリーブされたノイズ除去手順を 1 つのバッチにまとめることで、U-Net を使用して連続した入力のバッチを効率的に処理することができました。

時間ステップ t でエンコードされた入力画像は、時間ステップ t+n で生成およびデコードされます。ここで、n はノイズ除去ステップの数です。

残差分類器フリーブートストラッピング (RCFG)

共通分類器フリー ガイド (CFG) は、無条件または否定された条件項と元の条件項の間でベクトル計算を実行するガイドです。元の条件の効果を高めるアルゴリズム。

これには、キューの効果を強化するなどの利点があります。

ただし、負の条件付き残差ノイズを計算するには、各入力潜在変数を負の条件付き埋め込みとペアにして、各推論時に U-Net に渡す必要があります。

この問題に対処するために、著者らは革新的な Residual Classifier-Free Guidance (RCFG) を導入しました。

この方法では、仮想残差ノイズを使用して負の条件を近似するため、負の条件ノイズはプロセスの初期段階でのみ計算でき、負の条件を埋め込む際の追加の U-Net 推論の計算コストが大幅に削減されます。

入力キューと出力キュー

入力画像をパイプラインで管理可能なテンソル データ形式に変換すること、また逆に、デコードされたテンソルを出力画像に戻すことは、どちらも無視できないほどの追加処理時間を必要とします。

この画像処理時間をニューラル ネットワーク推論パイプラインに追加しないようにするために、画像の前処理と後処理を異なるスレッドに分離して並列処理を実現します。

さらに、入力テンソルキューを使用することで、デバイス障害や通信エラーなどによる入力画像の一時的な中断にも対応でき、スムーズなストリーミングを実現します。

確率的類似性フィルタ

次の図は、VAE と U-Net を含むコア拡散推論パイプラインを示しています。

ノイズ除去バッチと事前計算されたヒント埋め込みキャッシュ、サンプリングされたノイズ キャッシュ、およびスケジューラ値キャッシュを導入することで、推論パイプラインの速度が向上し、リアルタイムの画像生成が可能になります。

確率的類似性フィルタリング (SSF) は、GPU の電力消費を節約するように設計されており、拡散モデル パイプラインを動的にシャットダウンできるため、高速で効率的なリアルタイム推論を実現できます。

事前計算

U-Net アーキテクチャでは、入力としての潜在変数と条件付き埋め込みの両方が必要です。

通常、条件付き埋め込みは「キュー埋め込み」から派生し、フレーム間で一定のままになります。

これを最適化するため、研究者はヒント埋め込みを事前に計算し、キャッシュに保存します。インタラクティブ モードまたはストリーミング モードでは、この事前計算されたヒント埋め込みキャッシュが呼び出されます。

U-Net では、事前に計算されたキュー埋め込みに基づいて各フレームのキーと値が計算されます。

そのため、研究者らは、これらのキーと値のペアを再利用できるように保存するように U-Net を変更しました。入力プロンプトが更新されるたびに、研究者は U-Net 内でこれらのキーと値のペアを再計算して更新します。

モデルの加速と小さなオートエンコーダ

速度を最適化するために、静的なバッチ サイズと固定入力サイズ (高さと幅) を使用するようにシステムを構成します。

このアプローチにより、計算グラフとメモリ割り当てが特定の入力サイズに合わせて最適化され、処理が高速化されます。

ただし、異なる形状 (つまり、高さや幅が異なる) の画像を処理する必要がある場合は、異なるバッチ サイズ (ノイズ除去手順のバッチ サイズを含む) を使用する必要があることを意味します。

実験的評価

ノイズ除去バッチの定量評価

図 8 は、バッチノイズ除去と元の順次 U-Net サイクルの効率の比較を示しています。

バッチノイズ除去戦略を実装すると、研究者は処理時間が大幅に改善されることを発見しました。従来の U-Net サイクルの連続的なノイズ除去ステップと比較すると、時間が半分に短縮されます。

ニューラル モジュール アクセラレーション ツール TensorRT を適用しても、研究者が提案したストリーミング バッチ処理により、さまざまなノイズ除去ステップで元の順次拡散パイプラインの効率を大幅に向上できます。

さらに、研究者らは最新の手法を、Huggingface Diffusers が開発した AutoPipeline-ForImage2Image パイプラインと比較しました。

平均推論時間の比較は表 1 に示されており、最新のパイプラインでは大幅な高速化が見られます。

TensorRT を使用すると、StreamDiffusion は 10 のノイズ除去ステップを実行するときに 13 倍の高速化を実現します。単一のノイズ除去ステップが含まれる場合、速度は最大 59.6 倍向上します。

TensorRT がなくても、StreamDiffusion は、シングルステップのノイズ除去を使用する場合は AutoPipeline の 29.7 倍の改善を達成し、10 ステップのノイズ除去を使用する場合は 8.3 倍の改善を達成します。

表2は、RCFGと従来のCFGを使用したフロー拡散パイプラインの推論時間を比較したものです。

シングルステップのノイズ除去の場合、Onetime-Negative RCFG と従来の CFG の推論時間はほぼ同じです。

したがって、ワンタイム RCFG と従来の CFG の推論時間は、シングルステップのノイズ除去では同様です。ただし、ノイズ除去のステップ数が増えるにつれて、従来の CFG から RCFG への推論速度の向上がより顕著になります。

ノイズ除去の 5 番目のステップでは、Self-Negative RCFG は従来の CFG よりも 2.05 倍高速で、Onetime-Negative RCFG は従来の CFG よりも 1.79 倍高速です。

次に、研究者らは、図 6 と 7 に示すように、提案された SSF のエネルギー消費量の包括的な評価を実施しました。

これらの図は、周期的な静的特徴を持つシーンを含む入力ビデオに SSF (しきい値 η を 0.98 に設定) を適用した場合の GPU 使用パターンを示しています。

比較分析により、入力画像が主に類似性の高い静止画像である場合、SSF を使用すると GPU 使用量を大幅に削減できることが示されています。

アブレーション研究

さまざまなノイズ除去ステップにおけるさまざまなモジュールの平均推論時間への影響を表 3 に示します。画像から画像への生成プロセスにおいて、さまざまなモジュールの削減が検証されていることがわかります。

定性的な結果

図10は、残差分類器フリーガイダンス(RCFG)を使用して生成された画像の高速条件調整の位置合わせプロセスを示しています。

いかなる形式の CFG も使用せずに生成された画像では、特に色の変更や存在しない要素の追加などの面で、効果的に実装されていない弱い位置合わせの手がかりが示されます。

対照的に、CFG または RCFG を使用すると、髪の色を変更したり、体のパターンを追加したり、メガネなどのオブジェクトを含めたりなど、元の画像を変更する機能が強化されます。注目すべきは、RCFG を使用すると、標準の CFG と比較してキューの影響を強化できることです。

最後に、標準的なテキストから画像への生成結果の品質を図 11 に示します。

sd-turbo モデルを使用すると、図 11 に示すような高品質の画像を 1 つのステップで生成できます。

GPU: RTX 4090、CPU: Core i9-13900K、OS: Ubuntu 22.04.3 LTS の環境で、研究者らが提案するフロー拡散パイプラインと sd-turbo モデルを使用して画像を生成すると、100fps を超える速度でこのような高品質の画像を生成することが可能です。

ネットユーザーがきっかけで、二次元の女の子が大量に登場した

最新プロジェクトのコードはオープンソース化されており、Github で 3.7k 個のスターを獲得しています。

プロジェクトアドレス: https://github.com/cumulo-autumn/StreamDiffusion

多くのネットユーザーがすでに自分だけの二次元嫁を作り始めている。

リアルタイムアニメーションもあります。

興味があれば、ぜひ自分でやってみてはいかがでしょうか?

<<: 

>>:  調査によると、ChatGPTが提供するアドバイスは専門家が提供するアドバイスよりも包括的で役立つことがわかっています。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

自動運転のテストが加速:北京と上海が重要なニュースを発表

2018 年後半には、自動運転とインテリジェント コネクテッド ビークルの市場が活況を呈しました。昨...

Nature: AI はなぜいつも差別的なのか?

[[241142]]ビッグデータダイジェスト制作編集者: Hu Jia、Wang Yiding、X...

100日間人工知能について学んだ後、私は次の5つの結論に達しました

この記事の著者は Jamie Beach です。彼は 100 日間人工知能を独学した後、人工知能に関...

...

...

大量のニューロンを必要とせず、ニューロモルフィックロボットはスピードと正確さでテーブルサッカーをプレイします

人間は機械にゲームをさせることに魅了されているようだ。1770 年という早い時期に、発明家たちは「ト...

概要: インターネット時代です!人工知能に関する4つの大きな誤解

インターネットは現在、非常に急速に発展しており、特に過去2年間で、人工知能はインターネットのトレンド...

2020年にAIに適した5つのプログラミング言語

AI システムの開発にはコンピュータ コードが必要であり、コンピュータ プログラムを開発する際にはさ...

ボストン・ダイナミクスのロボット犬が再び進化:自分でルートを計画することを学習

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

テスラAIディレクター:33年前にルカンのニューラルネットワークを再現したが、今とあまり変わらない

最近、Tesla AI のシニアディレクターである Andrej Karpathy 氏が、非常に興味...

人工知能、ディープラーニング、マシンビジョン、理解すべき概念

人工知能の概念は長年提唱されてきたが、最近の流行は「人間対機械」の競争で囲碁の世界的名人、イ・セドル...

...

...

RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1%のコストパフォーマンス、世界最多の100以上の言語をサポート

ビッグモデルが退化する中、トランスフォーマーの地位も次々と脅かされてきました。最近、RWKV は最新...