あなた自身のarXivを作成しましょう！ドイツの大学のトップビジュアルチームが「カスタマイズされた論文」推奨システムを立ち上げました。これは無料で一般に公開されています。

1 枚の画像を生成するのに 10 ミリ秒かかり、1 分間に 6,000 枚の画像を生成します。これはどういう意味ですか?

下の写真では、AI の超能力を深く感じることができます。

写真

2D の女の子の画像を生成するためのプロンプトに新しい要素を追加し続けると、さまざまなスタイルの写真が一瞬にして表示されます。

写真

このような驚異的なリアルタイム画像生成速度は、カリフォルニア大学バークレー校、日本の筑波大学などの研究者によって提案されたストリーム拡散法の結果です。

新しいソリューションは、100fps を超えるリアルタイムのインタラクティブな画像生成を可能にする拡散モデリングワークフローです。

写真

論文アドレス: https://arxiv.org/abs/2312.12491

StreamDiffusion がオープンソース化された後、すぐに GitHub リストを独占し、3.7k のスターを獲得しました。

写真

StreamDiffusion は、シーケンスノイズ除去の代わりに革新的なバッチ処理戦略を採用しており、従来の方法よりも約 1.5 倍高速です。さらに、著者らが提案した新しい残差分類器フリーガイダンス (RCFG) アルゴリズムは、従来の分類器フリーガイダンスよりも 2.05 倍高速です。

最も注目すべきは、この新しい方法では、RTX 4090 で 91.07fps の画像間生成速度を達成できることです。

写真

将来的には、メタバース、ビデオゲームのグラフィックレンダリング、ライブビデオストリーミングなどのさまざまなシナリオにおいて、StreamDiffusion はこれらのアプリケーションの高スループット要件を満たすデータを迅速に生成します。

特に、リアルタイム画像生成は、ゲーム開発やビデオレンダリングに携わる人々に強力な編集および作成機能を提供できます。

写真

リアルタイム画像生成用に設計

現在、さまざまな分野での拡散モデルの応用には、効率的な人間とコンピューターの相互作用を確保するために、高スループットで低レイテンシの拡散パイプラインが必要です。

典型的な例としては、拡散モデリングを使用して、ユーザーの入力にスムーズに応答できる仮想キャラクター VTuber を作成することが挙げられます。

写真

高スループットとリアルタイムのインタラクション機能を向上させるために、現在の研究では、ノイズ除去の反復回数を 50 回から数回または 1 回に減らすことに重点を置いています。

一般的な戦略は、多段階拡散モデルをいくつかの段階に細分化し、常微分方程式 (ODE) を使用して拡散プロセスを再定式化することです。効率性を向上させるために、拡散モデルを定量化した人もいます。

最新の論文では、研究者らは直交方向から始めて、インタラクティブな画像生成の高スループットのために設計されたリアルタイム拡散パイプラインである StreamDiffusion を紹介しました。

既存のモデル設計作業は、StreamDiffusion と統合できます。さらに、高いスループットを維持しながら N ステップのノイズ除去拡散モデルを使用することもできるため、ユーザーにはより柔軟な選択肢が提供されます。

写真

リアルタイム画像生成 | コラム 1 および 2: AI 支援によるリアルタイム描画の例、コラム 3: 3D アバターからの 2D イラストのリアルタイムレンダリング。 4列目と5列目: ライブカメラフィルター

具体的にはどのように実現されるのでしょうか?

StreamDiffusionアーキテクチャ

StreamDiffusion は、スループットを向上させるために設計された新しい拡散パイプラインです。

いくつかの主要な部分から構成されます:

ストリームバッチ処理戦略、残差分類器フリーガイダンス (RCFG)、入出力キュー、確率的類似性フィルター、事前計算手順、マイクロオートエンコーダーなどのモデル高速化ツール。

バッチノイズ除去

拡散モデルでは、ノイズ除去ステップが順番に実行されるため、U-Net の処理時間はステップ数に比例して増加します。

ただし、忠実度の高い画像を生成するには、ステップ数を増やす必要があります。

インタラクティブな拡散における高遅延生成の問題を解決するために、研究者は Stream Batch と呼ばれる方法を提案しました。

下の図に示すように、最新の方法では、1 つの画像が完全にノイズ除去されるまで待ってから次の入力画像を処理するのではなく、各ノイズ除去ステップの後に次の入力画像が受け入れられます。

これにより、各画像のノイズ除去手順がインターリーブされたノイズ除去バッチが形成されます。

研究者は、これらのインターリーブされたノイズ除去手順を 1 つのバッチにまとめることで、U-Net を使用して連続した入力のバッチを効率的に処理することができました。

時間ステップ t でエンコードされた入力画像は、時間ステップ t+n で生成およびデコードされます。ここで、n はノイズ除去ステップの数です。

写真

残差分類器フリーブートストラッピング (RCFG)

共通分類器フリーガイド (CFG) は、無条件または否定された条件項と元の条件項の間でベクトル計算を実行するガイドです。元の条件の効果を高めるアルゴリズム。

写真

これには、キューの効果を強化するなどの利点があります。

ただし、負の条件付き残差ノイズを計算するには、各入力潜在変数を負の条件付き埋め込みとペアにして、各推論時に U-Net に渡す必要があります。

この問題に対処するために、著者らは革新的な Residual Classifier-Free Guidance (RCFG) を導入しました。

この方法では、仮想残差ノイズを使用して負の条件を近似するため、負の条件ノイズはプロセスの初期段階でのみ計算でき、負の条件を埋め込む際の追加の U-Net 推論の計算コストが大幅に削減されます。

入力キューと出力キュー

入力画像をパイプラインで管理可能なテンソルデータ形式に変換すること、また逆に、デコードされたテンソルを出力画像に戻すことは、どちらも無視できないほどの追加処理時間を必要とします。

この画像処理時間をニューラルネットワーク推論パイプラインに追加しないようにするために、画像の前処理と後処理を異なるスレッドに分離して並列処理を実現します。

さらに、入力テンソルキューを使用することで、デバイス障害や通信エラーなどによる入力画像の一時的な中断にも対応でき、スムーズなストリーミングを実現します。

写真

確率的類似性フィルタ

次の図は、VAE と U-Net を含むコア拡散推論パイプラインを示しています。

ノイズ除去バッチと事前計算されたヒント埋め込みキャッシュ、サンプリングされたノイズキャッシュ、およびスケジューラ値キャッシュを導入することで、推論パイプラインの速度が向上し、リアルタイムの画像生成が可能になります。

確率的類似性フィルタリング (SSF) は、GPU の電力消費を節約するように設計されており、拡散モデルパイプラインを動的にシャットダウンできるため、高速で効率的なリアルタイム推論を実現できます。

写真

事前計算

U-Net アーキテクチャでは、入力としての潜在変数と条件付き埋め込みの両方が必要です。

通常、条件付き埋め込みは「キュー埋め込み」から派生し、フレーム間で一定のままになります。

これを最適化するため、研究者はヒント埋め込みを事前に計算し、キャッシュに保存します。インタラクティブモードまたはストリーミングモードでは、この事前計算されたヒント埋め込みキャッシュが呼び出されます。

U-Net では、事前に計算されたキュー埋め込みに基づいて各フレームのキーと値が計算されます。

そのため、研究者らは、これらのキーと値のペアを再利用できるように保存するように U-Net を変更しました。入力プロンプトが更新されるたびに、研究者は U-Net 内でこれらのキーと値のペアを再計算して更新します。

モデルの加速と小さなオートエンコーダ

速度を最適化するために、静的なバッチサイズと固定入力サイズ (高さと幅) を使用するようにシステムを構成します。

このアプローチにより、計算グラフとメモリ割り当てが特定の入力サイズに合わせて最適化され、処理が高速化されます。

ただし、異なる形状 (つまり、高さや幅が異なる) の画像を処理する必要がある場合は、異なるバッチサイズ (ノイズ除去手順のバッチサイズを含む) を使用する必要があることを意味します。

実験的評価

ノイズ除去バッチの定量評価

図 8 は、バッチノイズ除去と元の順次 U-Net サイクルの効率の比較を示しています。

バッチノイズ除去戦略を実装すると、研究者は処理時間が大幅に改善されることを発見しました。従来の U-Net サイクルの連続的なノイズ除去ステップと比較すると、時間が半分に短縮されます。

ニューラルモジュールアクセラレーションツール TensorRT を適用しても、研究者が提案したストリーミングバッチ処理により、さまざまなノイズ除去ステップで元の順次拡散パイプラインの効率を大幅に向上できます。

写真

さらに、研究者らは最新の手法を、Huggingface Diffusers が開発した AutoPipeline-ForImage2Image パイプラインと比較しました。

平均推論時間の比較は表 1 に示されており、最新のパイプラインでは大幅な高速化が見られます。

TensorRT を使用すると、StreamDiffusion は 10 のノイズ除去ステップを実行するときに 13 倍の高速化を実現します。単一のノイズ除去ステップが含まれる場合、速度は最大 59.6 倍向上します。

TensorRT がなくても、StreamDiffusion は、シングルステップのノイズ除去を使用する場合は AutoPipeline の 29.7 倍の改善を達成し、10 ステップのノイズ除去を使用する場合は 8.3 倍の改善を達成します。

写真

表2は、RCFGと従来のCFGを使用したフロー拡散パイプラインの推論時間を比較したものです。

シングルステップのノイズ除去の場合、Onetime-Negative RCFG と従来の CFG の推論時間はほぼ同じです。

したがって、ワンタイム RCFG と従来の CFG の推論時間は、シングルステップのノイズ除去では同様です。ただし、ノイズ除去のステップ数が増えるにつれて、従来の CFG から RCFG への推論速度の向上がより顕著になります。

ノイズ除去の 5 番目のステップでは、Self-Negative RCFG は従来の CFG よりも 2.05 倍高速で、Onetime-Negative RCFG は従来の CFG よりも 1.79 倍高速です。

写真

次に、研究者らは、図 6 と 7 に示すように、提案された SSF のエネルギー消費量の包括的な評価を実施しました。

これらの図は、周期的な静的特徴を持つシーンを含む入力ビデオに SSF (しきい値 η を 0.98 に設定) を適用した場合の GPU 使用パターンを示しています。

比較分析により、入力画像が主に類似性の高い静止画像である場合、SSF を使用すると GPU 使用量を大幅に削減できることが示されています。

写真

アブレーション研究

さまざまなノイズ除去ステップにおけるさまざまなモジュールの平均推論時間への影響を表 3 に示します。画像から画像への生成プロセスにおいて、さまざまなモジュールの削減が検証されていることがわかります。

写真

定性的な結果

図10は、残差分類器フリーガイダンス（RCFG）を使用して生成された画像の高速条件調整の位置合わせプロセスを示しています。

いかなる形式の CFG も使用せずに生成された画像では、特に色の変更や存在しない要素の追加などの面で、効果的に実装されていない弱い位置合わせの手がかりが示されます。

対照的に、CFG または RCFG を使用すると、髪の色を変更したり、体のパターンを追加したり、メガネなどのオブジェクトを含めたりなど、元の画像を変更する機能が強化されます。注目すべきは、RCFG を使用すると、標準の CFG と比較してキューの影響を強化できることです。

写真

最後に、標準的なテキストから画像への生成結果の品質を図 11 に示します。

sd-turbo モデルを使用すると、図 11 に示すような高品質の画像を 1 つのステップで生成できます。

GPU: RTX 4090、CPU: Core i9-13900K、OS: Ubuntu 22.04.3 LTS の環境で、研究者らが提案するフロー拡散パイプラインと sd-turbo モデルを使用して画像を生成すると、100fps を超える速度でこのような高品質の画像を生成することが可能です。

写真

ネットユーザーがきっかけで、二次元の女の子が大量に登場した

最新プロジェクトのコードはオープンソース化されており、Github で 3.7k 個のスターを獲得しています。

写真

プロジェクトアドレス: https://github.com/cumulo-autumn/StreamDiffusion

多くのネットユーザーがすでに自分だけの二次元嫁を作り始めている。

写真

リアルタイムアニメーションもあります。

写真

手描き生成が 10 倍高速化。

写真

興味があれば、ぜひ自分でやってみてはいかがでしょうか？

参考文献:

https://huggingface.co/papers/2312.12491

https://twitter.com/cumulo_autumn/status/1732309219041571163

<<: 調査によると、ChatGPTが提供するアドバイスは専門家が提供するアドバイスよりも包括的で役立つことがわかっています。

>>: 潜入捜査官のふりをして、AI を騙してコードを漏らさせて人類を救うつもりですか? スタンフォード大学の学生がGPT-4を使ってゲームを開発し、ネットユーザーを驚かせた

平均して、1 秒で 1 つの高得点大学入試エッセイが生成されます。PaddlePaddle Wenxin モデルはどのようにしてこれを実現するのでしょうか?

あなた自身のarXivを作成しましょう！ドイツの大学のトップビジュアルチームが「カスタマイズされた論文」推奨システムを立ち上げました。これは無料で一般に公開されています。

リアルタイム画像生成用に設計

StreamDiffusionアーキテクチャ

バッチノイズ除去

残差分類器フリーブートストラッピング (RCFG)

確率的類似性フィルタ

事前計算

モデルの加速と小さなオートエンコーダ

実験的評価

ノイズ除去バッチの定量評価

アブレーション研究

定性的な結果

ネットユーザーがきっかけで、二次元の女の子が大量に登場した

平均して、1 秒で 1 つの高得点大学入試エッセイが生成されます。PaddlePaddle Wenxin モデルはどのようにしてこれを実現するのでしょうか?

2020年にAIアルゴリズム市場は普及するでしょうか？

Google AIロボットトレーナーが秘密を暴露：低賃金と厳しい納期に不満を述べた後に解雇

一枚の写真で3D顔モデリングを実現！中国科学院の博士課程学生による ECCV に関する新たな研究 | オープンソース

ブースティング原理に基づく深層残差ニューラルネットワークのトレーニング

ロボットの認識システムはどのように機能するのでしょうか?

スタートアップにハイエンド AI を実装するにはどうすればよいでしょうか?

研究：インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

推薦する

無効にします！小売業における顔認識が修正されます!一枚の写真で顔認識を可能に

初心者のためのホームオートメーション完全ガイド

強力なJavaScriptによりスノーフレークアルゴリズムが実現

意思決定権を機械に委任することは可能でしょうか?

適切な機械学習アルゴリズムを簡単に選択

独自のロジックと優れた AI テクノロジーを備えた Kuaishou は、1 日あたり 1 億 6,000 万人のアクティブユーザーと 1 日あたり 1,500 万件を超えるアップロードを誇ります。

人間の髪の毛のわずか200分の1の太さ！科学者たちは脳のように電気を生成できる「ナノワイヤーネットワーク」を構築した

XGBoost機械学習モデルの意思決定プロセス

復旦大学の邱希鵬さんへの10の質問：大手モデルはAndroidの時代に入り、国産モデルがLIamaに取って代わることを望みます

人工知能の応用分野と必要な専門知識

早く見て！無料の機械学習コーストップ10

5Gで「選ばれる」分野！自動運転バスがあなたのところにやって来ます