Stable Diffusion 3 の技術レポートがリークされ、Sora アーキテクチャがまた大きな貢献を果たしました。 RAWフォトサークルのオープンソースはMidjourneyやDALL·E 3に勝る?

Stable Diffusion 3 の技術レポートがリークされ、Sora アーキテクチャがまた大きな貢献を果たしました。 RAWフォトサークルのオープンソースはMidjourneyやDALL·E 3に勝る?

Stability AI は、Stable Diffusion 3 のリリースに続いて、本日詳細な技術レポートを発表しました。

この論文では、Stable Diffusion 3 のコア技術である改良された Diffusion モデルと新しい DiT ベースの Wenshengtu アーキテクチャを詳細に分析します。

報告先住所:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

人間による評価テストでは、フォント デザインとプロンプトへの正確な応答の点で、Stable Diffusion 3 が DALL·E 3、Midjourney v6、Ideogram v1 を上回りました。

Stability AI が新たに開発した Multimodal Diffused Transformer (MMDiT) アーキテクチャは、画像と言語の表現に独立した重みセットを使用するため、SD 3 の以前のバージョンと比較して、テキスト理解とスペル機能が大幅に向上します。

パフォーマンス評価

技術レポートでは、人間のフィードバックに基づいて、多数のオープンソース モデル SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-α、およびクローズド ソース モデル DALL·E 3、Midjourney v6、Ideogram v1 と SD 3 の詳細な比較評価を実施しています。

評価者は、与えられたプロンプトとの一貫性、テキストの明瞭さ、画像の全体的な美しさに基づいて、各モデルから最適な出力を選択しました。

テスト結果によると、Stable Diffusion 3 は、プロンプトに従う正確さ、テキストの明確な表示、画像の視覚的な美しさのいずれの点でも、画像生成技術の現在の最先端技術に達しているか、それを上回っています。

完全に最適化されていない SD 3 モデルには 8B のパラメーターがあり、24GB のビデオ メモリを搭載した RTX 4090 コンシューマー GPU で実行され、50 のサンプリング ステップを使用して 1024x1024 解像度の画像を生成するのに 34 秒かかります。

さらに、Stable Diffusion 3 は、発売時に 8 億から 80 億までのパラメータを持つ複数のバージョンで利用可能になり、使用するためのハードウェアのしきい値がさらに下がります。

建築の詳細が明らかに

テキストから画像を生成するプロセスでは、モデルはテキストと画像という 2 つの異なる種類の情報を同時に処理する必要があります。そこで著者らはこの新しいフレームワークを MMDiT と呼んでいます。

テキストから画像を生成するプロセスでは、モデルはテキストと画像という 2 種類の異なる情報を処理する必要があります。そのため、著者らはこの新しい技術を MMDiT (Multimodal Diffusion Transformer の略) と呼んでいます。

Stable Diffusion の以前のバージョンと同様に、SD 3 は事前トレーニング済みのモデルを使用して、テキストや画像に適した表現を抽出します。

具体的には、テキスト情報の処理には 3 つの異なるテキスト エンコーダー (2 つの CLIP モデルと 1 つの T5) を使用し、画像情報の処理にはより高度なオートエンコーダー モデルを使用しました。

SD 3 のアーキテクチャは、Diffusion Transformer (DiT) に基づいて構築されています。テキスト情報と画像情報の違いにより、SD 3 では 2 種類の情報それぞれに独立した重みを設定します。

この設計は、各情報タイプに 2 つの独立した Transformer を装備することと同等ですが、アテンション メカニズムを実行すると、2 つの情報タイプのデータ シーケンスがマージされ、相互参照と統合を維持しながら、それぞれのフィールドで独立して動作できるようになります。

この独自のアーキテクチャにより、画像とテキストの情報が相互に流れ、相互作用できるようになり、生成された結果のコンテンツの全体的な理解と視覚的表現が向上します。

さらに、このアーキテクチャは、将来、ビデオを含む他のモダリティに簡単に拡張できます。

SD 3 のプロンプトへの追従性が向上したおかげで、モデルはさまざまなテーマや機能に焦点を当てた画像を正確に生成できると同時に、画像スタイルにおける極めて高い柔軟性も維持できるようになりました。

再加重による整流フローの改善

新しい Diffusion Transformer アーキテクチャに加えて、SD 3 では Diffusion モデルにも大幅な改善が加えられました。

SD 3 は、直線軌道に沿ってトレーニング データとノイズを接続する Rectified Flow (RF) 戦略を採用しています。

このアプローチにより、モデルの推論パスがより直接的になるため、サンプル生成をより少ないステップで完了できます。

著者らは、トレーニング プロセスに革新的な軌道サンプリング スキームを導入し、特に予測タスクがより困難になる軌道の中間部分の重みを増やしています。

他の 60 種類の拡散軌跡 (LDM、EDM、ADM など) と比較した結果、以前の RF 方式はサンプリング ステップが少ない場合はパフォーマンスが優れているものの、サンプリング ステップの数が増えるとパフォーマンスが徐々に低下することが分かりました。

この状況を回避するために、著者が提案した重み付け RF 法は、モデルのパフォーマンスを継続的に向上させることができます。

RFトランスモデルの拡張

Stability AI は、15 個のモジュール、4 億 5000 万個のパラメータから 38 個のモジュール、80 億個のパラメータまで、さまざまなサイズの複数のモデルをトレーニングし、モデル サイズとトレーニング ステップの両方で検証損失をスムーズに削減できることを発見しました。

これがモデル出力の大幅な改善を意味するかどうかを検証するために、研究者らは自動画像配置メトリックと人間の嗜好評価も評価しました。

結果は、これらの評価メトリックが検証損失と強く相関していることを示しており、検証損失がモデルの全体的なパフォーマンスの有効な指標であることを示しています。

さらに、このスケーリングの傾向はまだ飽和点に達していないため、将来的にモデルのパフォーマンスをさらに向上させることができると楽観視しています。

著者らは、さまざまなパラメータ数を使用して、256×256ピクセルの解像度と4096のバッチサイズで50万ステップにわたってモデルをトレーニングしました。

上の図は、より大きなモデルをより長い時間トレーニングした場合のサンプル品質への影響を示しています。

上記の表は GenEval の結果を示しています。著者らが提案したトレーニング方法を使用し、トレーニング画像の解像度を上げると、最大のモデルはほとんどのカテゴリで優れたパフォーマンスを発揮し、総合スコアで DALL·E 3 を上回りました。

著者によるさまざまなアーキテクチャ モデルのテスト比較によると、MMDiT のパフォーマンスは DiT、Cross DiT、UViT、MM-DiT を上回り、非常に優れています。

柔軟なテキストエンコーダ

推論中にメモリを大量に消費する 4.7B パラメータの T5 テキスト エンコーダーを削除することで、パフォーマンスの低下を最小限に抑えながら SD 3 のメモリ要件が大幅に削減されます。

このテキスト エンコーダーを削除しても、画像の見た目の美しさには影響がなく (T5 なしで 50% の勝率)、テキストを正確に追従する能力はわずかに低下しただけです (46% の勝率)。

ただし、テキスト生成において SD 3 の機能を最大限に活用するには、T5 エンコーダーの使用を推奨します。

著者は、それがなければ、生成されたテキストの組版のパフォーマンスがさらに低下することを発見したためです (勝率は 38%)。

ネットユーザーの間で熱い議論

ネットユーザーたちは、ユーザーを常にからかっておきながら使用を許可しない Stability AI の行動にいらだちを感じており、できるだけ早くオンラインでリリースして誰でも使用できるようにしてほしいと訴えている。

ネットユーザーたちは、技術的な応用を見た後、生写真界はオープンソースがクローズドソースを圧倒する最初の道になるようだ、と述べた。

<<:  AI アバターはブランドエンゲージメントを深める鍵となるのでしょうか?

>>: 

ブログ    
ブログ    

推薦する

製造バリューチェーンにおいて RPA に真のチャンスはあるのでしょうか?

[[421304]]製造業における自動化の推進力は非常に単純です。自動化は人間の作業をシミュレート...

ApolloとCarSim/TruckSimの共同シミュレーション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能アルゴリズムが核融合の応用に一歩近づく

核融合は現在一般的に使用されている核分裂法よりも安全で環境に優しいことはよく知られています。しかし、...

...

人工知能がデータセンターを変革

[[253094]]がんの早期発見から国境を越えた人間の言語理解、リアルタイムの高解像度ビデオでの顔...

...

生成 AI とビッグモデルの違いと関連性は何ですか?

近年、ChatGPT、GPT-4、BARD、Claudeなどの大規模モデルが急速かつ大幅な進歩を遂げ...

...

アリババDAMOアカデミーがAIの人間の言語理解の向上を支援する論文でSemEval最優秀賞を受賞

世界最大のセマンティック評価コンテスト「SemEval-2022」は7月19日、今年唯一の「最優秀シ...

...

XML暗号化アルゴリズムが破られ、W3CはXML暗号化標準を改訂する必要がある

ルール研究所の研究者らは、XML 暗号化プロトコルに重大なセキュリティ上の脆弱性を発見し、シカゴで開...

...

微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント:すべて戻る

教師なしテキストコーパスのみで事前トレーニングされた基本的な大規模言語モデル (LLM) は、通常、...

量子コンピュータの公開:まだ多くのボトルネックがあり、最初の課題は機械学習の加速です

編集者注: 量子コンピューティングと機械学習の融合は、急成長している研究分野となっています。人々の期...

...