Stable Diffusion 3 の技術レポートがリークされ、Sora アーキテクチャがまた大きな貢献を果たしました。 RAWフォトサークルのオープンソースはMidjourneyやDALL·E 3に勝る?

Stable Diffusion 3 の技術レポートがリークされ、Sora アーキテクチャがまた大きな貢献を果たしました。 RAWフォトサークルのオープンソースはMidjourneyやDALL·E 3に勝る?

Stability AI は、Stable Diffusion 3 のリリースに続いて、本日詳細な技術レポートを発表しました。

この論文では、Stable Diffusion 3 のコア技術である改良された Diffusion モデルと新しい DiT ベースの Wenshengtu アーキテクチャを詳細に分析します。

報告先住所:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

人間による評価テストでは、フォント デザインとプロンプトへの正確な応答の点で、Stable Diffusion 3 が DALL·E 3、Midjourney v6、Ideogram v1 を上回りました。

Stability AI が新たに開発した Multimodal Diffused Transformer (MMDiT) アーキテクチャは、画像と言語の表現に独立した重みセットを使用するため、SD 3 の以前のバージョンと比較して、テキスト理解とスペル機能が大幅に向上します。

パフォーマンス評価

技術レポートでは、人間のフィードバックに基づいて、多数のオープンソース モデル SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-α、およびクローズド ソース モデル DALL·E 3、Midjourney v6、Ideogram v1 と SD 3 の詳細な比較評価を実施しています。

評価者は、与えられたプロンプトとの一貫性、テキストの明瞭さ、画像の全体的な美しさに基づいて、各モデルから最適な出力を選択しました。

テスト結果によると、Stable Diffusion 3 は、プロンプトに従う正確さ、テキストの明確な表示、画像の視覚的な美しさのいずれの点でも、画像生成技術の現在の最先端技術に達しているか、それを上回っています。

完全に最適化されていない SD 3 モデルには 8B のパラメーターがあり、24GB のビデオ メモリを搭載した RTX 4090 コンシューマー GPU で実行され、50 のサンプリング ステップを使用して 1024x1024 解像度の画像を生成するのに 34 秒かかります。

さらに、Stable Diffusion 3 は、発売時に 8 億から 80 億までのパラメータを持つ複数のバージョンで利用可能になり、使用するためのハードウェアのしきい値がさらに下がります。

建築の詳細が明らかに

テキストから画像を生成するプロセスでは、モデルはテキストと画像という 2 つの異なる種類の情報を同時に処理する必要があります。そこで著者らはこの新しいフレームワークを MMDiT と呼んでいます。

テキストから画像を生成するプロセスでは、モデルはテキストと画像という 2 種類の異なる情報を処理する必要があります。そのため、著者らはこの新しい技術を MMDiT (Multimodal Diffusion Transformer の略) と呼んでいます。

Stable Diffusion の以前のバージョンと同様に、SD 3 は事前トレーニング済みのモデルを使用して、テキストや画像に適した表現を抽出します。

具体的には、テキスト情報の処理には 3 つの異なるテキスト エンコーダー (2 つの CLIP モデルと 1 つの T5) を使用し、画像情報の処理にはより高度なオートエンコーダー モデルを使用しました。

SD 3 のアーキテクチャは、Diffusion Transformer (DiT) に基づいて構築されています。テキスト情報と画像情報の違いにより、SD 3 では 2 種類の情報それぞれに独立した重みを設定します。

この設計は、各情報タイプに 2 つの独立した Transformer を装備することと同等ですが、アテンション メカニズムを実行すると、2 つの情報タイプのデータ シーケンスがマージされ、相互参照と統合を維持しながら、それぞれのフィールドで独立して動作できるようになります。

この独自のアーキテクチャにより、画像とテキストの情報が相互に流れ、相互作用できるようになり、生成された結果のコンテンツの全体的な理解と視覚的表現が向上します。

さらに、このアーキテクチャは、将来、ビデオを含む他のモダリティに簡単に拡張できます。

SD 3 のプロンプトへの追従性が向上したおかげで、モデルはさまざまなテーマや機能に焦点を当てた画像を正確に生成できると同時に、画像スタイルにおける極めて高い柔軟性も維持できるようになりました。

再加重による整流フローの改善

新しい Diffusion Transformer アーキテクチャに加えて、SD 3 では Diffusion モデルにも大幅な改善が加えられました。

SD 3 は、直線軌道に沿ってトレーニング データとノイズを接続する Rectified Flow (RF) 戦略を採用しています。

このアプローチにより、モデルの推論パスがより直接的になるため、サンプル生成をより少ないステップで完了できます。

著者らは、トレーニング プロセスに革新的な軌道サンプリング スキームを導入し、特に予測タスクがより困難になる軌道の中間部分の重みを増やしています。

他の 60 種類の拡散軌跡 (LDM、EDM、ADM など) と比較した結果、以前の RF 方式はサンプリング ステップが少ない場合はパフォーマンスが優れているものの、サンプリング ステップの数が増えるとパフォーマンスが徐々に低下することが分かりました。

この状況を回避するために、著者が提案した重み付け RF 法は、モデルのパフォーマンスを継続的に向上させることができます。

RFトランスモデルの拡張

Stability AI は、15 個のモジュール、4 億 5000 万個のパラメータから 38 個のモジュール、80 億個のパラメータまで、さまざまなサイズの複数のモデルをトレーニングし、モデル サイズとトレーニング ステップの両方で検証損失をスムーズに削減できることを発見しました。

これがモデル出力の大幅な改善を意味するかどうかを検証するために、研究者らは自動画像配置メトリックと人間の嗜好評価も評価しました。

結果は、これらの評価メトリックが検証損失と強く相関していることを示しており、検証損失がモデルの全体的なパフォーマンスの有効な指標であることを示しています。

さらに、このスケーリングの傾向はまだ飽和点に達していないため、将来的にモデルのパフォーマンスをさらに向上させることができると楽観視しています。

著者らは、さまざまなパラメータ数を使用して、256×256ピクセルの解像度と4096のバッチサイズで50万ステップにわたってモデルをトレーニングしました。

上の図は、より大きなモデルをより長い時間トレーニングした場合のサンプル品質への影響を示しています。

上記の表は GenEval の結果を示しています。著者らが提案したトレーニング方法を使用し、トレーニング画像の解像度を上げると、最大のモデルはほとんどのカテゴリで優れたパフォーマンスを発揮し、総合スコアで DALL·E 3 を上回りました。

著者によるさまざまなアーキテクチャ モデルのテスト比較によると、MMDiT のパフォーマンスは DiT、Cross DiT、UViT、MM-DiT を上回り、非常に優れています。

柔軟なテキストエンコーダ

推論中にメモリを大量に消費する 4.7B パラメータの T5 テキスト エンコーダーを削除することで、パフォーマンスの低下を最小限に抑えながら SD 3 のメモリ要件が大幅に削減されます。

このテキスト エンコーダーを削除しても、画像の見た目の美しさには影響がなく (T5 なしで 50% の勝率)、テキストを正確に追従する能力はわずかに低下しただけです (46% の勝率)。

ただし、テキスト生成において SD 3 の機能を最大限に活用するには、T5 エンコーダーの使用を推奨します。

著者は、それがなければ、生成されたテキストの組版のパフォーマンスがさらに低下することを発見したためです (勝率は 38%)。

ネットユーザーの間で熱い議論

ネットユーザーたちは、ユーザーを常にからかっておきながら使用を許可しない Stability AI の行動にいらだちを感じており、できるだけ早くオンラインでリリースして誰でも使用できるようにしてほしいと訴えている。

ネットユーザーたちは、技術的な応用を見た後、生写真界はオープンソースがクローズドソースを圧倒する最初の道になるようだ、と述べた。

<<:  AI アバターはブランドエンゲージメントを深める鍵となるのでしょうか?

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Keras 3.0 が市場を席巻しています!この大きなアップデートではPyTorchとJAXが統合され、世界中の250万人の開発者が使用しています。

先ほど、Keras 3.0 が正式にリリースされました! 5 か月のパブリック ベータ テストを経て...

...

ローコード プラットフォームに関する不完全な推奨事項!

ソフトウェア開発者向けのローコード機能それでは、ソフトウェア開発者に機械学習機能を提供するローコード...

ついに誰かがROSロボットオペレーティングシステムをわかりやすく説明しました

01 ROS入門多くの初心者は、ロボットのオペレーティングシステムと聞いて、「オペレーティングシス...

人工知能: ナノスケールでの細胞構造の発見

11月25日(劉亜竹)人が病気になる原因は、外部の病原性因子が細胞に作用することです。病原性因子が一...

DeepMind: ビッグモデルのもう一つの大きな欠陥は、正しい答えが事前にわかっていなければ推論を自己修正できないことだ。

大規模言語モデルのもう一つの重大な欠陥が DeepMind によって明らかにされました。 LLM は...

デンマークはロボット工学をリードしています – IoT はどのような役割を果たすのでしょうか?

デンマークは、1970年代初頭から国家政策の一環として風力タービンに投資した最初の国の一つであり、こ...

人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

コンピューティング能力の需要が高まり続けるにつれて、さまざまな環境への影響が生じ、人工知能 (AI)...

ペット経済に乗って、ロボットアプリケーションが新しい市場を開拓

[[391010]]昨今、都市化の加速と生活水準の向上に伴い、ペットを飼うことがますます多くの人々の...

...

トラフィックを30%削減し、鮮明度を向上: MITが新しいAIビデオキャッシュアルゴリズムを提案

オンラインビデオの読み込み速度と鮮明さに対する人々の要求は常に尽きることがありません。最近、マサチュ...

AIセキュリティリスクの予防と管理を強化するには、技術統合と法的規制に重点を置く必要がある

人工知能は、新たな科学技術革命と産業変革をリードする戦略的技術として、世界の主要国が科学技術の飛躍的...

コンピュータービジョンにおける次の大きな進歩はどこから生まれるのでしょうか?

翻訳者 | ブガッティレビュー | Chonglou 1950 年代のコンピューター ビジョンの最初...

...