Stable Diffusion 3 の技術レポートがリークされ、Sora アーキテクチャがまた大きな貢献を果たしました。 RAWフォトサークルのオープンソースはMidjourneyやDALL·E 3に勝る?

Stable Diffusion 3 の技術レポートがリークされ、Sora アーキテクチャがまた大きな貢献を果たしました。 RAWフォトサークルのオープンソースはMidjourneyやDALL·E 3に勝る?

Stability AI は、Stable Diffusion 3 のリリースに続いて、本日詳細な技術レポートを発表しました。

この論文では、Stable Diffusion 3 のコア技術である改良された Diffusion モデルと新しい DiT ベースの Wenshengtu アーキテクチャを詳細に分析します。

報告先住所:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

人間による評価テストでは、フォント デザインとプロンプトへの正確な応答の点で、Stable Diffusion 3 が DALL·E 3、Midjourney v6、Ideogram v1 を上回りました。

Stability AI が新たに開発した Multimodal Diffused Transformer (MMDiT) アーキテクチャは、画像と言語の表現に独立した重みセットを使用するため、SD 3 の以前のバージョンと比較して、テキスト理解とスペル機能が大幅に向上します。

パフォーマンス評価

技術レポートでは、人間のフィードバックに基づいて、多数のオープンソース モデル SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-α、およびクローズド ソース モデル DALL·E 3、Midjourney v6、Ideogram v1 と SD 3 の詳細な比較評価を実施しています。

評価者は、与えられたプロンプトとの一貫性、テキストの明瞭さ、画像の全体的な美しさに基づいて、各モデルから最適な出力を選択しました。

テスト結果によると、Stable Diffusion 3 は、プロンプトに従う正確さ、テキストの明確な表示、画像の視覚的な美しさのいずれの点でも、画像生成技術の現在の最先端技術に達しているか、それを上回っています。

完全に最適化されていない SD 3 モデルには 8B のパラメーターがあり、24GB のビデオ メモリを搭載した RTX 4090 コンシューマー GPU で実行され、50 のサンプリング ステップを使用して 1024x1024 解像度の画像を生成するのに 34 秒かかります。

さらに、Stable Diffusion 3 は、発売時に 8 億から 80 億までのパラメータを持つ複数のバージョンで利用可能になり、使用するためのハードウェアのしきい値がさらに下がります。

建築の詳細が明らかに

テキストから画像を生成するプロセスでは、モデルはテキストと画像という 2 つの異なる種類の情報を同時に処理する必要があります。そこで著者らはこの新しいフレームワークを MMDiT と呼んでいます。

テキストから画像を生成するプロセスでは、モデルはテキストと画像という 2 種類の異なる情報を処理する必要があります。そのため、著者らはこの新しい技術を MMDiT (Multimodal Diffusion Transformer の略) と呼んでいます。

Stable Diffusion の以前のバージョンと同様に、SD 3 は事前トレーニング済みのモデルを使用して、テキストや画像に適した表現を抽出します。

具体的には、テキスト情報の処理には 3 つの異なるテキスト エンコーダー (2 つの CLIP モデルと 1 つの T5) を使用し、画像情報の処理にはより高度なオートエンコーダー モデルを使用しました。

SD 3 のアーキテクチャは、Diffusion Transformer (DiT) に基づいて構築されています。テキスト情報と画像情報の違いにより、SD 3 では 2 種類の情報それぞれに独立した重みを設定します。

この設計は、各情報タイプに 2 つの独立した Transformer を装備することと同等ですが、アテンション メカニズムを実行すると、2 つの情報タイプのデータ シーケンスがマージされ、相互参照と統合を維持しながら、それぞれのフィールドで独立して動作できるようになります。

この独自のアーキテクチャにより、画像とテキストの情報が相互に流れ、相互作用できるようになり、生成された結果のコンテンツの全体的な理解と視覚的表現が向上します。

さらに、このアーキテクチャは、将来、ビデオを含む他のモダリティに簡単に拡張できます。

SD 3 のプロンプトへの追従性が向上したおかげで、モデルはさまざまなテーマや機能に焦点を当てた画像を正確に生成できると同時に、画像スタイルにおける極めて高い柔軟性も維持できるようになりました。

再加重による整流フローの改善

新しい Diffusion Transformer アーキテクチャに加えて、SD 3 では Diffusion モデルにも大幅な改善が加えられました。

SD 3 は、直線軌道に沿ってトレーニング データとノイズを接続する Rectified Flow (RF) 戦略を採用しています。

このアプローチにより、モデルの推論パスがより直接的になるため、サンプル生成をより少ないステップで完了できます。

著者らは、トレーニング プロセスに革新的な軌道サンプリング スキームを導入し、特に予測タスクがより困難になる軌道の中間部分の重みを増やしています。

他の 60 種類の拡散軌跡 (LDM、EDM、ADM など) と比較した結果、以前の RF 方式はサンプリング ステップが少ない場合はパフォーマンスが優れているものの、サンプリング ステップの数が増えるとパフォーマンスが徐々に低下することが分かりました。

この状況を回避するために、著者が提案した重み付け RF 法は、モデルのパフォーマンスを継続的に向上させることができます。

RFトランスモデルの拡張

Stability AI は、15 個のモジュール、4 億 5000 万個のパラメータから 38 個のモジュール、80 億個のパラメータまで、さまざまなサイズの複数のモデルをトレーニングし、モデル サイズとトレーニング ステップの両方で検証損失をスムーズに削減できることを発見しました。

これがモデル出力の大幅な改善を意味するかどうかを検証するために、研究者らは自動画像配置メトリックと人間の嗜好評価も評価しました。

結果は、これらの評価メトリックが検証損失と強く相関していることを示しており、検証損失がモデルの全体的なパフォーマンスの有効な指標であることを示しています。

さらに、このスケーリングの傾向はまだ飽和点に達していないため、将来的にモデルのパフォーマンスをさらに向上させることができると楽観視しています。

著者らは、さまざまなパラメータ数を使用して、256×256ピクセルの解像度と4096のバッチサイズで50万ステップにわたってモデルをトレーニングしました。

上の図は、より大きなモデルをより長い時間トレーニングした場合のサンプル品質への影響を示しています。

上記の表は GenEval の結果を示しています。著者らが提案したトレーニング方法を使用し、トレーニング画像の解像度を上げると、最大のモデルはほとんどのカテゴリで優れたパフォーマンスを発揮し、総合スコアで DALL·E 3 を上回りました。

著者によるさまざまなアーキテクチャ モデルのテスト比較によると、MMDiT のパフォーマンスは DiT、Cross DiT、UViT、MM-DiT を上回り、非常に優れています。

柔軟なテキストエンコーダ

推論中にメモリを大量に消費する 4.7B パラメータの T5 テキスト エンコーダーを削除することで、パフォーマンスの低下を最小限に抑えながら SD 3 のメモリ要件が大幅に削減されます。

このテキスト エンコーダーを削除しても、画像の見た目の美しさには影響がなく (T5 なしで 50% の勝率)、テキストを正確に追従する能力はわずかに低下しただけです (46% の勝率)。

ただし、テキスト生成において SD 3 の機能を最大限に活用するには、T5 エンコーダーの使用を推奨します。

著者は、それがなければ、生成されたテキストの組版のパフォーマンスがさらに低下することを発見したためです (勝率は 38%)。

ネットユーザーの間で熱い議論

ネットユーザーたちは、ユーザーを常にからかっておきながら使用を許可しない Stability AI の行動にいらだちを感じており、できるだけ早くオンラインでリリースして誰でも使用できるようにしてほしいと訴えている。

ネットユーザーたちは、技術的な応用を見た後、生写真界はオープンソースがクローズドソースを圧倒する最初の道になるようだ、と述べた。

<<:  AI アバターはブランドエンゲージメントを深める鍵となるのでしょうか?

>>: 

ブログ    
ブログ    
ブログ    

推薦する

顔認識アプリケーションにおける人工知能の利点と欠点についての簡単な説明

1950年代にチューリングの論文「ロボットは考えることができるか?」が人工知能への扉を開いて以来、人...

...

Google AI、眼球スキャンから心臓病リスクを予測可能

グーグルと、同じくアルファベットグループの健康関連子会社であるベリリー・ライフ・サイエンシズが共同で...

パラメータは最大2兆個、GPT-4をはるかに超える!アマゾンの新型オリンパス大型モデルが公開、近日発表予定

大きなモデルの波から遠ざかっていたように見えるAmazonが、ついに最新の進捗状況を発表することにな...

人工知能時代の未来の人材をどう育成するか?専門家や名門校の校長はこう言う

人工知能の時代、未来の人材をどう育成するか? 10日、2019年重慶人材大会第4回大学・高校教育発展...

マイクロソフト、Windows 11、Bing、Edge などで統合された Copilot AI アシスタントをリリース

Microsoft は、生成型人工知能ベースのデジタル アシスタント Copilot をより多くのソ...

よく使われる 3 つの C# ソート アルゴリズム

C# アルゴリズムは、C# 言語学習の重要な部分です。C# ソート アルゴリズムは、言語の基礎とデー...

AI は従業員トレーニングにどのような革命をもたらすのでしょうか?

[[395608]]スキルギャップを埋めるプレッシャーの下、多くの組織が人工知能テクノロジーを導入...

OpenAIは静かにその中核となる価値観を改訂し、汎用人工知能の構築に注力する

10月16日、OpenAIはひっそりと「コアバリュー」のリストを変更し、これまで明示的に挙げられてい...

...

アリババが自然言語理解の世界記録を更新、AIの常識的推論は人間のそれに近づいている

最近、アリババAIは常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記...

...

2021 年のイノベーションを形作る 5 つのテクノロジー トレンド

近い将来、世界はテクノロジーとイノベーションのブームを迎えるでしょう。私たちは世界中で大規模なデジタ...