Stability AI は、Stable Diffusion 3 のリリースに続いて、本日詳細な技術レポートを発表しました。 この論文では、Stable Diffusion 3 のコア技術である改良された Diffusion モデルと新しい DiT ベースの Wenshengtu アーキテクチャを詳細に分析します。 報告先住所: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf 人間による評価テストでは、フォント デザインとプロンプトへの正確な応答の点で、Stable Diffusion 3 が DALL·E 3、Midjourney v6、Ideogram v1 を上回りました。 Stability AI が新たに開発した Multimodal Diffused Transformer (MMDiT) アーキテクチャは、画像と言語の表現に独立した重みセットを使用するため、SD 3 の以前のバージョンと比較して、テキスト理解とスペル機能が大幅に向上します。 パフォーマンス評価技術レポートでは、人間のフィードバックに基づいて、多数のオープンソース モデル SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-α、およびクローズド ソース モデル DALL·E 3、Midjourney v6、Ideogram v1 と SD 3 の詳細な比較評価を実施しています。 評価者は、与えられたプロンプトとの一貫性、テキストの明瞭さ、画像の全体的な美しさに基づいて、各モデルから最適な出力を選択しました。 テスト結果によると、Stable Diffusion 3 は、プロンプトに従う正確さ、テキストの明確な表示、画像の視覚的な美しさのいずれの点でも、画像生成技術の現在の最先端技術に達しているか、それを上回っています。 完全に最適化されていない SD 3 モデルには 8B のパラメーターがあり、24GB のビデオ メモリを搭載した RTX 4090 コンシューマー GPU で実行され、50 のサンプリング ステップを使用して 1024x1024 解像度の画像を生成するのに 34 秒かかります。 さらに、Stable Diffusion 3 は、発売時に 8 億から 80 億までのパラメータを持つ複数のバージョンで利用可能になり、使用するためのハードウェアのしきい値がさらに下がります。 建築の詳細が明らかにテキストから画像を生成するプロセスでは、モデルはテキストと画像という 2 つの異なる種類の情報を同時に処理する必要があります。そこで著者らはこの新しいフレームワークを MMDiT と呼んでいます。 テキストから画像を生成するプロセスでは、モデルはテキストと画像という 2 種類の異なる情報を処理する必要があります。そのため、著者らはこの新しい技術を MMDiT (Multimodal Diffusion Transformer の略) と呼んでいます。 Stable Diffusion の以前のバージョンと同様に、SD 3 は事前トレーニング済みのモデルを使用して、テキストや画像に適した表現を抽出します。 具体的には、テキスト情報の処理には 3 つの異なるテキスト エンコーダー (2 つの CLIP モデルと 1 つの T5) を使用し、画像情報の処理にはより高度なオートエンコーダー モデルを使用しました。 SD 3 のアーキテクチャは、Diffusion Transformer (DiT) に基づいて構築されています。テキスト情報と画像情報の違いにより、SD 3 では 2 種類の情報それぞれに独立した重みを設定します。 この設計は、各情報タイプに 2 つの独立した Transformer を装備することと同等ですが、アテンション メカニズムを実行すると、2 つの情報タイプのデータ シーケンスがマージされ、相互参照と統合を維持しながら、それぞれのフィールドで独立して動作できるようになります。 この独自のアーキテクチャにより、画像とテキストの情報が相互に流れ、相互作用できるようになり、生成された結果のコンテンツの全体的な理解と視覚的表現が向上します。 さらに、このアーキテクチャは、将来、ビデオを含む他のモダリティに簡単に拡張できます。 SD 3 のプロンプトへの追従性が向上したおかげで、モデルはさまざまなテーマや機能に焦点を当てた画像を正確に生成できると同時に、画像スタイルにおける極めて高い柔軟性も維持できるようになりました。 再加重による整流フローの改善新しい Diffusion Transformer アーキテクチャに加えて、SD 3 では Diffusion モデルにも大幅な改善が加えられました。 SD 3 は、直線軌道に沿ってトレーニング データとノイズを接続する Rectified Flow (RF) 戦略を採用しています。 このアプローチにより、モデルの推論パスがより直接的になるため、サンプル生成をより少ないステップで完了できます。 著者らは、トレーニング プロセスに革新的な軌道サンプリング スキームを導入し、特に予測タスクがより困難になる軌道の中間部分の重みを増やしています。 他の 60 種類の拡散軌跡 (LDM、EDM、ADM など) と比較した結果、以前の RF 方式はサンプリング ステップが少ない場合はパフォーマンスが優れているものの、サンプリング ステップの数が増えるとパフォーマンスが徐々に低下することが分かりました。 この状況を回避するために、著者が提案した重み付け RF 法は、モデルのパフォーマンスを継続的に向上させることができます。 RFトランスモデルの拡張Stability AI は、15 個のモジュール、4 億 5000 万個のパラメータから 38 個のモジュール、80 億個のパラメータまで、さまざまなサイズの複数のモデルをトレーニングし、モデル サイズとトレーニング ステップの両方で検証損失をスムーズに削減できることを発見しました。 これがモデル出力の大幅な改善を意味するかどうかを検証するために、研究者らは自動画像配置メトリックと人間の嗜好評価も評価しました。 結果は、これらの評価メトリックが検証損失と強く相関していることを示しており、検証損失がモデルの全体的なパフォーマンスの有効な指標であることを示しています。 さらに、このスケーリングの傾向はまだ飽和点に達していないため、将来的にモデルのパフォーマンスをさらに向上させることができると楽観視しています。 著者らは、さまざまなパラメータ数を使用して、256×256ピクセルの解像度と4096のバッチサイズで50万ステップにわたってモデルをトレーニングしました。 上の図は、より大きなモデルをより長い時間トレーニングした場合のサンプル品質への影響を示しています。 上記の表は GenEval の結果を示しています。著者らが提案したトレーニング方法を使用し、トレーニング画像の解像度を上げると、最大のモデルはほとんどのカテゴリで優れたパフォーマンスを発揮し、総合スコアで DALL·E 3 を上回りました。 著者によるさまざまなアーキテクチャ モデルのテスト比較によると、MMDiT のパフォーマンスは DiT、Cross DiT、UViT、MM-DiT を上回り、非常に優れています。 柔軟なテキストエンコーダ推論中にメモリを大量に消費する 4.7B パラメータの T5 テキスト エンコーダーを削除することで、パフォーマンスの低下を最小限に抑えながら SD 3 のメモリ要件が大幅に削減されます。 このテキスト エンコーダーを削除しても、画像の見た目の美しさには影響がなく (T5 なしで 50% の勝率)、テキストを正確に追従する能力はわずかに低下しただけです (46% の勝率)。 ただし、テキスト生成において SD 3 の機能を最大限に活用するには、T5 エンコーダーの使用を推奨します。 著者は、それがなければ、生成されたテキストの組版のパフォーマンスがさらに低下することを発見したためです (勝率は 38%)。 ネットユーザーの間で熱い議論ネットユーザーたちは、ユーザーを常にからかっておきながら使用を許可しない Stability AI の行動にいらだちを感じており、できるだけ早くオンラインでリリースして誰でも使用できるようにしてほしいと訴えている。 ネットユーザーたちは、技術的な応用を見た後、生写真界はオープンソースがクローズドソースを圧倒する最初の道になるようだ、と述べた。 |
<<: AI アバターはブランドエンゲージメントを深める鍵となるのでしょうか?
RPA(ロボティック・プロセス・オートメーション)業界のリーダーであるオートメーション・エニウェアは...
[[399211]]応用シナリオ - ナップサック問題バックパックの問題: 容量 4 ポンドのバッ...
[[437909]] Visual Transformer (ViT) は、パッチ単位の画像トーク...
[[353150]]人工知能は、人間のように知覚、認識、決定、実行できる人工プログラムまたはシステム...
金融部門は、個人の購入から大規模な取引まで、莫大な富につながる大量の貴重なデータを定期的に生成してお...
最近、国務院は貨物物流の円滑な流れを確保するために関連業務を展開するよう通知し、各地域と関連部門に主...
ビッグデータダイジェスト制作著者: カレブ皆さんはたくさんのロボットを見たことがあると思いますが、こ...
人工知能の出現はITの将来の発展の傾向を変え、今後もさらに多くの産業に利益をもたらし続けるでしょう。...
最近、Sogou 入力方式がバージョン 10.8 に更新されました。新バージョンでは、主に音声入力と...
新しいインフラの下で、産業インターネット、5G基地局建設、都市間高速鉄道と都市間軌道交通、新エネルギ...
投資管理会社でシステム開発エンジニアとして働いていたとき、定量金融で成功するには、数学、プログラミン...