Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

安定拡散 3 論文がついに登場しました!

このモデルは2週間前にリリースされ、Soraと同じDiT(Diffusion Transformer)アーキテクチャを採用しています。リリースされるとすぐに大きな話題を呼びました。

以前のバージョンと比較して、Stable Diffusion 3 によって生成される画像の品質が大幅に向上し、複数のテーマ プロンプトがサポートされ、テキストの書き込み効果も向上しました (明らかに文字化けしなくなりました)。

Stability AI によると、Stable Diffusion 3 は、パラメータ数が 800M から 80B の範囲にあるモデル ファミリです。この数のパラメータは、多くのポータブル デバイスで直接実行できることを意味し、大規模な AI モデルを使用するハードルが大幅に下がります。

Stability AI は新たに発表した論文の中で、人間の好みに基づいた評価において、Stable Diffusion 3 が DALL・E 3、Midjourney v6、Ideogram v1 などの現在の最先端のテキスト画像生成システムを上回ったと述べています。研究チームは、この研究の実験データ、コード、モデルの重みを近々公開する予定だ。

論文の中で、Stability AI は Stable Diffusion 3 に関するより詳しい情報を明らかにしました。

  • 論文タイトル: 高解像度画像合成のための整流フロートランスフォーマーのスケーリング
  • 論文リンク: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

アーキテクチャの詳細

テキストから画像への生成では、Stable Diffusion 3 モデルはテキストと画像の両方のモダリティを考慮する必要があります。そのため、論文の著者は、複数のモダリティを処理できる能力にちなんで、この新しいアーキテクチャを MMDiT と名付けました。 Stable Diffusion の以前のバージョンと同様に、著者は事前トレーニング済みのモデルを使用して適切なテキストと画像の表現を導き出します。具体的には、テキスト表現をエンコードするために 3 つの異なるテキスト埋め込みモデル (2 つの CLIP モデルと T5) を使用し、画像トークンをエンコードするために改良されたオートエンコーダー モデルを使用しました。

安定拡散 3 モデル アーキテクチャ。

改良されたマルチモーダル拡散トランスフォーマー: MMDiT ブロック。

SD3 アーキテクチャは、Sora の R&D チームの中心メンバーである William Peebles 氏と、ニューヨーク大学のコンピューター サイエンスの助教授である Xie Saining 氏によって提案された技術である DiT に基づいています。テキスト埋め込みと画像埋め込みは概念的に大きく異なるため、SD3 の作成者は 2 つのモダリティに対して 2 つの異なる重みセットを使用します。上の図に示すように、これは各モダリティに 2 つの個別のトランスフォーマーを持ち、注意操作のために 2 つのモダリティのシーケンスを組み合わせることと同等であり、これにより、両方の表現が独自の空間で機能し、同時に他の表現も考慮に入れることができます。

私たちが提案する MMDiT アーキテクチャは、トレーニング中に視覚的な忠実度とテキストの配置を測定する際に、UViT や DiT などの確立されたテキストから画像へのバックボーンよりも優れています。

このようにして、画像とテキスト トークンの間で情報が流れるようになり、モデルの全体的な理解が向上し、生成された出力のタイポグラフィが向上します。論文で説明されているように、このアーキテクチャはビデオなどの複数のモダリティにも簡単に拡張できます。

Stable Diffusion 3 の改良されたキュー追従機能により、新しいモデルはさまざまな被写体や品質に焦点を当てた画像を生成する能力を備えており、画像自体のスタイルに関しても非常に柔軟です。

再重み付けによる整流フローの改善

Stable Diffusion 3 は、トレーニング中にデータとノイズが線形軌道で接続される Rectified Flow (RF) 式を使用します。これにより推論パスがより直線的になり、サンプリングステップの数が削減されます。さらに、著者らはトレーニング中に新しい軌道サンプリング方式を導入しました。彼らは、軌道の中間部分はより困難な予測課題をもたらすだろうと仮説を立て、そのためこの方式では軌道の中間部分に重点を置いた。彼らは、さまざまなデータセット、メトリック、サンプラー設定を使用して提案された方法を比較し、LDM、EDM、ADM を含む他の 60 の拡散軌跡に対してテストしました。結果は、以前の RF 定式化ではサンプリング ステップが少なくなりパフォーマンスが向上したものの、ステップ数が増えるにつれて相対的なパフォーマンスが低下することを示しています。対照的に、私たちが提案する再重み付けされた RF バリアントは、一貫してパフォーマンスを向上させます。

整流フロー変圧器モデルの拡張

著者らは、再重み付けされた Rectified Flow 定式化と MMDiT バックボーンを使用して、テキストから画像への合成に関するスケーリング研究を実施しました。彼らは、4億5000万のパラメータを持つ15ブロックから80億のパラメータを持つ38ブロックまでの範囲のモデルをトレーニングし、モデルのサイズとトレーニングのステップが増えるにつれて検証損失が着実に減少することを確認しました(上図の一番上の行)。これがモデル出力の有意義な改善につながるかどうかを調べるために、著者らは自動画像アライメントメトリック (GenEval) と人間の嗜好スコア (ELO) (上図の 2 行目) も評価しました。結果は、これらのメトリックと検証損失の間に強い相関関係があることを示しており、後者は全体的なモデルのパフォーマンスの優れた予測因子であることを示唆しています。さらに、スケーリングの傾向には飽和の兆候が見られないため、著者らは今後もモデルのパフォーマンスが継続的に向上すると楽観視しています。

柔軟なテキストエンコーダ

推論用のメモリを大量に消費する 4.7B パラメータの T5 テキスト エンコーダを削除することで、パフォーマンスの低下をほとんど伴わずに SD3 のメモリ要件が大幅に削減されます。グラフに示されているように、テキスト エンコーダーを削除しても見た目の美しさには影響がなく (T5 なしで 50% の勝率)、テキストの一貫性はわずかに低下するだけです (46% の勝率)。ただし、著者らは、SD3 のパフォーマンスを最大限に活用するために、書かれたテキストを生成するときに T5 を追加することを推奨しています。これは、T5 がないと、次の図に示すように、組版生成のパフォーマンスがさらに低下する (勝率 38%) ことが観察されたためです。

多くの詳細や大量のテキストを含む非常に複雑なプロンプトを提示した場合にのみ、推論のために T5 を削除するとパフォーマンスが大幅に低下しました。上の図は、各例のランダムなサンプルを 3 つ示しています。

モデルのパフォーマンス

著者らは、Stable Diffusion 3 の出力画像を、SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-α などのさまざまなオープンソース モデル、および DALL-E 3、Midjourney v6、Ideogram v1 などのクローズド ソース モデルと比較し、人間のフィードバックに基づいてパフォーマンスを評価しました。これらのテストでは、各モデルからの出力例が人間の評価者に与えられ、モデル出力が与えられたプロンプトのコンテキストにどれだけよく従っているか (プロンプトの追従性)、プロンプトに従ってテキストがどれだけうまくレンダリングされているか (タイポグラフィ)、どの画像の美的品質が高いか (視覚的な美的品質) に基づいて最良の結果を選択しました。

このグラフは、SD3 をベンチマークとして使用し、視覚的な美しさ、キューの追従、タイポグラフィに関する人間による評価に基づいて SD3 の勝率を概説しています。

テスト結果から、著者らは、Stable Diffusion 3 が上記のすべての側面において、現在の最先端のテキストから画像への生成システムに匹敵するか、あるいはそれよりも優れていることを発見しました。

消費者向けハードウェアでの初期の最適化されていない推論テストでは、最大の 8B パラメータ SD3 モデルが RTX 4090 の 24GB VRAM に収まり、50 のサンプリング ステップを使用して 1024x1024 解像度の画像を生成するのに 34 秒かかりました。

さらに、最初のリリース時には、Stable Diffusion 3 は、ハードウェアの障壁をさらに排除するために、800m から 8B パラメータ モデルまでの複数のバリエーションで利用可能になります。

詳細については原文論文を参照してください。

参考リンク: https://stability.ai/news/stable-diffusion-3-research-paper

<<: 

>>: 

ブログ    
ブログ    

推薦する

AI インデックス: AI 関連の求人、データ、トレンド

AI Index は、人工知能の現状に関する詳細な年次レポートです。自律システム、研究開発、AI の...

次世代交通におけるAI世代の影響

次世代の交通手段は、電子機器、持続可能性、経験を設計の中核としており、Gen AI は、想定される次...

...

...

2021 年の世界トップ 10 の人工知能アプリケーション

人工知能は、過去 10 年間にわたって年間を通じて最もホットな話題の 1 つとなっています。そして、...

Nvidia は Arm を買収して何をしたいのでしょうか?中国の承認後、クアルコムの影が再び現れる

またタトゥー?興味深いのは、この取引の解約手数料の詳細がまだ発表されていないことです。現時点では、独...

...

科学サブ出版物:人間の脳は加速学習メカニズムを備えており、その計算能力は最新のAIアルゴリズムを上回っている

[[323595]]機械学習とディープラーニングのアルゴリズムは、脳内のニューロンを結びつけるシナプ...

人工知能と医療画像を組み合わせたアプリケーションの4つのコア価値

「人工知能+医用画像」は、最先端の人工知能技術を医用画像診断に適用し、医師が患者の状態を診断するのを...

製造業におけるデジタルツインについて知っておくべきことすべて

インテリジェント製造の分野では、AI 駆動型デジタルツインが重要な技術となっています。デジタル ツイ...

...

5つの異なるタイプの人工知能

近年、人工知能は、データから洞察を引き出すことに関する企業の考え方を一変させました。ほとんどの人はこ...

...

ジャクソンはダンスしながら数秒で3Dロボットに変身します!アリババに新しい仕事が誕生:誰でもビデオを置き換えることができる

何が起こっているのか?アリは新しい仕事を思いついたようです—— MotionShop では、他のシー...