Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

安定拡散 3 論文がついに登場しました!

このモデルは2週間前にリリースされ、Soraと同じDiT(Diffusion Transformer)アーキテクチャを採用しています。リリースされるとすぐに大きな話題を呼びました。

以前のバージョンと比較して、Stable Diffusion 3 によって生成される画像の品質が大幅に向上し、複数のテーマ プロンプトがサポートされ、テキストの書き込み効果も向上しました (明らかに文字化けしなくなりました)。

Stability AI によると、Stable Diffusion 3 は、パラメータ数が 800M から 80B の範囲にあるモデル ファミリです。この数のパラメータは、多くのポータブル デバイスで直接実行できることを意味し、大規模な AI モデルを使用するハードルが大幅に下がります。

Stability AI は新たに発表した論文の中で、人間の好みに基づいた評価において、Stable Diffusion 3 が DALL・E 3、Midjourney v6、Ideogram v1 などの現在の最先端のテキスト画像生成システムを上回ったと述べています。研究チームは、この研究の実験データ、コード、モデルの重みを近々公開する予定だ。

論文の中で、Stability AI は Stable Diffusion 3 に関するより詳しい情報を明らかにしました。

  • 論文タイトル: 高解像度画像合成のための整流フロートランスフォーマーのスケーリング
  • 論文リンク: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

アーキテクチャの詳細

テキストから画像への生成では、Stable Diffusion 3 モデルはテキストと画像の両方のモダリティを考慮する必要があります。そのため、論文の著者は、複数のモダリティを処理できる能力にちなんで、この新しいアーキテクチャを MMDiT と名付けました。 Stable Diffusion の以前のバージョンと同様に、著者は事前トレーニング済みのモデルを使用して適切なテキストと画像の表現を導き出します。具体的には、テキスト表現をエンコードするために 3 つの異なるテキスト埋め込みモデル (2 つの CLIP モデルと T5) を使用し、画像トークンをエンコードするために改良されたオートエンコーダー モデルを使用しました。

安定拡散 3 モデル アーキテクチャ。

改良されたマルチモーダル拡散トランスフォーマー: MMDiT ブロック。

SD3 アーキテクチャは、Sora の R&D チームの中心メンバーである William Peebles 氏と、ニューヨーク大学のコンピューター サイエンスの助教授である Xie Saining 氏によって提案された技術である DiT に基づいています。テキスト埋め込みと画像埋め込みは概念的に大きく異なるため、SD3 の作成者は 2 つのモダリティに対して 2 つの異なる重みセットを使用します。上の図に示すように、これは各モダリティに 2 つの個別のトランスフォーマーを持ち、注意操作のために 2 つのモダリティのシーケンスを組み合わせることと同等であり、これにより、両方の表現が独自の空間で機能し、同時に他の表現も考慮に入れることができます。

私たちが提案する MMDiT アーキテクチャは、トレーニング中に視覚的な忠実度とテキストの配置を測定する際に、UViT や DiT などの確立されたテキストから画像へのバックボーンよりも優れています。

このようにして、画像とテキスト トークンの間で情報が流れるようになり、モデルの全体的な理解が向上し、生成された出力のタイポグラフィが向上します。論文で説明されているように、このアーキテクチャはビデオなどの複数のモダリティにも簡単に拡張できます。

Stable Diffusion 3 の改良されたキュー追従機能により、新しいモデルはさまざまな被写体や品質に焦点を当てた画像を生成する能力を備えており、画像自体のスタイルに関しても非常に柔軟です。

再重み付けによる整流フローの改善

Stable Diffusion 3 は、トレーニング中にデータとノイズが線形軌道で接続される Rectified Flow (RF) 式を使用します。これにより推論パスがより直線的になり、サンプリングステップの数が削減されます。さらに、著者らはトレーニング中に新しい軌道サンプリング方式を導入しました。彼らは、軌道の中間部分はより困難な予測課題をもたらすだろうと仮説を立て、そのためこの方式では軌道の中間部分に重点を置いた。彼らは、さまざまなデータセット、メトリック、サンプラー設定を使用して提案された方法を比較し、LDM、EDM、ADM を含む他の 60 の拡散軌跡に対してテストしました。結果は、以前の RF 定式化ではサンプリング ステップが少なくなりパフォーマンスが向上したものの、ステップ数が増えるにつれて相対的なパフォーマンスが低下することを示しています。対照的に、私たちが提案する再重み付けされた RF バリアントは、一貫してパフォーマンスを向上させます。

整流フロー変圧器モデルの拡張

著者らは、再重み付けされた Rectified Flow 定式化と MMDiT バックボーンを使用して、テキストから画像への合成に関するスケーリング研究を実施しました。彼らは、4億5000万のパラメータを持つ15ブロックから80億のパラメータを持つ38ブロックまでの範囲のモデルをトレーニングし、モデルのサイズとトレーニングのステップが増えるにつれて検証損失が着実に減少することを確認しました(上図の一番上の行)。これがモデル出力の有意義な改善につながるかどうかを調べるために、著者らは自動画像アライメントメトリック (GenEval) と人間の嗜好スコア (ELO) (上図の 2 行目) も評価しました。結果は、これらのメトリックと検証損失の間に強い相関関係があることを示しており、後者は全体的なモデルのパフォーマンスの優れた予測因子であることを示唆しています。さらに、スケーリングの傾向には飽和の兆候が見られないため、著者らは今後もモデルのパフォーマンスが継続的に向上すると楽観視しています。

柔軟なテキストエンコーダ

推論用のメモリを大量に消費する 4.7B パラメータの T5 テキスト エンコーダを削除することで、パフォーマンスの低下をほとんど伴わずに SD3 のメモリ要件が大幅に削減されます。グラフに示されているように、テキスト エンコーダーを削除しても見た目の美しさには影響がなく (T5 なしで 50% の勝率)、テキストの一貫性はわずかに低下するだけです (46% の勝率)。ただし、著者らは、SD3 のパフォーマンスを最大限に活用するために、書かれたテキストを生成するときに T5 を追加することを推奨しています。これは、T5 がないと、次の図に示すように、組版生成のパフォーマンスがさらに低下する (勝率 38%) ことが観察されたためです。

多くの詳細や大量のテキストを含む非常に複雑なプロンプトを提示した場合にのみ、推論のために T5 を削除するとパフォーマンスが大幅に低下しました。上の図は、各例のランダムなサンプルを 3 つ示しています。

モデルのパフォーマンス

著者らは、Stable Diffusion 3 の出力画像を、SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-α などのさまざまなオープンソース モデル、および DALL-E 3、Midjourney v6、Ideogram v1 などのクローズド ソース モデルと比較し、人間のフィードバックに基づいてパフォーマンスを評価しました。これらのテストでは、各モデルからの出力例が人間の評価者に与えられ、モデル出力が与えられたプロンプトのコンテキストにどれだけよく従っているか (プロンプトの追従性)、プロンプトに従ってテキストがどれだけうまくレンダリングされているか (タイポグラフィ)、どの画像の美的品質が高いか (視覚的な美的品質) に基づいて最良の結果を選択しました。

このグラフは、SD3 をベンチマークとして使用し、視覚的な美しさ、キューの追従、タイポグラフィに関する人間による評価に基づいて SD3 の勝率を概説しています。

テスト結果から、著者らは、Stable Diffusion 3 が上記のすべての側面において、現在の最先端のテキストから画像への生成システムに匹敵するか、あるいはそれよりも優れていることを発見しました。

消費者向けハードウェアでの初期の最適化されていない推論テストでは、最大の 8B パラメータ SD3 モデルが RTX 4090 の 24GB VRAM に収まり、50 のサンプリング ステップを使用して 1024x1024 解像度の画像を生成するのに 34 秒かかりました。

さらに、最初のリリース時には、Stable Diffusion 3 は、ハードウェアの障壁をさらに排除するために、800m から 8B パラメータ モデルまでの複数のバリエーションで利用可能になります。

詳細については原文論文を参照してください。

参考リンク: https://stability.ai/news/stable-diffusion-3-research-paper

<<: 

>>: 

ブログ    
ブログ    

推薦する

機械学習は「部屋の中の象」に対処するのが難しい

AI には、部屋に突然象が現れたなど、信じられないような異常を発見しながらも、それを冷静に受け入れる...

顔認識技術の法的ギャップを埋める必要がある

顔認識などの新興技術が普及し、何百万人もの人々の生活に入り込むにつれて、技術の使用をめぐる論争がます...

...

上級幹部との対話で洞察を得る - IBM アジア太平洋地域社長ブレンダ・ハーベイ氏による変革、クラウド コンピューティング、自動化に関する講演

調査データによると、過去18か月間、企業はさまざまな緊急事態に対応するために技術革新のペースを加速さ...

AIが再び大学入試小論文に挑戦、強力なハードコア技術で「数秒」の文章作成を実現

昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...

ついに誰かが5G+AIをわかりやすく説明してくれた

[[378431]] 01 5Gのコンセプト5Gの正式名称は第5世代移動通信技術です。これは最新世代...

AIとIoTの相互運用性に対する需要は2021年も増加し続ける

[[390687]]画像ソース: https://pixabay.com/images/id-440...

TensorFlow、危険です! Google自身が放棄している

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

教育省:中国はAI教育政策の提供を増やす

12月7日から8日にかけて、中華人民共和国教育部、中国ユネスコ国家委員会、ユネスコの共催による「20...

なぜモノのインターネット、ビッグデータ、人工知能は常にグループで表示されるのでしょうか?

[[274332]]私のいとこは 2000 年代生まれで、大学に入学したばかりの才能あふれる若者で...

Baidu の計算生物学研究が Nature のサブジャーナルに掲載されました!スタンフォード大学やMITを上回る成果、製薬分野に進出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI への移行: 6 月の AI 資金調達活動の概要

情報化時代において、人工知能は急速に社会の変化と発展を推進しています。世界中の研究機関、企業、大学が...

...

人工知能はどのように農業の発展を促進できるのでしょうか?

古代より、農業は人類の生存の基盤であり、国家経済の基盤となってきました。しかし、人口の急速な増加、耕...

データ構造フレームワークの考え方を理解すると、すべてのアルゴリズムは単なる張り子の虎に過ぎない

1. データ構造の保存方法データ構造を保存する方法は、配列 (順次ストレージ) とリンク リスト (...