Stable Diffusion 3 技術レポート公開: Sora と同じアーキテクチャの詳細を公開

Stable Diffusion 3 技術レポート公開: Sora と同じアーキテクチャの詳細を公開

いよいよ、「ヴィンセント・ピクチャーズの新王者」Stable Diffusion 3 の技術レポートが届きます。

全文は28ページにわたり、誠実さに満ちています。

いつものように、プロモーション ポスター (⬇️) はモデルを使用して直接生成され、テキスト レンダリング機能が紹介されています。

では、DALL・E 3やMidjourney v6よりも強力なSD3のテキストおよびコマンドフォロースキルをどのようにアクティブ化するのでしょうか?

技術レポートでは次のことが明らかになりました。

すべては、マルチモーダル拡散トランスフォーマー アーキテクチャ MMDiT に依存します。

成功の鍵は、画像とテキストの表現に 2 つの別々の重みセットを使用することです。これにより、SD3 の以前のバージョンに比べてパフォーマンスが大幅に向上します。

具体的な詳細についてはレポートを見てみましょう。

DiTを微調整してテキストレンダリング機能を向上させる

SD3 のリリース当初、公式にはそのアーキテクチャが Sora と同じであり、拡散トランスフォーマー (DiT) に属していることが明らかにされました。

答えは明らかになりました:

テキストベースのグラフ モデルではテキスト モードと画像モードの両方を考慮する必要があるため、Stability AI は DiT よりも一歩進んで、新しいアーキテクチャ MMDiT を提案します。

ここでの「MM」は「マルチモーダル」を意味します。

Stable Diffusion の以前のバージョンと同様に、適切なテキストと画像の表現を取得するために、2 つの事前トレーニング済みモデルを使用します。

テキスト表現のエンコードは、2 つの CLIP モデルと 1 つの T5 モデルを含む 3 つの異なるテキスト エンベッダーを使用して行われます。

画像トークンのエンコードは、改良されたオートエンコーダ モデルを使用して行われます。

テキストと画像の埋め込みは概念的にはまったく異なるものであるため、SD3 ではこれら 2 つのモードに対して 2 つの独立した重みセットを使用します。

(ネットユーザーの中には、このアーキテクチャ図は「人類補完計画」を開始しようとしているようだと不満を漏らす者もいる。確かに、「新世紀エヴァンゲリオン」の情報を見てこのレポートをクリックした人もいる)

話を元に戻すと、上の図に示すように、これは各モダリティに 2 つの独立したトランスフォーマーを用意し、アテンション操作のためにそれらのシーケンスを接続することと同じです。

こうすることで、両方の表現が、他方を考慮しながら、それぞれの空間で機能することができます。

最終的に、このアプローチにより、情報は画像とテキスト トークン間で「流れる」ようになり、モデルの全体的な理解と出力時のテキスト レンダリング機能が向上します。

また、これまでの結果に示されているように、このアーキテクチャはビデオなどの複数のモードに簡単に拡張できます。

特定のテストでは、MMDiT は DiT から派生したものの、DiT よりも優れていることが示されています。

トレーニング中の視覚的な忠実度とテキストの配置の両方において、UViT や DiT などの既存のテキストから画像へのバックボーンよりも優れています。

パフォーマンスを継続的に向上させる再加重フロー技術

リリース当初、公式は、拡散トランスフォーマーアーキテクチャに加えて、SD3がフローマッチングを組み合わせていることも明らかにしました。

「フロー」とは何でしょうか?

本日発表された論文のタイトルからもわかるように、SD3 は「整流フロー」(RF) を使用します。

これは、ICLR2023 に選ばれた、拡散モデルを生成するための新しい「極めて簡略化されたワンステップ生成」方法です。

これにより、トレーニング中にモデルのデータとノイズが直線的な軌跡で接続されるようになり、より少ないステップでサンプリングできる「より直線的な」推論パスが得られます。

SD3 は RF に基づいて、トレーニング プロセス中に新しい軌跡サンプリングを導入します。

著者らは、軌道の中間部分がより困難な予測タスクを完了すると想定しているため、軌道の中間部分に重点を置くことに重点を置いています。

私たちは、この生成方法を、複数のデータセット、メトリック、サンプラー構成にわたって 60 種類の他の拡散軌跡方法 (LDM、EDM、ADM など) でテストし、次の結果を得ました。

これまでの RF 方式は、数ステップのサンプリング方式では有望なパフォーマンスを示していますが、ステップ数が増えるにつれて相対的なパフォーマンスは低下します。

対照的に、SD3 の再重み付け RF バリアントは、一貫してパフォーマンスが向上します。

モデル機能をさらに向上できる

再加重 RF 法と MMDiT アーキテクチャを使用したテキストから画像への生成に関するスケーリング研究を実施しました。

トレーニングされたモデルは、4億5000万個のパラメータを持つ15個のモジュールから、80億個のパラメータを持つ38個のモジュールまでの範囲でした。

このことから、モデルのサイズとトレーニングのステップが増加するにつれて、検証損失は滑らかな下降傾向を示し、つまり、継続的な学習を通じてモデルがより複雑なデータに適応していることが観察されました。

これがモデル出力のより有意義な改善につながるかどうかをテストするために、自動画像アライメント メトリック(GenEval)と人間の嗜好スコア(ELO)も評価しました。

消す:

両者の間には強い相関関係があります。つまり、検証損失は、全体的なモデルのパフォーマンスを予測するための非常に強力な指標として使用できます。

さらに、ここでの拡大傾向は飽和の兆候を示していないため(つまり、モデルのサイズが大きくなっても、パフォーマンスは向上し続けており、限界に達していない)、関係者は楽観的で次のように述べています。

SD3 のパフォーマンスは今後も向上し続けます。

最後に、技術レポートではテキスト エンコーダーの問題についても言及しています。

推論用の 47 億のパラメータとメモリを大量に消費する T5 テキスト エンコーダーを削除することで、わずかなパフォーマンスの低下 (勝率が 50% から 46% に低下) のみで SD3 のメモリ要件を大幅に削減できます。

ただし、テキスト レンダリング機能のために、T5 を削除しないことが公式に推奨されています。T5 がないと、テキスト表現の勝率が 38% に低下するためです。

まとめると、SD3 の 3 つのテキスト エンコーダーのうち、T5 はテキスト付き画像 (および非常に詳細なシーン説明画像) の生成に最も貢献しています。

ネットユーザー:オープンソースの約束は予定通り果たされました、ありがとう

SD3の報告書が発表されるとすぐに、多くのネットユーザーが次のようにコメントした。

Stability AI のオープンソースへの取り組みが実現したことを嬉しく思います。今後も長く維持・運営を続けられることを願っています。

OpenAI について言及しない人もいます。

さらに嬉しいのは、コメント欄で誰かがこう言っていたことです。

SD3モデルの重みはすべてダウンロード可能です。現在の計画は8億パラメータ、20億パラメータ、80億パラメータです。


速度はどうですか?

ええと、技術レポートには次のように書かれています:

80 億の SD3 は、24GB RTX 4090 で 1024 x 1024 の画像(50 サンプリング ステップ)を生成するのに 34 秒かかりますが、これは初期の最適化されていない予備的な推論テスト結果にすぎません。

完全なレポート: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf 。
参考リンク:
[1] https://stability.ai/news/stable-diffusion-3-research-paper.
[2]https://news.ycombinator.com/item?id=39599958.

<<:  クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

>>:  テクスチャコントラスト検出を使用してAI生成画像を検出する

推薦する

自動運転自転車が発売されました。これを見た後ではもう運転したくありません!ホットカミング

Google Bikeが先行販売を開始しました。まだ自転車に乗りたいかなんて聞くまでもありません。車...

...

組織のサイバーセキュリティ向上における人工知能の役割

サイバーセキュリティは重要な戦略的必須事項となっており、今日の企業は進化し続けるサイバー脅威から I...

研究機関が新しいレポートでAIの売り手側と買い手側の成功への道筋を定義

調査会社ストラテジー・アナリティクスは新たな報告書の中で、人工知能製品のベンダーとそのユーザーの両方...

...

AI時代の南北格差を埋める

[[427918]]周其浦松陽人工知能(AI)の発展は世界に変革をもたらしましたが、同時に発展途上国...

2024年はテクノロジー企業の終焉となるでしょうか?報告書:3年後には技術の80%が素人によって提供される

[[405703]]最近、アメリカの有名なテクノロジー調査・コンサルティング会社であるガートナーは、...

Stack Overflow は独自の生成 AI ツールを公開するためにスタッフの 28% を削減

これは ChatGPT が直接引き起こした大規模なレイオフである可能性があります。世界最大のプログラ...

快手八卦についての噂: TensorFlow と PyTorch の並列ボトルネックを打破する分散トレーニング フレームワーク

最近、KuaishouとETH Zurichはオープンソースの分散トレーニングフレームワークBagu...

機械学習におけるモデルドリフト

今日、機械学習モデルはビジネス上の意思決定の主な原動力となっています。他のビジネス戦略と同様に、これ...

「ソースコード解析」仮想DOMアルゴリズムの実装方法

[[378869]]前回の記事「仮想 DOM が実際の DOM に進化する方法」では、仮想 DOM ...

AIが医療画像診断を強化し、潜在的な病気が隠れる場所をなくす

【51CTO.comオリジナル記事】 [[376669]]医療は人々の生活に関わる最も重要な問題の一...

Java プログラミング スキル - データ構造とアルゴリズム「プレフィックス、インフィックス、サフィックス」

[[387421]]接頭辞表現(ポーランド語表記)プレフィックス式はポーランド式とも呼ばれます。プ...

ChatGPT が作成した履歴書が人事部の心を動かし、彼は卒業後すぐに夢のオファーを獲得しました。

こんにちは、最近卒業した人が ChatGPT を使用してカバーレターを作成し、数分で履歴書のスクリー...

8年が経ちました。Googleが中国に戻るという噂は本当でしょうか?

[51CTO.com オリジナル記事] Google の中国復帰について新たな声が上がっている。最...