突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

1年以上の開発期間を経て、前世代に比べて3つの主要な機能に進化しました。

さあ、効果を直接確かめてみましょう!

まず第一に、驚くべきテキストレンダリング機能があります。

黒板に書かれたチョークの文字を見てください。

Go Big or Go Home(成功か死か)、これは本当に殺人的だ〜

道路標識やバス標識のネオン効果:

また、「Good Night」という文字も、ステッチが見えるほどしっかりと刺繍されています。

作品が公開されるやいなや、ネットユーザーたちは「とても精密だ」と叫んだ。

「中国語もアレンジしよう」という人もいたほどです。

第二に、マルチトピックプロンプト機能が最大限に活用されます。

どういう意味ですか?一度に好きなだけ多くの「要素」を手がかりに詰め込むことができます。安定した拡散 3: 1 つでも見逃すと、負けになります。

下の写真をよく見てください。「宇宙飛行士」、「チュチュを着た豚」、「ピンクの傘」、「シルクハットをかぶったコマドリ」、そして隅に「Stable Diffusion」という文字があります (透かしではありません)。

この機能により、作品を好きなだけ豊かにすることができます。

ついに画質が新たなレベルに進化しました。

上の写真を見ただけでショックを受けませんか? !

さまざまな超鮮明なクローズアップに関しては、彼にとってはそれが簡単です。

興奮していますか?公式キューリストが公開され、誰でも公式ウェブサイトにアクセスして応募できるようになりました。

さて、最近 AI 界隈がかなり活発になっていると言わざるを得ません。

一部のネットユーザーは「私のパソコンはもう耐えられない…」と率直にコメントした。

Stable Diffusion 3 が登場しました!

新しい Stable Diffusion はとても優れているので、もう少し紹介します。

もちろん、すべての写真はStabilityAIメディアの責任者などの公式ソースからのものです。

テキスト効果は最も目を引くものであり、すべてのフォームを非常に明確かつ適切に表示できると言えます。

上の写真を見ると、「学術界におけるミッドジャーニーの恥ずかしい姿:生物学論文のランダムなイラスト」を思い出さずにはいられません。SD3 を使えば、非常にプロフェッショナルな学術的なイラストを作成できるのでしょうか?

これらに加えて、SD3 の「アルコール インク ペインティング」も非常にユニークです。

アニメスタイル:

ここでも、クリアテキストを追加できます。

申請するには列に並ぶ必要があるため、誰もが実際に試験を受けて状況を把握することは困難です。

しかし、賢いネットユーザーの中には、すでに同じプロンプトワードをMidjourney(v 6.0)に入力している人もいます。

たとえば、「赤いリンゴと黒板の言葉」の冒頭の写真(プロンプト:教室のテーブルの上に赤いリンゴが置かれた映画のような写真、黒板にはチョークで「大胆に挑戦するか、家に帰るか」という言葉が書かれている)

Midjourney による最終結果は次のとおりです。

この比較から、違いは明らかであると言えます。テキストのスペル、品質、色の調整などの点で、SD3 が優れています。

技術面では、現在、モデルの選択可能なパラメータの範囲は 800M から 8B までです。

詳細な技術レポートはまだ発表されていないが、関係者は拡散変圧器アーキテクチャとフローマッチングを主に組み合わせていることを明らかにした。

前者は実はSoraと同じもので、添付の技術論文は1922年にWilliam PeeblesとXie Sainingが共著したDiTです。

DiTはTransformerと拡散モデルを初めて組み合わせ、関連論文がICCV 2023で口頭発表として採択されました。

この研究では、研究者らは潜在拡散モデルをトレーニングし、一般的に使用されている U-Net バックボーン ネットワークを潜在パッチで動作するトランスフォーマーに置き換えました。彼らは、フォワードパスの複雑性を GFLOP 単位で測定することにより、Diffused Transformer (DiT) のスケーラビリティを分析しました。

後者のフローマッチングも2022年から行われ、Meta AIとワイツマン科学研究所の科学者によって完了しました。

彼らは、連続正規化フロー (CNF) に基づく生成モデルの新しいパラダイムと、固定条件付き確率パスの回帰ベクトル場に基づくシミュレーション不要の CNF アプローチであるフロー マッチングの概念を提案しました。結果は、拡散パスを使用したフローマッチングを使用してトレーニングされたモデルがより堅牢で安定していることを示しています。

しかし、最近のビデオ生成の大きな進歩を見て、一部のネットユーザーは次のようにも言っています。

どう思いますか?

もう一つ

さらに、ちょうど前日には、同社のビデオ製品「Stable Video」がパブリックベータ版として正式に公開されました。

SVD1.1 (Stable Video Diffusion 1.1) に基づいており、誰でも利用できます。

主にテキスト生成ビデオと画像生成ビデオの 2 つの機能をサポートしています。

参考リンク:
[1] https://stability.ai/news/stable-diffusion-3.

[2] https://arxiv.org/abs/2212.09748.
[3] https://arxiv.org/abs/2210.02747.
[4]https://twitter.com/pabloaumente/status/1760678508173660543.

<<: 

>>:  Wi-Fi の AI がワイヤレス接続をどのように形作るか

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

デジタルマーケティングにおけるAI革命

ほんの数年前までは、マーケティングに特化した AI エンジンがマーケティングの未来につながると信じて...

IBMは今後5年間で全人類に大きな影響を与える5つの主要な技術革新を発表

海外メディアの報道によると、IBMは3月19日に「Five-for-Five」レポートを発表し、世界...

...

自動運転車の未来に関するレポート:乗用車の95%が消滅し、7兆ドルの旅行市場に4つの大きなチャンスがある

[[199334]]自動運転車は20年以内に世界経済を劇的に変え、保険、メディア、セキュリティ、物流...

...

Baichuan Intelligence が数千億のパラメータを持つ大規模モデルをリリース、その中国の能力は GPT-4 を上回る!

制作:51CTO テクノロジースタック(WeChat ID:blog) 「今年中にChatGPTのレ...

機械学習を通じて実際のビジネス価値を掘り出すにはどうすればよいでしょうか?

運用効率の向上から継続的なイノベーションの実現まで、機械学習はビジネス開発に不可欠なものとなっていま...

世界を驚かせたNASAの火星無人機はどのように設計されたのか?

すべてがうまくいけば、インジェニュイティは火星上空を飛行する最初の航空機となる。 「インジェニュイテ...

...

...

人工知能技術は、ビルインターホン業界の発展における主流技術の一つとなっている。

現在、人工知能、ビッグデータ、顔認識技術、クラウドコンピューティングなどの新技術が急速に発展し、産業...

ビジネスにおける人工知能のリスクと限界

ビジネスにおいては、人工知能のリスクと限界を考慮する必要があります。 AI のリスクと限界には、プラ...

IDSにおける機械学習アルゴリズムの応用

[[267184]] [51CTO.com クイック翻訳] 近年の機械学習技術の急速な発展により、ネ...

...

...