突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

1年以上の開発期間を経て、前世代に比べて3つの主要な機能に進化しました。

さあ、効果を直接確かめてみましょう!

まず第一に、驚くべきテキストレンダリング機能があります。

黒板に書かれたチョークの文字を見てください。

Go Big or Go Home(成功か死か)、これは本当に殺人的だ〜

道路標識やバス標識のネオン効果:

また、「Good Night」という文字も、ステッチが見えるほどしっかりと刺繍されています。

作品が公開されるやいなや、ネットユーザーたちは「とても精密だ」と叫んだ。

「中国語もアレンジしよう」という人もいたほどです。

第二に、マルチトピックプロンプト機能が最大限に活用されます。

どういう意味ですか?一度に好きなだけ多くの「要素」を手がかりに詰め込むことができます。安定した拡散 3: 1 つでも見逃すと、負けになります。

下の写真をよく見てください。「宇宙飛行士」、「チュチュを着た豚」、「ピンクの傘」、「シルクハットをかぶったコマドリ」、そして隅に「Stable Diffusion」という文字があります (透かしではありません)。

この機能により、作品を好きなだけ豊かにすることができます。

ついに画質が新たなレベルに進化しました。

上の写真を見ただけでショックを受けませんか? !

さまざまな超鮮明なクローズアップに関しては、彼にとってはそれが簡単です。

興奮していますか?公式キューリストが公開され、誰でも公式ウェブサイトにアクセスして応募できるようになりました。

さて、最近 AI 界隈がかなり活発になっていると言わざるを得ません。

一部のネットユーザーは「私のパソコンはもう耐えられない…」と率直にコメントした。

Stable Diffusion 3 が登場しました!

新しい Stable Diffusion はとても優れているので、もう少し紹介します。

もちろん、すべての写真はStabilityAIメディアの責任者などの公式ソースからのものです。

テキスト効果は最も目を引くものであり、すべてのフォームを非常に明確かつ適切に表示できると言えます。

上の写真を見ると、「学術界におけるミッドジャーニーの恥ずかしい姿:生物学論文のランダムなイラスト」を思い出さずにはいられません。SD3 を使えば、非常にプロフェッショナルな学術的なイラストを作成できるのでしょうか?

これらに加えて、SD3 の「アルコール インク ペインティング」も非常にユニークです。

アニメスタイル:

ここでも、クリアテキストを追加できます。

申請するには列に並ぶ必要があるため、誰もが実際に試験を受けて状況を把握することは困難です。

しかし、賢いネットユーザーの中には、すでに同じプロンプトワードをMidjourney(v 6.0)に入力している人もいます。

たとえば、「赤いリンゴと黒板の言葉」の冒頭の写真(プロンプト:教室のテーブルの上に赤いリンゴが置かれた映画のような写真、黒板にはチョークで「大胆に挑戦するか、家に帰るか」という言葉が書かれている)

Midjourney による最終結果は次のとおりです。

この比較から、違いは明らかであると言えます。テキストのスペル、品質、色の調整などの点で、SD3 が優れています。

技術面では、現在、モデルの選択可能なパラメータの範囲は 800M から 8B までです。

詳細な技術レポートはまだ発表されていないが、関係者は拡散変圧器アーキテクチャとフローマッチングを主に組み合わせていることを明らかにした。

前者は実はSoraと同じもので、添付の技術論文は1922年にWilliam PeeblesとXie Sainingが共著したDiTです。

DiTはTransformerと拡散モデルを初めて組み合わせ、関連論文がICCV 2023で口頭発表として採択されました。

この研究では、研究者らは潜在拡散モデルをトレーニングし、一般的に使用されている U-Net バックボーン ネットワークを潜在パッチで動作するトランスフォーマーに置き換えました。彼らは、フォワードパスの複雑性を GFLOP 単位で測定することにより、Diffused Transformer (DiT) のスケーラビリティを分析しました。

後者のフローマッチングも2022年から行われ、Meta AIとワイツマン科学研究所の科学者によって完了しました。

彼らは、連続正規化フロー (CNF) に基づく生成モデルの新しいパラダイムと、固定条件付き確率パスの回帰ベクトル場に基づくシミュレーション不要の CNF アプローチであるフロー マッチングの概念を提案しました。結果は、拡散パスを使用したフローマッチングを使用してトレーニングされたモデルがより堅牢で安定していることを示しています。

しかし、最近のビデオ生成の大きな進歩を見て、一部のネットユーザーは次のようにも言っています。

どう思いますか?

もう一つ

さらに、ちょうど前日には、同社のビデオ製品「Stable Video」がパブリックベータ版として正式に公開されました。

SVD1.1 (Stable Video Diffusion 1.1) に基づいており、誰でも利用できます。

主にテキスト生成ビデオと画像生成ビデオの 2 つの機能をサポートしています。

参考リンク:
[1] https://stability.ai/news/stable-diffusion-3.

[2] https://arxiv.org/abs/2212.09748.
[3] https://arxiv.org/abs/2210.02747.
[4]https://twitter.com/pabloaumente/status/1760678508173660543.

<<: 

>>:  Wi-Fi の AI がワイヤレス接続をどのように形作るか

ブログ    
ブログ    
ブログ    

推薦する

蘇寧電子商取引プラットフォームにおけるAI技術+短編動画の応用

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...

世界的な人口高齢化と労働力不足:ロボットとAIによる解決策

人工知能は近年、産業を変革する可能性を秘めていることから、幅広い注目を集めています。 AI が大きな...

2021年の中国の人工知能市場の現状と応用動向の分析人工知能は業界規模を5000億に押し上げ、幅広い応用産業を持っています

人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...

GPT ストアは来週開始され、OpenAI アプリケーションの爆発的な増加が目前に迫っています。最も完全なGPTビルダーユーザーガイドはここにあります

これから起こることは、やがて起こるでしょう! OpenAIが開発者会議で正式発表した「GPTストア」...

2019年にAI分野で何が起こったのでしょうか?

2019年は確かに忙しい年でした。人工知能に関する進歩やニュースが頻繁に報道されるにつれ、私たちの...

ファーウェイと4つの主要パートナーが共同でAscend AIの大規模モデルトレーニングおよびプッシュ統合ソリューションをリリース

Ascend人工知能産業サミットフォーラムが上海で開催されました。フォーラムでは、ビッグモデルの共同...

AI専門家が警告:GPT-3は素晴らしいが透明性に欠ける

[[342733]]アルゴリズムに人間のように書かせることは、人工知能研究機関 OpenAI が長年...

...

ディープマインドの創業者はAIの弟子を育て、「訓練」ではなく「教育」によってAIに宝探しを教えた

最近、DeepMind は強化学習の分野で新しいことを行いました。簡単に言えば、DeepMind の...

モデルを最適化する方法だけを心配する必要はありません。これは機械学習のすべてではありません。

[[263282]]機械学習分野の学生、研究者、企業の開発者は、より高い精度/AUC/mAP など...

ChatGPT パラメータが 200 億しかないとは思いませんでした。

ChatGPT の核心的な秘密が Microsoft によってこのように暴露されるとは誰も予想して...

...

...

ジョン・マカフィーの意見: 人工知能は人類を滅ぼすのか?

2017 年 3 月 9 日、ハッカー アンダーグラウンド テクノロジーの専門家であり作家でもある...

「AI+」が世界を変える!さまざまな分野における 5 つの主要な AI トレンド

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...