特大サイズのStable Diffusionが無料で付いてきます!文勝図の最強オープンモデル、プロンプトワードもシンプルに

特大サイズのStable Diffusionが無料で付いてきます!文勝図の最強オープンモデル、プロンプトワードもシンプルに

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

安定拡散の最強バージョンが登場!

たった今、 SDXL 1.0 が正式にリリースされ、オンラインで無料で試すことができます。

効果の面では、本物と見分けがつかないほどリアルな超大作であるかどうか:

ビールを飲む超リアルなパンダ:

やはりサイバーパンク漫画ですね、どちらもとても素敵ですね〜

Stability AIは、SDXL 1.0はより鮮やかで正確な色を生成し、コントラスト、光と影を強化し、 1メガピクセルの画像(1024×1024)を生成できると述べた。

また、生成された画像を Web ページ上で直接後編集することもサポートしています。

(ミッドジャーニーやファイアフライと競合しているような気がします)

ネットユーザーは試すのが待ちきれない〜

基本的な Stable Diffusion と比較して、SDXL 1.0 はより正確で現実的な結果を生成します。

また、プロンプトの言葉も以前よりも簡単なものになる可能性があると当局者は述べた。

これは、SDXL 1.0 の基本モデルパラメータの数が35 億に達し、理解能力が強化されたためです。

Stable Diffusion の基本バージョンと比較すると、パラメータの数はわずか 10 億程度です。

その結果、SDXL 1.0 は現在利用可能な最大のオープン イメージ モデルの 1 つになりました。関係者は、これが世界最高のオープンイメージモデルだと直接語った。

では早速始めましょう〜

青と白の磁器にムスクをプリント

SDXL 1.0 は非常に使いやすいです。プロンプトに入力して、スタイル、サイズ パラメータなどを選択するだけです。


デフォルトでは、一度に 4 枚の画像が出力されます。満足できない場合は、下の「プラス記号」をクリックして描画を続行できます。

公式紹介によれば、SDXL 1.0 に傑作を生成するよう依頼する際に、「傑作」などのプロンプト語を追加する必要がなくなったとのことです。

日本のアニメ風の画像を生成します。このスタイルに非常によく適合し、光と影の扱いがより自然になります。

1990 年代のアニメの低解像度のスクリーンショット、夜の道を歩くカップル

それとも風景写真でしょうか?本物と間違われることもあります。

マスク氏を中国の中庭に立たせて、空を見上げさせても...

古代中国の宮殿にいるイーロン・マスク

それともAppleを買収するのか?

WWDC では、彼は新しい iPhone を掲げて人々に見せ、記者やファン (doge) に囲まれました。

イーロン・マスクがWWDCで新型iPhoneを発表

こういった昔のMa's Onion Newsに加えて、絵画風の作品もいいですね。

左は斉白石の水墨画風、右は漫画風です。

左:スピーチをするイーロン・マスク、水墨画、斉白石風
右:イーロン・マスクのコミック

絵付けに加え、老媽を元青白磁に描くこともできます。

元朝の青白磁の形をしたイーロン・マスク

上記の「Old Ma's Stories」で使用されているプロンプトは比較的単純です。

しかし、簡単なプロンプトワードのため、効果は悪くなく、これは公式声明でも確認されています。

しかし、もっと複雑で洗練されたプロンプトを使用した場合、どのようになるかを確認したいと思いませんか?

私たちは、ソビエト連邦でメカニックとして働いていたラオ・マーの、Midjourney が作成した珍しい写真を見つけ、それを再び MJ に入力してプロンプトを生成しました。

MJ は SDXL のテストに使用する次のプロンプトを生成します。

イーロン・マスク(ここではMJが男性を生成)が作業室に立っています。産業機械の美学のスタイル、ドイツ工作連盟、均一に演出された画像、ソビエト、明るい藍と暗い青銅、新しいアメリカのカラー写真、詳細な顔の特徴

スタイルはまさに私たちが期待していた通りで、細部もかなり良いです。

次は、この投稿の最後にもう 1 つの複雑なプロンプト図を示します。これも MJ が以前の作業に基づいて生成し、SDXL に入力したものです。

イーロン・マスクがピーター・コールソン風に箸で食べ物を食べる、クロスプロセス/加工済み、ピンホール写真、ハーブ・トリンプ、ジェームス・ティソ、トランスアヴァンガーディア、スポット測光

左がSDXLさんの作品、右がMJさんのオリジナルです。見比べてみてください。

プロンプトワードは中国語もサポートしていますが、返される結果は中国語風になる傾向があり、精度にも影響が出る可能性があります。

例えば、「海辺の虎」と入力すると、意外にも中国風の女の子が出てきたりします。

皆さんもその効果を目にしたと思いますが、SDXL で画像を生成する速度はどのくらいでしょうか?

無料ユーザーの場合、時間は主にキューで費やされますが、待ち時間はそれほど長くありません。

5.5 秒で、キューは 160 から 99 に減少しました。

SDXL は画像の生成に加えて、多くの後編集機能も提供します。

具体的には、背景除去、ディテール処理、画像拡大などが含まれます。

これらの機能は、SDXL が配置されている Clipdrop プラットフォームですでに利用可能であり、SDXL は生成された画像をワンクリックで対応するモジュールに転送できます。

ここでは背景除去機能を選択してデモンストレーションを行っており、エッジの細部に欠陥がほとんどないことがわかります。

現在、SDXL の無料使用割り当てはまだ比較的高いです。ログイン後、各アカウントは 1 日あたり 400 枚のカードを生成できます (キューに入れる必要があります)。

月額料金は 9 ドル/月、年間料金は 7 ドル/月(約 50 人民元)で、これには 1 日あたり 1,500 SDXL の割り当てが含まれており、キューに並ぶ必要はありません。

ただし、地域によって価格は異なるようです。たとえば、アルゼンチンの年間支払額は月額742ペソ(約19.4元または2.7米ドル)です。

さらに、有料版は実際には Clipdrop プラットフォームの Pro サブスクリプションであるため、プラットフォームの他の機能も含まれています。

Pro アカウントに加えて、開発者向けの API バージョンも用意されています (Stability AI や Amazon などのプラットフォームにアクセスできます)。

オープンイメージモデルの「最大のカップ」

Stability AI は最新のブログで、SDXL 1.0 のより詳細な技術的情報を紹介しました。

まず、このモデルは規模とアーキテクチャにおいて新たな進歩を遂げました。

ベースモデル+リファイナーモデルを革新的に採用しています。

2 つのパラメータ サイズはそれぞれ35 億66 億です。

これにより、SDXL 1.0 は現在最大のオープン イメージ モデルの 1 つになります。

Stability AIの創設者であるEmad Mostaque氏は、パラメータの数を増やすことでモデルがより多くの概念を理解し、より深い事柄を教えることができるようになると述べた。

同時に、RLHF は SDXL バージョン 0.9 で強化されました。

そのため、SDXL 1.0 では短いプロンプト ワードがサポートされ、Red Square と Red Square を区別できるようになりました。

具体的な合成プロセスでは、最初のステップで基本モデルがノイズの多い潜在変数を生成し、その後、洗練されたモデルによってノイズが除去されます。

基本モデルはスタンドアロン モジュールとしても使用できます。

これら 2 つのモデルを組み合わせると、コンピューティング リソースを消費することなく、より高品質の画像を生成できます。

公式発表によると、SDXL 1.0 は 8GB VRAM を搭載したコンシューマーグレードの GPU またはクラウドで実行できます。

さらに、SDXL 1.0 では微調整も改善され、カスタム LoRA またはチェックポイントを生成できるようになりました。

Stability AI チームは現在、SDXL 専用の T2I/ControlNet を使用して、特定のタスクに使用できる新世代の構造、スタイル、および組み合わせコントロールも構築しています。

ただし、これらの機能はまだベータテスト段階ですので、今後の正式アップデートにご注目ください。

要約すると、テキスト マップの作成は段階的な反復プロセスであり、SDXL 1.0 の目標はこのプロセスを簡素化することです。

モスタク氏は、モデルを素早く微調整するために必要なのは、現在では5~10枚の写真だけだと語った。

また、ユーザーからのフィードバックからも、Stable Diffusion と比較して、SDXL 1.0 の方がすべての人を満足させることができることがわかります。

実際、Stability AI は今年 4 月から SDXL の最も早いベータ版をリリースしています。

6月から社内テストが始まり、しばらく前にバージョン0.9がリリースされました。その際に、オープンバージョンである最新バージョン1.0が7月にリリースされると発表されました。関連するコードウェイトは GitHub で公開されています。

さらに、Stability AI 機械学習の責任者は、SDXL 0.9 と比較してバージョン 1.0 では計算能力の需要が減っていると述べました。

興味があればぜひ行ってみてください〜

トライアル入場: https://clipdrop.co/stable-diffusion

GitHub: https://github.com/Stability-AI/generative-models

<<:  Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。

>>:  自律走行の新しい方法がネイチャーの表紙に登場:夜を昼のように明るくする、浙江大学の博士

ブログ    
ブログ    
ブログ    

推薦する

電力業界における人工知能開発の現状

今日は、人類が初めて電気を家庭や企業に供給するようになってから 140 年目の記念日です。電力産業は...

製造業におけるAI: インテリジェントロボットには次の4つの機能が必要です

インテリジェントロボットはインテリジェント製品の代表的なものです。知能ロボットには、少なくとも以下の...

GoogleのオープンソースビッグモデルGemmaは何をもたらすのか?「Made in China」のチャンスはすでに到来していることが判明

Google の珍しいオープン AI は、オープンソースのビッグモデルに何をもたらすのでしょうか? ...

情報格差を打破せよ!大規模モデル向けの驚異的な 3D 視覚化ツールです。

最近、ニュージーランド出身のブレンダン・バイクロフトという男がテクノロジー界で大流行を巻き起こしてい...

李開復、胡宇、張亜琴の GMIC 2018 対談: AI 戦略と AI 人材育成における中国と米国の違いは何ですか?

[[227402]]人工知能が急成長を遂げている現在、AI人材の不足は中国だけでなく、世界全体が直...

機械学習のアルゴリズム(2) - サポートベクターマシン(SVM)の基礎

SVM に関する論文や書籍は数多くあります。Qiang 兄弟の言葉を引用すると、「SVM は応用数学...

URLベースのクライアント監視と分析における機械学習の最適化と実践

従来のクライアント監視および分析シナリオでは、特定の URL に基づく統計分析方法が使用されます。た...

ChatGPT vs AutoGPT: トップ言語モデルの比較

ChatGPTを理解するOpenAI によって開発された ChatGPT は、受信した入力に基づいて...

...

【コレクション】貢献度が最も高い GitHub コレクションとディープラーニング フレームワーク 16 選

ディープラーニングは、データの経験的学習に基づく機械学習手法であり、近年発展し、人気が高まっています...

12以上の学習リソースを検討した後、このAI学習パスをまとめました。

[[276295]]タグ: AI、機械学習、ディープラーニング一言でまとめると、AI の分野に参入...

Appleは以前から独自のChatGPT AIツールを開発してきた。

何年もの間、自社のソフトウェアとデバイスすべてに機械学習を統合してきたAppleは、WWDCでは自社...

TigerGraph がトップ 10 のグラフ データベース アルゴリズム ライブラリをオープンソース化

最近、世界最速のエンタープライズ レベルのグラフ分析プラットフォームである TigerGraph は...

130 億個のパラメータを持つモデルをトレーニングするには GPU がいくつ必要ですか?マイクロソフト: 1つで十分

今日のモデルには数千億、あるいは数兆ものパラメータがあります。一般の人がモデルをトレーニングできない...

さまざまな機械学習アルゴリズムの選択の考え方を説明する記事

序文これは Zhihu に関する質問です: k 近傍法、ベイズ法、決定木、SVM、ロジスティック回帰...