特大サイズのStable Diffusionが無料で付いてきます！文勝図の最強オープンモデル、プロンプトワードもシンプルに

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

安定拡散の最強バージョンが登場！

たった今、 SDXL 1.0 が正式にリリースされ、オンラインで無料で試すことができます。

効果の面では、本物と見分けがつかないほどリアルな超大作であるかどうか：

ビールを飲む超リアルなパンダ：

やはりサイバーパンク漫画ですね、どちらもとても素敵ですね〜

Stability AIは、SDXL 1.0はより鮮やかで正確な色を生成し、コントラスト、光と影を強化し、 1メガピクセルの画像（1024×1024）を生成できると述べた。

また、生成された画像を Web ページ上で直接後編集することもサポートしています。

（ミッドジャーニーやファイアフライと競合しているような気がします）

ネットユーザーは試すのが待ちきれない〜

基本的な Stable Diffusion と比較して、SDXL 1.0 はより正確で現実的な結果を生成します。

また、プロンプトの言葉も以前よりも簡単なものになる可能性があると当局者は述べた。

これは、SDXL 1.0 の基本モデルパラメータの数が35 億に達し、理解能力が強化されたためです。

Stable Diffusion の基本バージョンと比較すると、パラメータの数はわずか 10 億程度です。

その結果、SDXL 1.0 は現在利用可能な最大のオープンイメージモデルの 1 つになりました。関係者は、これが世界最高のオープンイメージモデルだと直接語った。。

では早速始めましょう〜

青と白の磁器にムスクをプリント

SDXL 1.0 は非常に使いやすいです。プロンプトに入力して、スタイル、サイズパラメータなどを選択するだけです。

デフォルトでは、一度に 4 枚の画像が出力されます。満足できない場合は、下の「プラス記号」をクリックして描画を続行できます。

公式紹介によれば、SDXL 1.0 に傑作を生成するよう依頼する際に、「傑作」などのプロンプト語を追加する必要がなくなったとのことです。

日本のアニメ風の画像を生成します。このスタイルに非常によく適合し、光と影の扱いがより自然になります。

1990 年代のアニメの低解像度のスクリーンショット、夜の道を歩くカップル

それとも風景写真でしょうか?本物と間違われることもあります。

マスク氏を中国の中庭に立たせて、空を見上げさせても...

古代中国の宮殿にいるイーロン・マスク

それともAppleを買収するのか？

WWDC では、彼は新しい iPhone を掲げて人々に見せ、記者やファン (doge) に囲まれました。

イーロン・マスクがWWDCで新型iPhoneを発表

こういった昔のMa's Onion Newsに加えて、絵画風の作品もいいですね。

左は斉白石の水墨画風、右は漫画風です。

左：スピーチをするイーロン・マスク、水墨画、斉白石風
右：イーロン・マスクのコミック

絵付けに加え、老媽を元青白磁に描くこともできます。

元朝の青白磁の形をしたイーロン・マスク

上記の「Old Ma's Stories」で使用されているプロンプトは比較的単純です。

しかし、簡単なプロンプトワードのため、効果は悪くなく、これは公式声明でも確認されています。

しかし、もっと複雑で洗練されたプロンプトを使用した場合、どのようになるかを確認したいと思いませんか?

私たちは、ソビエト連邦でメカニックとして働いていたラオ・マーの、Midjourney が作成した珍しい写真を見つけ、それを再び MJ に入力してプロンプトを生成しました。

MJ は SDXL のテストに使用する次のプロンプトを生成します。

イーロン・マスク（ここではMJが男性を生成）が作業室に立っています。産業機械の美学のスタイル、ドイツ工作連盟、均一に演出された画像、ソビエト、明るい藍と暗い青銅、新しいアメリカのカラー写真、詳細な顔の特徴

スタイルはまさに私たちが期待していた通りで、細部もかなり良いです。

次は、この投稿の最後にもう 1 つの複雑なプロンプト図を示します。これも MJ が以前の作業に基づいて生成し、SDXL に入力したものです。

イーロン・マスクがピーター・コールソン風に箸で食べ物を食べる、クロスプロセス/加工済み、ピンホール写真、ハーブ・トリンプ、ジェームス・ティソ、トランスアヴァンガーディア、スポット測光

左がSDXLさんの作品、右がMJさんのオリジナルです。見比べてみてください。

プロンプトワードは中国語もサポートしていますが、返される結果は中国語風になる傾向があり、精度にも影響が出る可能性があります。

例えば、「海辺の虎」と入力すると、意外にも中国風の女の子が出てきたりします。

皆さんもその効果を目にしたと思いますが、SDXL で画像を生成する速度はどのくらいでしょうか?

無料ユーザーの場合、時間は主にキューで費やされますが、待ち時間はそれほど長くありません。

5.5 秒で、キューは 160 から 99 に減少しました。

SDXL は画像の生成に加えて、多くの後編集機能も提供します。

具体的には、背景除去、ディテール処理、画像拡大などが含まれます。

これらの機能は、SDXL が配置されている Clipdrop プラットフォームですでに利用可能であり、SDXL は生成された画像をワンクリックで対応するモジュールに転送できます。

ここでは背景除去機能を選択してデモンストレーションを行っており、エッジの細部に欠陥がほとんどないことがわかります。

現在、SDXL の無料使用割り当てはまだ比較的高いです。ログイン後、各アカウントは 1 日あたり 400 枚のカードを生成できます (キューに入れる必要があります)。

月額料金は 9 ドル/月、年間料金は 7 ドル/月（約 50 人民元）で、これには 1 日あたり 1,500 SDXL の割り当てが含まれており、キューに並ぶ必要はありません。

ただし、地域によって価格は異なるようです。たとえば、アルゼンチンの年間支払額は月額742ペソ（約19.4元または2.7米ドル）です。

さらに、有料版は実際には Clipdrop プラットフォームの Pro サブスクリプションであるため、プラットフォームの他の機能も含まれています。

Pro アカウントに加えて、開発者向けの API バージョンも用意されています (Stability AI や Amazon などのプラットフォームにアクセスできます)。

オープンイメージモデルの「最大のカップ」

Stability AI は最新のブログで、SDXL 1.0 のより詳細な技術的情報を紹介しました。

まず、このモデルは規模とアーキテクチャにおいて新たな進歩を遂げました。

ベースモデル＋リファイナーモデルを革新的に採用しています。

2 つのパラメータサイズはそれぞれ35 億と66 億です。

これにより、SDXL 1.0 は現在最大のオープンイメージモデルの 1 つになります。

Stability AIの創設者であるEmad Mostaque氏は、パラメータの数を増やすことでモデルがより多くの概念を理解し、より深い事柄を教えることができるようになると述べた。

同時に、RLHF は SDXL バージョン 0.9 で強化されました。

そのため、SDXL 1.0 では短いプロンプトワードがサポートされ、Red Square と Red Square を区別できるようになりました。

具体的な合成プロセスでは、最初のステップで基本モデルがノイズの多い潜在変数を生成し、その後、洗練されたモデルによってノイズが除去されます。

基本モデルはスタンドアロンモジュールとしても使用できます。

これら 2 つのモデルを組み合わせると、コンピューティングリソースを消費することなく、より高品質の画像を生成できます。

公式発表によると、SDXL 1.0 は 8GB VRAM を搭載したコンシューマーグレードの GPU またはクラウドで実行できます。

さらに、SDXL 1.0 では微調整も改善され、カスタム LoRA またはチェックポイントを生成できるようになりました。

Stability AI チームは現在、SDXL 専用の T2I/ControlNet を使用して、特定のタスクに使用できる新世代の構造、スタイル、および組み合わせコントロールも構築しています。

ただし、これらの機能はまだベータテスト段階ですので、今後の正式アップデートにご注目ください。

要約すると、テキストマップの作成は段階的な反復プロセスであり、SDXL 1.0 の目標はこのプロセスを簡素化することです。

モスタク氏は、モデルを素早く微調整するために必要なのは、現在では5～10枚の写真だけだと語った。

また、ユーザーからのフィードバックからも、Stable Diffusion と比較して、SDXL 1.0 の方がすべての人を満足させることができることがわかります。

実際、Stability AI は今年 4 月から SDXL の最も早いベータ版をリリースしています。

6月から社内テストが始まり、しばらく前にバージョン0.9がリリースされました。その際に、オープンバージョンである最新バージョン1.0が7月にリリースされると発表されました。関連するコードウェイトは GitHub で公開されています。

さらに、Stability AI 機械学習の責任者は、SDXL 0.9 と比較してバージョン 1.0 では計算能力の需要が減っていると述べました。

興味があればぜひ行ってみてください〜

トライアル入場: https://clipdrop.co/stable-diffusion

GitHub: https://github.com/Stability-AI/generative-models

<<: Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。

>>: 自律走行の新しい方法がネイチャーの表紙に登場：夜を昼のように明るくする、浙江大学の博士

特大サイズのStable Diffusionが無料で付いてきます！文勝図の最強オープンモデル、プロンプトワードもシンプルに

青と白の磁器にムスクをプリント

オープンイメージモデルの「最大のカップ」

量子コンピューティングと人工知能の関係は何ですか?

人工知能の長所と短所をどのように見ていますか?

マイクロソフトは、重大なセキュリティ脆弱性を97%の精度で特定できるAIシステムを開発した。

AIが米国の8年生の理科テストに高得点で合格。常識や推論の問題を解くことができ、同じ舞台でAIと競争する準備が整った。

企業がAIをビジネスに統合する際の課題を克服する方法

ドローンは「緊急産業」がインテリジェンスの時代に移行するのに大いに役立つ

人工知能とビッグデータの時代において、一般の人々はどうやってお金を稼ぐのでしょうか?

顔認識はより便利で安全になるべきだ

推薦する

初心者向けのオープンソース機械学習フレームワーク、Scikit-learnについて

予測分析: 組織内の時間とデータの再考

OpenAIがChatGPTの「カスタム指示」機能を全ユーザーに公開

2022 年に予測されるロボット技術のトレンドトップ 10

メリット、PyTorch中国語版の公式チュートリアルはこちら

旅の途中を突破せよ！ OpenAIが秘密裏に新プラットフォームをテスト

Microsoft は、バッテリー情報の表示、ごみ箱の空化、省電力モードのオンなど、Windows 11 の完全な AI スキルをリストしています。

弱電産業におけるAIの応用動向

このAIは顔の筋肉の信号を捉え、嘘をついているかどうかを73%の精度で判定します。しかし、テスト結果を信頼できますか?

AIは賢くなり、これらの新しい技術は流行の防止と生産の再開に役立つだろう

NLP 70 年!スタンフォード大学のマニング教授が長文の記事を執筆：「基本モデルは10年でAGIになることができるか？」