特大サイズのStable Diffusionが無料で付いてきます!文勝図の最強オープンモデル、プロンプトワードもシンプルに

特大サイズのStable Diffusionが無料で付いてきます!文勝図の最強オープンモデル、プロンプトワードもシンプルに

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

安定拡散の最強バージョンが登場!

たった今、 SDXL 1.0 が正式にリリースされ、オンラインで無料で試すことができます。

効果の面では、本物と見分けがつかないほどリアルな超大作であるかどうか:

ビールを飲む超リアルなパンダ:

やはりサイバーパンク漫画ですね、どちらもとても素敵ですね〜

Stability AIは、SDXL 1.0はより鮮やかで正確な色を生成し、コントラスト、光と影を強化し、 1メガピクセルの画像(1024×1024)を生成できると述べた。

また、生成された画像を Web ページ上で直接後編集することもサポートしています。

(ミッドジャーニーやファイアフライと競合しているような気がします)

ネットユーザーは試すのが待ちきれない〜

基本的な Stable Diffusion と比較して、SDXL 1.0 はより正確で現実的な結果を生成します。

また、プロンプトの言葉も以前よりも簡単なものになる可能性があると当局者は述べた。

これは、SDXL 1.0 の基本モデルパラメータの数が35 億に達し、理解能力が強化されたためです。

Stable Diffusion の基本バージョンと比較すると、パラメータの数はわずか 10 億程度です。

その結果、SDXL 1.0 は現在利用可能な最大のオープン イメージ モデルの 1 つになりました。関係者は、これが世界最高のオープンイメージモデルだと直接語った。

では早速始めましょう〜

青と白の磁器にムスクをプリント

SDXL 1.0 は非常に使いやすいです。プロンプトに入力して、スタイル、サイズ パラメータなどを選択するだけです。


デフォルトでは、一度に 4 枚の画像が出力されます。満足できない場合は、下の「プラス記号」をクリックして描画を続行できます。

公式紹介によれば、SDXL 1.0 に傑作を生成するよう依頼する際に、「傑作」などのプロンプト語を追加する必要がなくなったとのことです。

日本のアニメ風の画像を生成します。このスタイルに非常によく適合し、光と影の扱いがより自然になります。

1990 年代のアニメの低解像度のスクリーンショット、夜の道を歩くカップル

それとも風景写真でしょうか?本物と間違われることもあります。

マスク氏を中国の中庭に立たせて、空を見上げさせても...

古代中国の宮殿にいるイーロン・マスク

それともAppleを買収するのか?

WWDC では、彼は新しい iPhone を掲げて人々に見せ、記者やファン (doge) に囲まれました。

イーロン・マスクがWWDCで新型iPhoneを発表

こういった昔のMa's Onion Newsに加えて、絵画風の作品もいいですね。

左は斉白石の水墨画風、右は漫画風です。

左:スピーチをするイーロン・マスク、水墨画、斉白石風
右:イーロン・マスクのコミック

絵付けに加え、老媽を元青白磁に描くこともできます。

元朝の青白磁の形をしたイーロン・マスク

上記の「Old Ma's Stories」で使用されているプロンプトは比較的単純です。

しかし、簡単なプロンプトワードのため、効果は悪くなく、これは公式声明でも確認されています。

しかし、もっと複雑で洗練されたプロンプトを使用した場合、どのようになるかを確認したいと思いませんか?

私たちは、ソビエト連邦でメカニックとして働いていたラオ・マーの、Midjourney が作成した珍しい写真を見つけ、それを再び MJ に入力してプロンプトを生成しました。

MJ は SDXL のテストに使用する次のプロンプトを生成します。

イーロン・マスク(ここではMJが男性を生成)が作業室に立っています。産業機械の美学のスタイル、ドイツ工作連盟、均一に演出された画像、ソビエト、明るい藍と暗い青銅、新しいアメリカのカラー写真、詳細な顔の特徴

スタイルはまさに私たちが期待していた通りで、細部もかなり良いです。

次は、この投稿の最後にもう 1 つの複雑なプロンプト図を示します。これも MJ が以前の作業に基づいて生成し、SDXL に入力したものです。

イーロン・マスクがピーター・コールソン風に箸で食べ物を食べる、クロスプロセス/加工済み、ピンホール写真、ハーブ・トリンプ、ジェームス・ティソ、トランスアヴァンガーディア、スポット測光

左がSDXLさんの作品、右がMJさんのオリジナルです。見比べてみてください。

プロンプトワードは中国語もサポートしていますが、返される結果は中国語風になる傾向があり、精度にも影響が出る可能性があります。

例えば、「海辺の虎」と入力すると、意外にも中国風の女の子が出てきたりします。

皆さんもその効果を目にしたと思いますが、SDXL で画像を生成する速度はどのくらいでしょうか?

無料ユーザーの場合、時間は主にキューで費やされますが、待ち時間はそれほど長くありません。

5.5 秒で、キューは 160 から 99 に減少しました。

SDXL は画像の生成に加えて、多くの後編集機能も提供します。

具体的には、背景除去、ディテール処理、画像拡大などが含まれます。

これらの機能は、SDXL が配置されている Clipdrop プラットフォームですでに利用可能であり、SDXL は生成された画像をワンクリックで対応するモジュールに転送できます。

ここでは背景除去機能を選択してデモンストレーションを行っており、エッジの細部に欠陥がほとんどないことがわかります。

現在、SDXL の無料使用割り当てはまだ比較的高いです。ログイン後、各アカウントは 1 日あたり 400 枚のカードを生成できます (キューに入れる必要があります)。

月額料金は 9 ドル/月、年間料金は 7 ドル/月(約 50 人民元)で、これには 1 日あたり 1,500 SDXL の割り当てが含まれており、キューに並ぶ必要はありません。

ただし、地域によって価格は異なるようです。たとえば、アルゼンチンの年間支払額は月額742ペソ(約19.4元または2.7米ドル)です。

さらに、有料版は実際には Clipdrop プラットフォームの Pro サブスクリプションであるため、プラットフォームの他の機能も含まれています。

Pro アカウントに加えて、開発者向けの API バージョンも用意されています (Stability AI や Amazon などのプラットフォームにアクセスできます)。

オープンイメージモデルの「最大のカップ」

Stability AI は最新のブログで、SDXL 1.0 のより詳細な技術的情報を紹介しました。

まず、このモデルは規模とアーキテクチャにおいて新たな進歩を遂げました。

ベースモデル+リファイナーモデルを革新的に採用しています。

2 つのパラメータ サイズはそれぞれ35 億66 億です。

これにより、SDXL 1.0 は現在最大のオープン イメージ モデルの 1 つになります。

Stability AIの創設者であるEmad Mostaque氏は、パラメータの数を増やすことでモデルがより多くの概念を理解し、より深い事柄を教えることができるようになると述べた。

同時に、RLHF は SDXL バージョン 0.9 で強化されました。

そのため、SDXL 1.0 では短いプロンプト ワードがサポートされ、Red Square と Red Square を区別できるようになりました。

具体的な合成プロセスでは、最初のステップで基本モデルがノイズの多い潜在変数を生成し、その後、洗練されたモデルによってノイズが除去されます。

基本モデルはスタンドアロン モジュールとしても使用できます。

これら 2 つのモデルを組み合わせると、コンピューティング リソースを消費することなく、より高品質の画像を生成できます。

公式発表によると、SDXL 1.0 は 8GB VRAM を搭載したコンシューマーグレードの GPU またはクラウドで実行できます。

さらに、SDXL 1.0 では微調整も改善され、カスタム LoRA またはチェックポイントを生成できるようになりました。

Stability AI チームは現在、SDXL 専用の T2I/ControlNet を使用して、特定のタスクに使用できる新世代の構造、スタイル、および組み合わせコントロールも構築しています。

ただし、これらの機能はまだベータテスト段階ですので、今後の正式アップデートにご注目ください。

要約すると、テキスト マップの作成は段階的な反復プロセスであり、SDXL 1.0 の目標はこのプロセスを簡素化することです。

モスタク氏は、モデルを素早く微調整するために必要なのは、現在では5~10枚の写真だけだと語った。

また、ユーザーからのフィードバックからも、Stable Diffusion と比較して、SDXL 1.0 の方がすべての人を満足させることができることがわかります。

実際、Stability AI は今年 4 月から SDXL の最も早いベータ版をリリースしています。

6月から社内テストが始まり、しばらく前にバージョン0.9がリリースされました。その際に、オープンバージョンである最新バージョン1.0が7月にリリースされると発表されました。関連するコードウェイトは GitHub で公開されています。

さらに、Stability AI 機械学習の責任者は、SDXL 0.9 と比較してバージョン 1.0 では計算能力の需要が減っていると述べました。

興味があればぜひ行ってみてください〜

トライアル入場: https://clipdrop.co/stable-diffusion

GitHub: https://github.com/Stability-AI/generative-models

<<:  Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。

>>:  自律走行の新しい方法がネイチャーの表紙に登場:夜を昼のように明るくする、浙江大学の博士

ブログ    

推薦する

智恵さんはブドウを縫うことができるロボットアームを自作した。費用は1万元。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人工知能は医療の未来をどう変えるのか

この病気の症状の多くは心配なものであり、めまいや不安感から始まることもあります。心臓のあたりがバクバ...

...

ポーランドのラム酒製造会社ディクタドールが世界初のAIヒューマノイドCEOを任命

AIによって仕事が奪われるのではないかと心配する人が多い中、ある企業が世界初のAIヒューマノイドロボ...

南洋理工大学と香港中文大学の Talk-to-Edit: 対話により非常にきめ細かな顔の編集が可能に

[[425172]]南洋理工大学と香港中文大学の研究者らは、ユーザーとシステム間の対話を通じてきめ...

アルゴリズムを視覚化するオープンソース プロジェクトをお勧めします。

誰もが知っているように、アルゴリズムを学ぶことは、コンピューターサイエンスの中で最も退屈でわかりにく...

生態学的な閉ループを作り、RV を運転して、愛する人を楽しい景色の中に連れて行きましょう。

夏休みがやってきました。旅行が必要です。彼/彼女にサプライズをあげたいですか?通常、私たちの旅行は自...

MetaはGPT-3を模倣し、OpenAIを「裏切り」、完全なモデルの重みとトレーニングコードが完全に公開される

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

PyTorch でシンプルな分類器を実装する

[[328922]]私自身の PyTorch の学習過程を思い出すと、最初はいろいろな情報を見つけ、...

...

...

AIチップと人工知能産業は密接に連携している

[[355495]]人類社会は情報化から知能化へと移行しています。人工知能は知能化を実現するための重...

Google が 13GB の 3D スキャン データセットを公開: 17 のカテゴリ、1,030 個の家庭用品

近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられて...