宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

絵を描くだけで高精細な絵画が現れます。

たとえば中世の城を描くには、ドアと道を描くだけで、美しい城が現れます。

写真

郵便受けのあるホビットの家

海の端にある灯台(追記:海中の星空のような感じです)

スタンフォード大学の研究者たちは、スケッチを絵画に変えることができるモデル、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 を提唱しました。

さらに、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 は、生成された画像を完全なスケッチに変換し、ペイントの次のステップに関する提案を提供することもできます。

それで、それは具体的にどのように機能するのでしょうか?

スケッチ、編集可能

既存のスケッチ制御画像生成方法には、ControlNet、Sketch-Guided Diffusion、DiffSketching などがあります。

既存のスケッチから画像への変換方法には大きな利点がありますが、重大な欠陥があります。それは、完成したスケッチを処理するように訓練されていることです。

ただし、典型的な Sketchup ワークフローは、進行中の反復的な作業です。

アーティストは徐々に線を追加したり削除したりして、時には基本的な構造を構築してからより細かい詳細を掘り下げたり、時にはイメージのある領域に焦点を当ててから別の領域に移動したりします。

したがって、スケッチ段階でスケッチから画像への機能を実装する必要があります。

「Sketch-a-Sketch」では、研究者らは部分的なスケッチに基づいて画像を生成する ControlNet モデルを導入しました。

ControlNet を使用すると、Sketch-a-Sketch は次のことが可能になります。

1) スケッチプロセスのさまざまな段階でスケッチに対応する画像を生成する

2) これらの画像を使用して、芸術的なプロセスを導くのに役立つスケッチの提案を作成します。

問題: 既存の方法は一部のスケッチでは機能しない

これまでの研究では、画像と完成したスケッチのペアデータセットでトレーニングが行われてきました。

部分的なスケッチからイメージを生成しようとすると、これらのメソッドはスケッチを完成したスケッチとして扱います。

したがって、スケッチの残りの部分の空白は、入力スケッチのストロークに通常対応するコンテンツが画像に含まれてはならないことを示す指標と見なされます。

たとえば、家の最初の数本の線が与えられた場合、ControlNet は線が描かれている領域外の重要な詳細を生成することができません。

これらのスケッチの線に対応する特徴が、生成された画像に表示されます。たとえば、屋根を支える柱、手すりの上部、ポーチの下部などです。

ただし、スケッチに空白のみが含まれている領域にも、主要な画像の特徴が多数存在します。

トレーニングデータ: 線をランダムに削除して作成した部分スケッチ

Photo-Sketch は、部分的に完成したスケッチとテキストの説明が付いた画像を含む、既存のデータセットとしては最大のものです。

ただし、このデータセットには次の欠点があります。

1) スケッチは1,000枚までとなります。

2) すべての画像は屋外のシーンです(多様性に欠け、一般的なテキスト条件を生成できません)。

3) 既存の絵をトレースして作成する(多くのアーティストの描画プロセスに対応しない可能性のある筆順を適用する)。

そのため、私たちは部分的なスケッチと組み合わせたキャプション付きの画像の独自のデータセットをプログラムで構築しました。

スタンフォード大学の研究者のアプローチは、1) HED を使用して画像をラスタライズされたエッジ マップに変換する、2) エッジ マップを一連のストロークにベクトル化する、3) ストロークの一部をランダムに削除するというものです。

任意の順序でストロークを削除することで、任意の順序で描かれたストロークを条件とする画像を生成することもできるため、さまざまなスケッチスタイルに対応できます。

研究者らは、LAION Art の 45,000 枚の画像を使用してペアデータセットを構築し、画像とスケッチのペアに対して Stable Diffusion 1.5 を条件付けるように ControlNet モデルをトレーニングしました。

トレーニングされたモデルは、テキストの説明と部分的なスケッチを入力として受け取り、完成したスケッチの可能性のある部分に対応する生成された画像を出力します。

さまざまなレベルの完全性を持つ多数のランダムな部分スケッチでトレーニングすることで、モデルはあらゆるレベルの完全性のスケッチを最終画像に変換することを学習することに注意してください。

つまり、モデルでは線を描く順序について何も想定しません。

線は任意の順序で描くことができ、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 はスケッチの現在の状態に基づいて画像を生成します。

必要な画像を生成する

アーティストが画像の一部をどのようにペイントするかよくわからない場合は、描画した線に基づいてさまざまな画像仕上げを生成できます。

たとえば、カップの取っ手をどのように描いたらよいかよくわからないので、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 は次の 3 つの画像を生成します。

これらの生成された画像を使用して、Sketch-a-Sketch は潜在的な描画線の提案を提供できます。

生成された画像に対して HED を実行して既存の図面の潜在的な完成を生成すると、提案された線の画像を取得できます。

制御可能なスタイル

画像のキャプションと基礎となる拡散スケルトンは、画像の視覚化と提案されたラインに大きな影響を与えます。

他のテキスト制御の拡散アプリケーションと同様に、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 では、ヒントを通じて生成された画像のスタイルやコンテンツを変更できます。

下の画像では、単語を 1 つ変更するだけで、スポーツカーの視覚化のスタイルを制御できます。

ヒント: スポーツカー、リアル

ヒント: スポーツカー、漫画

ヒント: スポーツカー、影

ヒント: スポーツカー、錆びている

バックボーン ネットワーク (Stable Diffusion 1.5) でトレーニングされた ControlNet は、バックボーン ネットワークの微調整されたバージョンでも引き続き適切に動作することが以前に確認されています。

この機能は一部の Sketch ControlNet モデルにも適用され、Sketch-a-Sketch が特定のドメイン向けに微調整されたモデルから提案を生成できるようになります。

たとえば、ジブリ拡散を使用してジブリ風のキャラクターを生成することができます。

著者について

ヴィシュヌ・サルッカイ

Vishnu Sarukkai はスタンフォード大学の博士課程の学生で、Chris Ré と Kayvon Fatahalian が指導教員です。彼はスタンフォード大学でコンピューターサイエンスの学士号を取得しました。

彼の研究対象には機械学習とコンピューターグラフィックスがあり、最近の研究では制御可能な拡散モデルに焦点を当てています。

クリストファー・レ

スタンフォード人工知能研究所 (SAIL)、基礎モデル研究センター (CRFM)、機械学習グループ (生物学) の准教授。

ケイヴォン・ファタハリアン

Kayvon Fatahalian のチームは、高度なコンピュータ グラフィックスとビデオ理解アプリケーションをサポートする計算システム (多くの場合、高性能で並列) を作成します。最近の研究には、「AI トレーニング」のための仮想環境の高性能シミュレーションが含まれます。

<<:  AIモデルの「レッドチーム」からの迅速な修正を期待しないでください

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

2021年にAIが農業を改善する可能性のある10の方法

PwCは、モノのインターネット(IoTAg)ベースの農業モニタリングがコネクテッドスマート農業の分野...

生成 AI の「生産性パラドックス」: Microsoft はすでに利益を上げていますが、他のクラウド大手はいつ成果を実感するのでしょうか?

1987 年のノーベル経済学賞受賞者であるボブ・ソローは、「生産性統計を除けば、コンピュータ時代は...

...

これはGPT-4が愚かである理由についての新たな説明である

かつては世界で最も強力だと考えられていたGPT-4も、リリース以来、いくつかの「信頼の危機」を経験し...

早く見て!無料の機械学習コーストップ10

この記事では機械学習入門、ディープラーニング、自然言語処理などを網羅した関連講座10選を紹介します。...

生成 AI は、技術チームの全員が価値を実現するのにどのように役立ちますか?

この記事は、テンセントCSIGテクニカルディレクターの黄文馨氏が[WOT2023深圳駅]カンファレン...

AI時代:従来の常識を超えた大胆な未来

今日の世界では、人工知能 (AI) が驚異的なスピードで進歩しており、その進歩に遅れを取らないことが...

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声...

GPTモデルが人間のように聞こえるのはそのためです

翻訳者 | 劉涛レビュー | Chonglou AIがなぜ機能するのか誰も知らないですよね?はい、そ...

インテリジェントな顧客サービス チャット モジュールの 3 つのソリューションを比較すると、どれが気に入りましたか?

現在のインテリジェント顧客サービス市場とその NLP 分野において、チャット モジュールは非常に重要...

機械にあなたのことをもっと理解させるにはどうすればいいでしょうか? NLPについて学ぶ時が来ました

音声とテキストの両方における自然言語処理 (NLP) の改善は、主流のテクノロジーの進歩に役立ちます...

...

...