宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

絵を描くだけで高精細な絵画が現れます。

たとえば中世の城を描くには、ドアと道を描くだけで、美しい城が現れます。

写真

郵便受けのあるホビットの家

海の端にある灯台(追記:海中の星空のような感じです)

スタンフォード大学の研究者たちは、スケッチを絵画に変えることができるモデル、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 を提唱しました。

さらに、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 は、生成された画像を完全なスケッチに変換し、ペイントの次のステップに関する提案を提供することもできます。

それで、それは具体的にどのように機能するのでしょうか?

スケッチ、編集可能

既存のスケッチ制御画像生成方法には、ControlNet、Sketch-Guided Diffusion、DiffSketching などがあります。

既存のスケッチから画像への変換方法には大きな利点がありますが、重大な欠陥があります。それは、完成したスケッチを処理するように訓練されていることです。

ただし、典型的な Sketchup ワークフローは、進行中の反復的な作業です。

アーティストは徐々に線を追加したり削除したりして、時には基本的な構造を構築してからより細かい詳細を掘り下げたり、時にはイメージのある領域に焦点を当ててから別の領域に移動したりします。

したがって、スケッチ段階でスケッチから画像への機能を実装する必要があります。

「Sketch-a-Sketch」では、研究者らは部分的なスケッチに基づいて画像を生成する ControlNet モデルを導入しました。

ControlNet を使用すると、Sketch-a-Sketch は次のことが可能になります。

1) スケッチプロセスのさまざまな段階でスケッチに対応する画像を生成する

2) これらの画像を使用して、芸術的なプロセスを導くのに役立つスケッチの提案を作成します。

問題: 既存の方法は一部のスケッチでは機能しない

これまでの研究では、画像と完成したスケッチのペアデータセットでトレーニングが行われてきました。

部分的なスケッチからイメージを生成しようとすると、これらのメソッドはスケッチを完成したスケッチとして扱います。

したがって、スケッチの残りの部分の空白は、入力スケッチのストロークに通常対応するコンテンツが画像に含まれてはならないことを示す指標と見なされます。

たとえば、家の最初の数本の線が与えられた場合、ControlNet は線が描かれている領域外の重要な詳細を生成することができません。

これらのスケッチの線に対応する特徴が、生成された画像に表示されます。たとえば、屋根を支える柱、手すりの上部、ポーチの下部などです。

ただし、スケッチに空白のみが含まれている領域にも、主要な画像の特徴が多数存在します。

トレーニングデータ: 線をランダムに削除して作成した部分スケッチ

Photo-Sketch は、部分的に完成したスケッチとテキストの説明が付いた画像を含む、既存のデータセットとしては最大のものです。

ただし、このデータセットには次の欠点があります。

1) スケッチは1,000枚までとなります。

2) すべての画像は屋外のシーンです(多様性に欠け、一般的なテキスト条件を生成できません)。

3) 既存の絵をトレースして作成する(多くのアーティストの描画プロセスに対応しない可能性のある筆順を適用する)。

そのため、私たちは部分的なスケッチと組み合わせたキャプション付きの画像の独自のデータセットをプログラムで構築しました。

スタンフォード大学の研究者のアプローチは、1) HED を使用して画像をラスタライズされたエッジ マップに変換する、2) エッジ マップを一連のストロークにベクトル化する、3) ストロークの一部をランダムに削除するというものです。

任意の順序でストロークを削除することで、任意の順序で描かれたストロークを条件とする画像を生成することもできるため、さまざまなスケッチスタイルに対応できます。

研究者らは、LAION Art の 45,000 枚の画像を使用してペアデータセットを構築し、画像とスケッチのペアに対して Stable Diffusion 1.5 を条件付けるように ControlNet モデルをトレーニングしました。

トレーニングされたモデルは、テキストの説明と部分的なスケッチを入力として受け取り、完成したスケッチの可能性のある部分に対応する生成された画像を出力します。

さまざまなレベルの完全性を持つ多数のランダムな部分スケッチでトレーニングすることで、モデルはあらゆるレベルの完全性のスケッチを最終画像に変換することを学習することに注意してください。

つまり、モデルでは線を描く順序について何も想定しません。

線は任意の順序で描くことができ、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 はスケッチの現在の状態に基づいて画像を生成します。

必要な画像を生成する

アーティストが画像の一部をどのようにペイントするかよくわからない場合は、描画した線に基づいてさまざまな画像仕上げを生成できます。

たとえば、カップの取っ手をどのように描いたらよいかよくわからないので、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 は次の 3 つの画像を生成します。

これらの生成された画像を使用して、Sketch-a-Sketch は潜在的な描画線の提案を提供できます。

生成された画像に対して HED を実行して既存の図面の潜在的な完成を生成すると、提案された線の画像を取得できます。

制御可能なスタイル

画像のキャプションと基礎となる拡散スケルトンは、画像の視覚化と提案されたラインに大きな影響を与えます。

他のテキスト制御の拡散アプリケーションと同様に、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 では、ヒントを通じて生成された画像のスタイルやコンテンツを変更できます。

下の画像では、単語を 1 つ変更するだけで、スポーツカーの視覚化のスタイルを制御できます。

ヒント: スポーツカー、リアル

ヒント: スポーツカー、漫画

ヒント: スポーツカー、影

ヒント: スポーツカー、錆びている

バックボーン ネットワーク (Stable Diffusion 1.5) でトレーニングされた ControlNet は、バックボーン ネットワークの微調整されたバージョンでも引き続き適切に動作することが以前に確認されています。

この機能は一部の Sketch ControlNet モデルにも適用され、Sketch-a-Sketch が特定のドメイン向けに微調整されたモデルから提案を生成できるようになります。

たとえば、ジブリ拡散を使用してジブリ風のキャラクターを生成することができます。

著者について

ヴィシュヌ・サルッカイ

Vishnu Sarukkai はスタンフォード大学の博士課程の学生で、Chris Ré と Kayvon Fatahalian が指導教員です。彼はスタンフォード大学でコンピューターサイエンスの学士号を取得しました。

彼の研究対象には機械学習とコンピューターグラフィックスがあり、最近の研究では制御可能な拡散モデルに焦点を当てています。

クリストファー・レ

スタンフォード人工知能研究所 (SAIL)、基礎モデル研究センター (CRFM)、機械学習グループ (生物学) の准教授。

ケイヴォン・ファタハリアン

Kayvon Fatahalian のチームは、高度なコンピュータ グラフィックスとビデオ理解アプリケーションをサポートする計算システム (多くの場合、高性能で並列) を作成します。最近の研究には、「AI トレーニング」のための仮想環境の高性能シミュレーションが含まれます。

<<:  AIモデルの「レッドチーム」からの迅速な修正を期待しないでください

>>: 

ブログ    
ブログ    
ブログ    

推薦する

強化学習はアプリケーションにおける戦略の「最適解」を見つける

現在、AI システムは、さまざまなパターン認識や予測分析タスクを実行するために業界で一般的に使用され...

大雨後のドローンと衛星ネットワーク

7月21日、鄭州市の西40キロにある米河鎮は停電、インターネット、道路が遮断され、完全な情報孤島とな...

機械学習のアルゴリズム(2) - サポートベクターマシン(SVM)の基礎

SVM に関する論文や書籍は数多くあります。Qiang 兄弟の言葉を引用すると、「SVM は応用数学...

ジェネレーティブAIがコンタクトセンターをどう変えるのか

新しいテクノロジーによって、コールセンターのエージェントと顧客とのやり取りの方法が変化したことを学び...

革新的な人工視覚脳インプラントが初めて視覚障害者に移植される

現時点では失明を治す方法はないが、初めての人工視覚システムの移植が初めて成功し、失明した人々の視力を...

ChatGPTは人気を集めており、OpenAIはAIソフトウェア用のアプリストアの作成を検討している

今年 5 月、OpenAI はすべての ChatGPT Plus ユーザー向けにネットワーキングおよ...

...

2020 年の AI と機械学習の重要なトレンドは何ですか?

競争が激化するテクノロジー市場において、ハイテク新興企業から世界的な多国籍企業まで、誰もが人工知能を...

なぜモノのインターネット、ビッグデータ、人工知能は常にグループで表示されるのでしょうか?

[[274332]]私のいとこは 2000 年代生まれで、大学に入学したばかりの才能あふれる若者で...

...

...

多くの人がまだブロックチェーンについて漠然とした理解しか持っていない中、これらのブロックチェーンの応用シナリオはすでに実装されている。

1.ブロックチェーン + IP著作権最近、フェニックスオンライン書店は「フェニックスエッグ」と呼ば...

AI技術がデータセンターの省エネに向けた新たな戦いに参入

序文: 2020年、データセンター建設は中央政府による新インフラ戦略に正式に組み込まれ、新インフラの...

ジャック・マーがまた一人の世界クラスの科学者を採用しました。春節期間中に電車の切符を買うときにシステムクラッシュを心配する必要はもうありません!

アリババが中国だけでなく国際的にも素晴らしいインターネット企業であることは誰もが知っています。しかし...

スタンフォード大学の研究者がAIを活用してCOVID-19の治療薬の発見を加速

COVID-19の流行が世界中の人々の生命と日常生活を脅かし続けている中、人々はこの病気の予防と治療...