宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

絵を描くだけで高精細な絵画が現れます。

たとえば中世の城を描くには、ドアと道を描くだけで、美しい城が現れます。

写真

郵便受けのあるホビットの家

海の端にある灯台(追記:海中の星空のような感じです)

スタンフォード大学の研究者たちは、スケッチを絵画に変えることができるモデル、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 を提唱しました。

さらに、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 は、生成された画像を完全なスケッチに変換し、ペイントの次のステップに関する提案を提供することもできます。

それで、それは具体的にどのように機能するのでしょうか?

スケッチ、編集可能

既存のスケッチ制御画像生成方法には、ControlNet、Sketch-Guided Diffusion、DiffSketching などがあります。

既存のスケッチから画像への変換方法には大きな利点がありますが、重大な欠陥があります。それは、完成したスケッチを処理するように訓練されていることです。

ただし、典型的な Sketchup ワークフローは、進行中の反復的な作業です。

アーティストは徐々に線を追加したり削除したりして、時には基本的な構造を構築してからより細かい詳細を掘り下げたり、時にはイメージのある領域に焦点を当ててから別の領域に移動したりします。

したがって、スケッチ段階でスケッチから画像への機能を実装する必要があります。

「Sketch-a-Sketch」では、研究者らは部分的なスケッチに基づいて画像を生成する ControlNet モデルを導入しました。

ControlNet を使用すると、Sketch-a-Sketch は次のことが可能になります。

1) スケッチプロセスのさまざまな段階でスケッチに対応する画像を生成する

2) これらの画像を使用して、芸術的なプロセスを導くのに役立つスケッチの提案を作成します。

問題: 既存の方法は一部のスケッチでは機能しない

これまでの研究では、画像と完成したスケッチのペアデータセットでトレーニングが行われてきました。

部分的なスケッチからイメージを生成しようとすると、これらのメソッドはスケッチを完成したスケッチとして扱います。

したがって、スケッチの残りの部分の空白は、入力スケッチのストロークに通常対応するコンテンツが画像に含まれてはならないことを示す指標と見なされます。

たとえば、家の最初の数本の線が与えられた場合、ControlNet は線が描かれている領域外の重要な詳細を生成することができません。

これらのスケッチの線に対応する特徴が、生成された画像に表示されます。たとえば、屋根を支える柱、手すりの上部、ポーチの下部などです。

ただし、スケッチに空白のみが含まれている領域にも、主要な画像の特徴が多数存在します。

トレーニングデータ: 線をランダムに削除して作成した部分スケッチ

Photo-Sketch は、部分的に完成したスケッチとテキストの説明が付いた画像を含む、既存のデータセットとしては最大のものです。

ただし、このデータセットには次の欠点があります。

1) スケッチは1,000枚までとなります。

2) すべての画像は屋外のシーンです(多様性に欠け、一般的なテキスト条件を生成できません)。

3) 既存の絵をトレースして作成する(多くのアーティストの描画プロセスに対応しない可能性のある筆順を適用する)。

そのため、私たちは部分的なスケッチと組み合わせたキャプション付きの画像の独自のデータセットをプログラムで構築しました。

スタンフォード大学の研究者のアプローチは、1) HED を使用して画像をラスタライズされたエッジ マップに変換する、2) エッジ マップを一連のストロークにベクトル化する、3) ストロークの一部をランダムに削除するというものです。

任意の順序でストロークを削除することで、任意の順序で描かれたストロークを条件とする画像を生成することもできるため、さまざまなスケッチスタイルに対応できます。

研究者らは、LAION Art の 45,000 枚の画像を使用してペアデータセットを構築し、画像とスケッチのペアに対して Stable Diffusion 1.5 を条件付けるように ControlNet モデルをトレーニングしました。

トレーニングされたモデルは、テキストの説明と部分的なスケッチを入力として受け取り、完成したスケッチの可能性のある部分に対応する生成された画像を出力します。

さまざまなレベルの完全性を持つ多数のランダムな部分スケッチでトレーニングすることで、モデルはあらゆるレベルの完全性のスケッチを最終画像に変換することを学習することに注意してください。

つまり、モデルでは線を描く順序について何も想定しません。

線は任意の順序で描くことができ、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 はスケッチの現在の状態に基づいて画像を生成します。

必要な画像を生成する

アーティストが画像の一部をどのようにペイントするかよくわからない場合は、描画した線に基づいてさまざまな画像仕上げを生成できます。

たとえば、カップの取っ手をどのように描いたらよいかよくわからないので、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 は次の 3 つの画像を生成します。

これらの生成された画像を使用して、Sketch-a-Sketch は潜在的な描画線の提案を提供できます。

生成された画像に対して HED を実行して既存の図面の潜在的な完成を生成すると、提案された線の画像を取得できます。

制御可能なスタイル

画像のキャプションと基礎となる拡散スケルトンは、画像の視覚化と提案されたラインに大きな影響を与えます。

他のテキスト制御の拡散アプリケーションと同様に、𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩 では、ヒントを通じて生成された画像のスタイルやコンテンツを変更できます。

下の画像では、単語を 1 つ変更するだけで、スポーツカーの視覚化のスタイルを制御できます。

ヒント: スポーツカー、リアル

ヒント: スポーツカー、漫画

ヒント: スポーツカー、影

ヒント: スポーツカー、錆びている

バックボーン ネットワーク (Stable Diffusion 1.5) でトレーニングされた ControlNet は、バックボーン ネットワークの微調整されたバージョンでも引き続き適切に動作することが以前に確認されています。

この機能は一部の Sketch ControlNet モデルにも適用され、Sketch-a-Sketch が特定のドメイン向けに微調整されたモデルから提案を生成できるようになります。

たとえば、ジブリ拡散を使用してジブリ風のキャラクターを生成することができます。

著者について

ヴィシュヌ・サルッカイ

Vishnu Sarukkai はスタンフォード大学の博士課程の学生で、Chris Ré と Kayvon Fatahalian が指導教員です。彼はスタンフォード大学でコンピューターサイエンスの学士号を取得しました。

彼の研究対象には機械学習とコンピューターグラフィックスがあり、最近の研究では制御可能な拡散モデルに焦点を当てています。

クリストファー・レ

スタンフォード人工知能研究所 (SAIL)、基礎モデル研究センター (CRFM)、機械学習グループ (生物学) の准教授。

ケイヴォン・ファタハリアン

Kayvon Fatahalian のチームは、高度なコンピュータ グラフィックスとビデオ理解アプリケーションをサポートする計算システム (多くの場合、高性能で並列) を作成します。最近の研究には、「AI トレーニング」のための仮想環境の高性能シミュレーションが含まれます。

<<:  AIモデルの「レッドチーム」からの迅速な修正を期待しないでください

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AI を活用することで、銀行は年間 1 兆ドルの追加収益を得ることができる | マッキンゼーの最新調査レポート

AI を活用して財務管理や投資を行いたいと考えていますか? [[351941]]好むと好まざるとにか...

...

AIアルゴリズムが軍用無人車両への中間者攻撃を検出

研究者らは、軍用無人車両に対する中間者攻撃を検出できる人工知能アルゴリズムを開発した。ロボットオペレ...

想像を超える: 5つの興味深い実用的なChatGPTのヒントとコツ

ChatGPT は情報を提供したり質問に答えたりするだけでなく、インテリジェントなアシスタントとして...

2023年の人工知能の進歩を、大きなモデルだけでなく考察する記事

2023年には、ビッグモデル間の激しい競争が繰り広げられるでしょう。これ以外に、AI分野ではどのよう...

TCP のこと 1: TCP プロトコル、アルゴリズム、原理

TCP は、多くの問題を解決する必要があり、これらの問題により多くのサブ問題とダークサイドが引き起こ...

人工知能技術の登場によるデジタル変革をどう理解すればよいのでしょうか?

デジタル化は、意思決定レベルから産業レベルまでの変化において中心的な課題になりつつあります。科学技術...

AIが観測性を高める方法

今の時代、過去を懐かしむのは当然ですが、私たちは、以前と同じ観測可能性を持つことは決してできないよう...

畳み込みニューラルネットワークの「修理工」のための「マニュアル」

[[242145]]ビッグデータダイジェスト制作編集者: Luo Ran、Xue Qing、Ail...

ベイジアンネットワークを使用して病院の患者数を予測する

翻訳者|朱 仙中レビュー | Chonglou複雑さを乗り越える: 医療における患者数の予測医療にお...

AIデータサービス業界は「認知戦争」に突入。なぜYunce Dataは業界No.1の座を維持しているのか?

新しいインフラストラクチャにより、AI の実装が加速され、その背後にある「糧」である AI データ ...

小売業界におけるロボットの応用は何ですか?

巨大食品店で溢れかえった商品を見つける高さ6フィートの自由に動くロボットから、ウォルマートの在庫をチ...

科学者:大規模なAIモデルは小さなAIツールを自動的に生成できる

12月18日、Businessinsiderによると、大規模なAIモデルは現在、人間の介入なしに完全...

トヨタのAIの旅:車だけにとどまらない

今日の自動車メーカーは、市場での地位を今後も維持したいのであれば、強力な自動運転技術を確立しなければ...

...