ControlNetの作者が新作を発表：数百万のデータを使ったトレーニング、レイヤー設計の先駆けとなるAI画像生成

画像を生成するための大規模なモデルがコンピュータービジョンやグラフィックスの基礎となっている一方で、レイヤー化されたコンテンツの生成や透明画像（一部が透明で、画像の背景や他のレイヤーが透けて見える画像）の領域は驚くほど注目されてきませんでした。これは市場の実際のニーズとはまったく対照的です。ほとんどのビジュアルコンテンツ編集ソフトウェアとワークフローはレイヤーベースであり、コンテンツを組み合わせて作成するために透明要素またはレイヤー要素に大きく依存しています。

スタンフォード大学の研究者らは、大規模な事前トレーニング済み潜在拡散モデルが透明な画像と複数の透明レイヤーを生成できるようにする「潜在透明性」手法を提案した。

論文アドレス: https://arxiv.org/pdf/2402.17113.pdf
論文タイトル: 潜在的透明性を利用した透明画像レイヤー拡散

たとえば、テキストプロンプト（寝室にいる髪が乱れた女性など）が与えられた場合、この研究で提案された方法は、透明な複数のレイヤーを生成することができます。つまり、このモデルはプロンプトに基づいて画像を生成するだけでなく、前景と背景を分離し、失われた背景情報をうまく補完することができます。

さらに、この論文では、人間とコンピュータのインタラクションを使用して、モデルフレームワークをトレーニングし、同時にデータを収集します。最終的なデータセットのサイズは 100 万枚の透明な画像に達し、さまざまなコンテンツのトピックとスタイルをカバーしています。この研究では、データセットを多層サンプルに拡張しました。このデータセットは、透明画像ジェネレーターのトレーニングに使用できるだけでなく、背景/前景の条件付き生成、構造ガイドによる生成、スタイル転送などのさまざまなアプリケーションにも使用できます。

実験の結果、ほとんどの場合 (97%)、ユーザーは、以前のソリューション (最初に生成してから切り取るなど) よりも、当社の方法で生成された透明なコンテンツを好むことがわかりました。研究者らが検索結果の品質を Adobe Stock などの商用サイトの検索結果と比較したところ、やはり良好な結果が得られました。

この研究の著者は Lvmin Zhang と Maneesh Agrawala であり、Lvmin Zhang は ContorlNet の著者でもあります。

あるネットユーザーはこう語った。「透明レイヤーを生成できることの重要性は、単に画像を切り取る以上のものだ。これは、今日のアニメーションやビデオ制作において最も重要なプロセスの1つだ。このステップを通過できれば、SDの一貫性はもはや問題ではないと言えるだろう。」

方法の紹介

この論文の目的は、通常潜在エンコーダ (VAE) を使用して RGB 画像を潜在画像に変換し、それを拡散モデルに入力する、安定拡散 (SD) などの大規模な潜在拡散モデルに透明性のサポートを追加することです。このプロセス中、VAE と拡散モデルは同じ潜在分布を共有する必要があります。大きな不一致があると、潜在拡散フレームワークの推論/トレーニング/微調整のパフォーマンスが大幅に低下する可能性があるためです。

潜在的な透明性: 透明性をサポートするために潜在空間を適応させる場合、元の潜在的な分布を可能な限り保持する必要があります。この一見曖昧な目標は、簡単な測定によって決定できます。つまり、変更された潜在分布が元の事前トレーニング済みの凍結潜在デコーダーによってどの程度適切にデコードされるかを確認できます。変更された潜在画像をデコードすると深刻なアーティファクトが生成される場合、潜在分布はずれているか破損しています。このプロセスの視覚化結果を次の図に示します。

複数レイヤーの生成：この研究では、図3-(b)に示すように、注意共有とLoRAをさらに使用して、基本モデルを複数レイヤーモデルに拡張します。図3-(a)はトレーニング可視化結果です。

図 4 では、より複雑なワークフローを可能にするいくつかの代替アーキテクチャを紹介します。研究者は、UNet にゼロ初期化チャネルを追加し、VAE (潜在的な透明性の有無にかかわらず) を使用して、前景、背景、またはレイヤーの組み合わせを条件としてエンコードし、モデルをトレーニングして前景または背景を生成する (例: 図 4-(b、d)) か、混合画像を直接生成する (例: 図 4-(a、c)) ことができます。

データの準備とトレーニングの詳細

トレーニングデータセットには、基本データセット（図5-(a)）と多層データセット（図5-(b)）が含まれます。

トレーニング機器は 4 × A100 80G NV-link、全体のトレーニング時間は 1 週間 (予算を削減するため、次のラウンドの最適化データを手動で収集するときにトレーニングを一時停止します)、実際の GPU 時間は約 350 A100 時間です。このアプローチは、350 GPU 時間の予算が通常 1,000 ドル以内であるため、個人規模またはラボ規模の研究に適しています。

実験

図 6 は、単一画像ベースモデルを使用して生成された画像の定性的な結果を示しています。これらの結果は、モデルが高品質のガラスの透明度、髪の毛、毛皮、輝き、火、魔法、その他の効果などのネイティブの透明画像を生成できることを示しています。これらの結果は、モデルがさまざまなシナリオに一般化できることも示しています。

図 7 は、さまざまなテーマのプロンプトを使用して画像を生成した定性的な結果を示しています。各例では、混合画像と 2 つの出力レイヤーが表示されます。これらのレイヤーは、照明や幾何学的な関係の点で一貫しているだけでなく、着実に拡散した美的品質も示しています (たとえば、背景と前景の色の選択は調和がとれており、見た目も美しい)。

条件付きレイヤーの生成。研究者らは、条件付きレイヤー生成結果（前景を条件とする背景生成と背景を条件とする前景生成）を図 8 に示しています。ご覧のとおり、私たちのモデルは、一貫したジオメトリと照明効果を備えた首尾一貫した構成を生成できます。「教会に吊るされた電球」の例では、モデルは前景を対称的な美観に一致させようとします。「ベンチに座っている、またはソファに座っている」という例では、モデルは前景と背景の相互作用を推測し、対応するジオメトリを生成できます。

反復的な生成。図 9 に示すように、研究者は背景を条件とする前景生成モデルを繰り返し使用して、任意の数のレイヤーの構成を実現できます。新しいレイヤーごとに、以前に生成されたすべてのレイヤーを 1 つの RGB 画像に結合し、それを背景に合わせて調整された前景モデルに入力しました。研究者らはまた、このモデルが猫の前に本を生成するなど、背景画像のコンテキストで自然言語を解釈できることも観察した。このモデルは、箱の上に座っている人物の合成画像を生成するなど、強力な幾何学的構成機能を実証しました。

制御可能な発電。図 10 に示すように、研究者は、ControlNet などの既存の制御可能なモデルをモデルに使用して豊富な機能を提供できることを実証しました。私たちのモデルは、ControlNet 信号に基づいてグローバル構造を維持し、一貫した照明効果を持つ調和のとれた構成を生成できることがわかります。研究者らはまた、「反射ボール」の例を使用して、この記事のモデルが前景および背景のコンテンツと相互作用して、反射などの一貫した照明効果を生成できることを実証しました。

<<: モデルの好みはサイズだけですか？上海交通大学は32の大規模モデルについて人間の嗜好の定量的要素を包括的に分析した。

>>: マスク氏はOpenAIを訴えた。彼らはAGIを作成し、それをマイクロソフトにライセンス供与したが、これは設立協定に対する露骨な裏切りである。