推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォーマンスの向上、そして創造の拡張につながっています。

しかし、テキストのみで画像生成を制御すると、期待どおりの結果が得られないことがよくあります。たとえば、特定のキャラクターの姿勢や表情をテキストで指定することは困難です。

写真

最近、Google は MediaPipe Diffusion プラグインをリリースしました。これは、既存の事前トレーニング済み拡散モデルとその低ランク適応型 (LoRA) バリアントをサポートし、モバイル デバイス上で「制御可能なテキストから画像への生成」のための低コストのソリューションを実行できます。

背景

拡散モデルに基づく画像生成プロセスは、反復的なノイズ除去プロセスと考えることができます。

拡散モデルは、ノイズの多い画像から始めて、各ステップで徐々に画像のノイズを除去し、ターゲットコンセプトに一致する画像を生成します。テキストプロンプトを条件として採用することで、画像生成効果を大幅に向上させることができます。

テキストから画像への生成では、テキストの埋め込みがクロスアテンションレイヤーを介して画像生成モデルに接続されますが、オブジェクトの位置や姿勢など、テキストの手がかりでは説明が難しい情報がまだ残っています。

この問題を解決するために、研究者らは、拡散モデルに追加モデルを導入して、条件付き画像に制御情報を注入することを提案しました。

一般的に使用されるコントロール プロット方法は次のとおりです。

1. プラグアンドプレイは、入力画像から生成プロセスを逆にして初期ノイズ入力を導出するノイズ除去拡散暗黙モデル (DDIM) 反転法を使用し、次に拡散モデル (Stable Diffusion 1.5 の場合は 8 億 6000 万のパラメータ) を使用して入力画像から条件をエンコードします。

プラグ アンド プレイは、複製の拡散から自己注意を使用して空間特徴を抽出し、それをテキストから画像への拡散プロセスに挿入します。

2. ControlNet は、ゼロ初期化パラメータを持つ畳み込み層を介して接続された拡散モデル エンコーダーのトレーニング可能なコピーを作成し、デコーダー層に渡される条件情報をエンコードします。

3. T2I アダプターは、制御可能な生成で同様の結果を達成できるより小さなネットワーク (7,700 万パラメータ) であり、条件付き画像のみを入力として受け取り、その出力はすべての拡散反復で共有されます。

ただし、T2I アダプタ モデルはポータブル モバイル デバイス用に設計されていません。

MediaPipe 拡散プラグイン

条件付き生成をより効率的、カスタマイズ可能、スケーラブルにするために、研究者は MediaPipe 拡散プラグインを別のネットワークとして設計しました。

1. プラグ可能: 事前にトレーニングされたベースモデルと簡単に接続できます。

2. 最初からトレーニング: ベースモデルの事前トレーニング済みの重みを使用しません。

3. 移植性: 基本モデルはモバイル デバイスで実行でき、元のモデルと比較して推論コストはごくわずかです。

写真

プラグアンドプレイ、ControlNet、T2I アダプター、MediaPipe 拡散プラグインの比較、*数値は選択したモデルによって異なります

簡単に言うと、MediaPipe 拡散プラグインは、ポータブル デバイスで実行できるテキストから画像への生成モデルです。条件付き画像からマルチスケールの特徴を抽出し、対応する階層型拡散モデルのエンコーダーに追加します。テキストから画像への拡散モデルに接続すると、プラグイン モデルは画像生成に追加の条件付き信号を提供できます。

プラグイン ネットワークは、600 万個のパラメーターのみを持つ軽量モデルであり、MobileNetv2 の深い畳み込みと逆ボトルネックを使用して、モバイル デバイスでの高速推論を実現します。

写真

MediaPipe 拡散モデル プラグインは、出力を事前トレーニング済みのテキストから画像への生成モデルにプラグインできる別のネットワークであり、抽出された特徴は拡散モデルの関連するダウンサンプリング レイヤーに適用されます (青)。

ControlNet とは異なり、研究者はすべての拡散反復に同じ制御関数を挿入したため、画像生成プロセスではプラグインを 1 回実行するだけで済み、計算の労力を節約できます。

以下の例からわかるように、制御効果は各拡散ステップで有効であり、初期の反復でも生成プロセスを制御できます。反復を増やすと、画像とテキストプロンプトの位置合わせが改善され、より多くの詳細が生成されます。

MediaPipe 拡散プラグインを使用した生成プロセスのデモンストレーション

この研究では、研究者らは、MediaPipe 顔ランドマーク、MediaPipe 全体的ランドマーク、深度マップ、Canny エッジのプラグインを備えた拡散ベースのテキストから画像への生成モデルを開発しました。

各タスクでは、非常に大規模な画像テキスト データセットから約 100,000 枚の画像が選択され、対応する MediaPipe ソリューションを使用して制御信号が計算され、プラグインは PaLI に最適化された記述を使用してトレーニングされました。

フェイスランドマーク

MediaPipe Face Landmarker タスクは、顔の 478 個のランドマークを計算します (注意して)。

研究者たちは、MediaPipe の描画ユーティリティを使用して、顔の輪郭、口、目、眉毛、虹彩を含む人間の顔をレンダリングし、さまざまな色を使用して表現しました。

次の例は、顔のメッシュとプロンプトを調整することによってランダムに生成されたサンプルを示しています。対照的に、ControlNet とプラグインはどちらも、指定された条件下でテキストから画像への生成を制御できます。

写真

ControlNet と比較した、テキストから画像を生成するための顔ランドマーク プラグイン。

ホリスティックランドマーク

MediaPipe Holistic Landmark タスクには、体のポーズ、手、顔のメッシュのランドマークが含まれており、全体的な特徴を調整することでさまざまな様式化された画像を生成できます。

テキストから画像を生成するための総合的なランドマーク プラグイン。

深さ

ディーププラグインを使用したテキストから画像への生成。

賢いエッジ

画像にテキストを生成する Canny-edge プラグイン。

評価する

研究者らは、モデルのパフォーマンスを実証するために、顔ランドマーク プラグインの定量評価を実施しました。評価データセットには 5,000 枚の人間の画像が含まれており、使用された評価指標にはフレシェ開始距離 (FID) と CLIP スコアが含まれます。

ベースモデルは、事前学習済みのテキストから画像への拡散モデルStable Diffusion v1.5を使用します。

FID、CLIP、推論時間の定量的比較

実験結果の FID および CLIP スコアから判断すると、ControlNet および MediaPipe 拡散プラグインによって生成されたサンプルの品質は、ベース モデルの品質よりもはるかに優れています。

ControlNet とは異なり、プラグイン モデルは生成された画像ごとに 1 回だけ実行すればよく、ノイズ除去の各ステップで実行する必要がないため、推論時間は 2.6% しか増加しません。

研究者らは、サーバーマシン(Nvidia V100 GPU を使用)とモバイルデバイス(Galaxy S23)で 3 つのモデルのパフォーマンスを測定しました。サーバーでは、3 つのモデルすべてが 50 の拡散ステップを使用して実行され、モバイルデバイスでは、MediaPipe 画像生成アプリケーションを使用して 20 の拡散ステップが実行されました。

ControlNet と比較すると、MediaPipe プラグインはサンプル品質を維持しながら推論効率において明らかな利点を示します。

さまざまなモバイルデバイスでのプラグインの推論時間 (ミリ秒)

要約する

この研究で研究者らは、条件付き画像から抽出した特徴を拡散モデルに注入して画像生成プロセスを制御する、モバイルフレンドリーな条件付きテキストから画像への生成プラグインである MediaPipe を提案しました。

ポータブルプラグインは、サーバーまたはデバイス上で実行される事前トレーニング済みの拡散モデルに接続できるため、テキストから画像への生成とプラグインを完全にデバイス上で実行することで、生成AIをより柔軟に適用できます。

<<:  トランスフォーマーのメンバー8人全員がGoogleに亡命!最後の共著者は今月末に自身のビジネスを始めるために退社する。

>>:  清華大学と中国気象局の大規模モデルがネイチャー誌に掲載:世界レベルの問題を解決、「幽霊天気」の予報時間が初めて3時間に到達

ブログ    
ブログ    
ブログ    

推薦する

ChatGPT「おばあちゃんの抜け穴」がまた人気です!亡くなった祖母のふりをして、寝る前に物語を語り、Win11 のシリアル番号をだます

最近、有名なChatGPT「おばあちゃんの脆弱性」が再び人気になっています!この伝説の「Granny...

銀行における機械学習の応用シナリオは何ですか?

1. 機械学習プラットフォームとビッグデータプラットフォームの関係の明確化[[346643]]機械...

顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある

8月8日、IT Homeは中国サイバースペース事務局から、顔認識技術の応用を標準化するため、「中華人...

...

人工知能の研究ホットスポット:自然言語処理

人工知能(AI)は、新たな科学技術革命と産業変革の重要な原動力として、世界に大きな影響を与え、変化を...

...

GitHubで3,000以上のいいねを獲得した「機械学習ロードマップ」は、モンスターをアップグレードして倒す方法を教えてくれる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

世界で最も美しいソートアルゴリズム!

[[248668]]早速、世界で最も「美しい」ソートアルゴリズムについてお話ししましょう。 voi...

...

マイクロソフトがAIインフラサービスコード名「Singularity」を発表

Microsoft Azure と研究チームは協力して、コードネーム「Singularity」という...

...

8 クイーン問題を解く C# アルゴリズムの簡単な分析

8つのクイーンの問題の説明: 8 クイーン問題は古くからある有名な問題であり、バックトラッキング ア...

ボストン・ダイナミクスがマスク氏を激しく批判、それは単なる自慢なのか、それとも現実なのか?テスラロボットに関する3つの大きな推測

テスラのロボットに関しては、まず主要なタイムラインを確認しましょう。実際、テスラのロボットの構想は1...

...