推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォーマンスの向上、そして創造の拡張につながっています。

しかし、テキストのみで画像生成を制御すると、期待どおりの結果が得られないことがよくあります。たとえば、特定のキャラクターの姿勢や表情をテキストで指定することは困難です。

写真

最近、Google は MediaPipe Diffusion プラグインをリリースしました。これは、既存の事前トレーニング済み拡散モデルとその低ランク適応型 (LoRA) バリアントをサポートし、モバイルデバイス上で「制御可能なテキストから画像への生成」のための低コストのソリューションを実行できます。

背景

拡散モデルに基づく画像生成プロセスは、反復的なノイズ除去プロセスと考えることができます。

拡散モデルは、ノイズの多い画像から始めて、各ステップで徐々に画像のノイズを除去し、ターゲットコンセプトに一致する画像を生成します。テキストプロンプトを条件として採用することで、画像生成効果を大幅に向上させることができます。

テキストから画像への生成では、テキストの埋め込みがクロスアテンションレイヤーを介して画像生成モデルに接続されますが、オブジェクトの位置や姿勢など、テキストの手がかりでは説明が難しい情報がまだ残っています。

この問題を解決するために、研究者らは、拡散モデルに追加モデルを導入して、条件付き画像に制御情報を注入することを提案しました。

一般的に使用されるコントロールプロット方法は次のとおりです。

1. プラグアンドプレイは、入力画像から生成プロセスを逆にして初期ノイズ入力を導出するノイズ除去拡散暗黙モデル (DDIM) 反転法を使用し、次に拡散モデル (Stable Diffusion 1.5 の場合は 8 億 6000 万のパラメータ) を使用して入力画像から条件をエンコードします。

プラグアンドプレイは、複製の拡散から自己注意を使用して空間特徴を抽出し、それをテキストから画像への拡散プロセスに挿入します。

2. ControlNet は、ゼロ初期化パラメータを持つ畳み込み層を介して接続された拡散モデルエンコーダーのトレーニング可能なコピーを作成し、デコーダー層に渡される条件情報をエンコードします。

3. T2I アダプターは、制御可能な生成で同様の結果を達成できるより小さなネットワーク (7,700 万パラメータ) であり、条件付き画像のみを入力として受け取り、その出力はすべての拡散反復で共有されます。

ただし、T2I アダプタモデルはポータブルモバイルデバイス用に設計されていません。

MediaPipe 拡散プラグイン

条件付き生成をより効率的、カスタマイズ可能、スケーラブルにするために、研究者は MediaPipe 拡散プラグインを別のネットワークとして設計しました。

1. プラグ可能: 事前にトレーニングされたベースモデルと簡単に接続できます。

2. 最初からトレーニング: ベースモデルの事前トレーニング済みの重みを使用しません。

3. 移植性: 基本モデルはモバイルデバイスで実行でき、元のモデルと比較して推論コストはごくわずかです。

写真

プラグアンドプレイ、ControlNet、T2I アダプター、MediaPipe 拡散プラグインの比較、*数値は選択したモデルによって異なります

簡単に言うと、MediaPipe 拡散プラグインは、ポータブルデバイスで実行できるテキストから画像への生成モデルです。条件付き画像からマルチスケールの特徴を抽出し、対応する階層型拡散モデルのエンコーダーに追加します。テキストから画像への拡散モデルに接続すると、プラグインモデルは画像生成に追加の条件付き信号を提供できます。

プラグインネットワークは、600 万個のパラメーターのみを持つ軽量モデルであり、MobileNetv2 の深い畳み込みと逆ボトルネックを使用して、モバイルデバイスでの高速推論を実現します。

写真

MediaPipe 拡散モデルプラグインは、出力を事前トレーニング済みのテキストから画像への生成モデルにプラグインできる別のネットワークであり、抽出された特徴は拡散モデルの関連するダウンサンプリングレイヤーに適用されます (青)。

ControlNet とは異なり、研究者はすべての拡散反復に同じ制御関数を挿入したため、画像生成プロセスではプラグインを 1 回実行するだけで済み、計算の労力を節約できます。

以下の例からわかるように、制御効果は各拡散ステップで有効であり、初期の反復でも生成プロセスを制御できます。反復を増やすと、画像とテキストプロンプトの位置合わせが改善され、より多くの詳細が生成されます。

MediaPipe 拡散プラグインを使用した生成プロセスのデモンストレーション

例

この研究では、研究者らは、MediaPipe 顔ランドマーク、MediaPipe 全体的ランドマーク、深度マップ、Canny エッジのプラグインを備えた拡散ベースのテキストから画像への生成モデルを開発しました。

各タスクでは、非常に大規模な画像テキストデータセットから約 100,000 枚の画像が選択され、対応する MediaPipe ソリューションを使用して制御信号が計算され、プラグインは PaLI に最適化された記述を使用してトレーニングされました。

フェイスランドマーク

MediaPipe Face Landmarker タスクは、顔の 478 個のランドマークを計算します (注意して)。

研究者たちは、MediaPipe の描画ユーティリティを使用して、顔の輪郭、口、目、眉毛、虹彩を含む人間の顔をレンダリングし、さまざまな色を使用して表現しました。

次の例は、顔のメッシュとプロンプトを調整することによってランダムに生成されたサンプルを示しています。対照的に、ControlNet とプラグインはどちらも、指定された条件下でテキストから画像への生成を制御できます。

写真

ControlNet と比較した、テキストから画像を生成するための顔ランドマークプラグイン。

ホリスティックランドマーク

MediaPipe Holistic Landmark タスクには、体のポーズ、手、顔のメッシュのランドマークが含まれており、全体的な特徴を調整することでさまざまな様式化された画像を生成できます。

テキストから画像を生成するための総合的なランドマークプラグイン。

深さ

ディーププラグインを使用したテキストから画像への生成。

賢いエッジ

画像にテキストを生成する Canny-edge プラグイン。

評価する

研究者らは、モデルのパフォーマンスを実証するために、顔ランドマークプラグインの定量評価を実施しました。評価データセットには 5,000 枚の人間の画像が含まれており、使用された評価指標にはフレシェ開始距離 (FID) と CLIP スコアが含まれます。

ベースモデルは、事前学習済みのテキストから画像への拡散モデルStable Diffusion v1.5を使用します。

FID、CLIP、推論時間の定量的比較

実験結果の FID および CLIP スコアから判断すると、ControlNet および MediaPipe 拡散プラグインによって生成されたサンプルの品質は、ベースモデルの品質よりもはるかに優れています。

ControlNet とは異なり、プラグインモデルは生成された画像ごとに 1 回だけ実行すればよく、ノイズ除去の各ステップで実行する必要がないため、推論時間は 2.6% しか増加しません。

研究者らは、サーバーマシン（Nvidia V100 GPU を使用）とモバイルデバイス（Galaxy S23）で 3 つのモデルのパフォーマンスを測定しました。サーバーでは、3 つのモデルすべてが 50 の拡散ステップを使用して実行され、モバイルデバイスでは、MediaPipe 画像生成アプリケーションを使用して 20 の拡散ステップが実行されました。

ControlNet と比較すると、MediaPipe プラグインはサンプル品質を維持しながら推論効率において明らかな利点を示します。

さまざまなモバイルデバイスでのプラグインの推論時間 (ミリ秒)

要約する

この研究で研究者らは、条件付き画像から抽出した特徴を拡散モデルに注入して画像生成プロセスを制御する、モバイルフレンドリーな条件付きテキストから画像への生成プラグインである MediaPipe を提案しました。

ポータブルプラグインは、サーバーまたはデバイス上で実行される事前トレーニング済みの拡散モデルに接続できるため、テキストから画像への生成とプラグインを完全にデバイス上で実行することで、生成AIをより柔軟に適用できます。

<<: トランスフォーマーのメンバー8人全員がGoogleに亡命！最後の共著者は今月末に自身のビジネスを始めるために退社する。

>>: 清華大学と中国気象局の大規模モデルがネイチャー誌に掲載：世界レベルの問題を解決、「幽霊天気」の予報時間が初めて3時間に到達

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

背景

MediaPipe 拡散プラグイン

例

評価する

要約する

AIビデオ分析技術はどのように機能するのでしょうか?どのように機能しますか?

機械学習は世界をどう見ているか: 機械学習との戦いは人工知能と人間の思考の違いを説明する

TSMC、7nmチップの商業生産を開始

人工知能はノーベル賞レベルにまで発展した

GitHubオープンソース130+スター：PPYOLOシリーズをベースにターゲット検出アルゴリズムを再現する方法をHand in handで教える

限定ダウンロード！ Alibaba は AI をどのように活用してコードを記述しているのでしょうか?

ロボットが密かに出産してみんなを驚かせている？

人工知能をめぐる世界的競争におけるヨーロッパの立場と戦略分析

推薦する

これほど多くのテストを受けて高得点を獲得したにもかかわらず、大手モデルは本当に言語を理解しているのでしょうか?

決まりました！国は人工知能に関する重要なニュースを発表し、これらの人々は集団的に失業することになるだろう...

LangChain と Redis が協力して何かを実現しています!財務文書分析の精度を向上させるツールを作成する

GPT-4 より 10 倍高速!この売れ筋の AI エージェント製品がビッグモデルを揺るがします!

AIと高度な分析を実装し、テクノロジーの変革的影響を理解する方法

AIは役に立たないなんて誰が言ったのでしょうか?パンデミックの間、AIは人類のために多くのことを行ってきました...

解雇はランダムに行われますか? Googleの上級エンジニアが従業員が抗議活動を準備していることを明らかに

ディープラーニングを使用した音声分類のエンドツーエンドの例と説明

予知保全: 畳み込みニューラルネットワーク (CNN) を使用したセンサー障害の検出

人工知能が教育を改善する32の方法