推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォーマンスの向上、そして創造の拡張につながっています。

しかし、テキストのみで画像生成を制御すると、期待どおりの結果が得られないことがよくあります。たとえば、特定のキャラクターの姿勢や表情をテキストで指定することは困難です。

写真

最近、Google は MediaPipe Diffusion プラグインをリリースしました。これは、既存の事前トレーニング済み拡散モデルとその低ランク適応型 (LoRA) バリアントをサポートし、モバイル デバイス上で「制御可能なテキストから画像への生成」のための低コストのソリューションを実行できます。

背景

拡散モデルに基づく画像生成プロセスは、反復的なノイズ除去プロセスと考えることができます。

拡散モデルは、ノイズの多い画像から始めて、各ステップで徐々に画像のノイズを除去し、ターゲットコンセプトに一致する画像を生成します。テキストプロンプトを条件として採用することで、画像生成効果を大幅に向上させることができます。

テキストから画像への生成では、テキストの埋め込みがクロスアテンションレイヤーを介して画像生成モデルに接続されますが、オブジェクトの位置や姿勢など、テキストの手がかりでは説明が難しい情報がまだ残っています。

この問題を解決するために、研究者らは、拡散モデルに追加モデルを導入して、条件付き画像に制御情報を注入することを提案しました。

一般的に使用されるコントロール プロット方法は次のとおりです。

1. プラグアンドプレイは、入力画像から生成プロセスを逆にして初期ノイズ入力を導出するノイズ除去拡散暗黙モデル (DDIM) 反転法を使用し、次に拡散モデル (Stable Diffusion 1.5 の場合は 8 億 6000 万のパラメータ) を使用して入力画像から条件をエンコードします。

プラグ アンド プレイは、複製の拡散から自己注意を使用して空間特徴を抽出し、それをテキストから画像への拡散プロセスに挿入します。

2. ControlNet は、ゼロ初期化パラメータを持つ畳み込み層を介して接続された拡散モデル エンコーダーのトレーニング可能なコピーを作成し、デコーダー層に渡される条件情報をエンコードします。

3. T2I アダプターは、制御可能な生成で同様の結果を達成できるより小さなネットワーク (7,700 万パラメータ) であり、条件付き画像のみを入力として受け取り、その出力はすべての拡散反復で共有されます。

ただし、T2I アダプタ モデルはポータブル モバイル デバイス用に設計されていません。

MediaPipe 拡散プラグイン

条件付き生成をより効率的、カスタマイズ可能、スケーラブルにするために、研究者は MediaPipe 拡散プラグインを別のネットワークとして設計しました。

1. プラグ可能: 事前にトレーニングされたベースモデルと簡単に接続できます。

2. 最初からトレーニング: ベースモデルの事前トレーニング済みの重みを使用しません。

3. 移植性: 基本モデルはモバイル デバイスで実行でき、元のモデルと比較して推論コストはごくわずかです。

写真

プラグアンドプレイ、ControlNet、T2I アダプター、MediaPipe 拡散プラグインの比較、*数値は選択したモデルによって異なります

簡単に言うと、MediaPipe 拡散プラグインは、ポータブル デバイスで実行できるテキストから画像への生成モデルです。条件付き画像からマルチスケールの特徴を抽出し、対応する階層型拡散モデルのエンコーダーに追加します。テキストから画像への拡散モデルに接続すると、プラグイン モデルは画像生成に追加の条件付き信号を提供できます。

プラグイン ネットワークは、600 万個のパラメーターのみを持つ軽量モデルであり、MobileNetv2 の深い畳み込みと逆ボトルネックを使用して、モバイル デバイスでの高速推論を実現します。

写真

MediaPipe 拡散モデル プラグインは、出力を事前トレーニング済みのテキストから画像への生成モデルにプラグインできる別のネットワークであり、抽出された特徴は拡散モデルの関連するダウンサンプリング レイヤーに適用されます (青)。

ControlNet とは異なり、研究者はすべての拡散反復に同じ制御関数を挿入したため、画像生成プロセスではプラグインを 1 回実行するだけで済み、計算の労力を節約できます。

以下の例からわかるように、制御効果は各拡散ステップで有効であり、初期の反復でも生成プロセスを制御できます。反復を増やすと、画像とテキストプロンプトの位置合わせが改善され、より多くの詳細が生成されます。

MediaPipe 拡散プラグインを使用した生成プロセスのデモンストレーション

この研究では、研究者らは、MediaPipe 顔ランドマーク、MediaPipe 全体的ランドマーク、深度マップ、Canny エッジのプラグインを備えた拡散ベースのテキストから画像への生成モデルを開発しました。

各タスクでは、非常に大規模な画像テキスト データセットから約 100,000 枚の画像が選択され、対応する MediaPipe ソリューションを使用して制御信号が計算され、プラグインは PaLI に最適化された記述を使用してトレーニングされました。

フェイスランドマーク

MediaPipe Face Landmarker タスクは、顔の 478 個のランドマークを計算します (注意して)。

研究者たちは、MediaPipe の描画ユーティリティを使用して、顔の輪郭、口、目、眉毛、虹彩を含む人間の顔をレンダリングし、さまざまな色を使用して表現しました。

次の例は、顔のメッシュとプロンプトを調整することによってランダムに生成されたサンプルを示しています。対照的に、ControlNet とプラグインはどちらも、指定された条件下でテキストから画像への生成を制御できます。

写真

ControlNet と比較した、テキストから画像を生成するための顔ランドマーク プラグイン。

ホリスティックランドマーク

MediaPipe Holistic Landmark タスクには、体のポーズ、手、顔のメッシュのランドマークが含まれており、全体的な特徴を調整することでさまざまな様式化された画像を生成できます。

テキストから画像を生成するための総合的なランドマーク プラグイン。

深さ

ディーププラグインを使用したテキストから画像への生成。

賢いエッジ

画像にテキストを生成する Canny-edge プラグイン。

評価する

研究者らは、モデルのパフォーマンスを実証するために、顔ランドマーク プラグインの定量評価を実施しました。評価データセットには 5,000 枚の人間の画像が含まれており、使用された評価指標にはフレシェ開始距離 (FID) と CLIP スコアが含まれます。

ベースモデルは、事前学習済みのテキストから画像への拡散モデルStable Diffusion v1.5を使用します。

FID、CLIP、推論時間の定量的比較

実験結果の FID および CLIP スコアから判断すると、ControlNet および MediaPipe 拡散プラグインによって生成されたサンプルの品質は、ベース モデルの品質よりもはるかに優れています。

ControlNet とは異なり、プラグイン モデルは生成された画像ごとに 1 回だけ実行すればよく、ノイズ除去の各ステップで実行する必要がないため、推論時間は 2.6% しか増加しません。

研究者らは、サーバーマシン(Nvidia V100 GPU を使用)とモバイルデバイス(Galaxy S23)で 3 つのモデルのパフォーマンスを測定しました。サーバーでは、3 つのモデルすべてが 50 の拡散ステップを使用して実行され、モバイルデバイスでは、MediaPipe 画像生成アプリケーションを使用して 20 の拡散ステップが実行されました。

ControlNet と比較すると、MediaPipe プラグインはサンプル品質を維持しながら推論効率において明らかな利点を示します。

さまざまなモバイルデバイスでのプラグインの推論時間 (ミリ秒)

要約する

この研究で研究者らは、条件付き画像から抽出した特徴を拡散モデルに注入して画像生成プロセスを制御する、モバイルフレンドリーな条件付きテキストから画像への生成プラグインである MediaPipe を提案しました。

ポータブルプラグインは、サーバーまたはデバイス上で実行される事前トレーニング済みの拡散モデルに接続できるため、テキストから画像への生成とプラグインを完全にデバイス上で実行することで、生成AIをより柔軟に適用できます。

<<:  トランスフォーマーのメンバー8人全員がGoogleに亡命!最後の共著者は今月末に自身のビジネスを始めるために退社する。

>>:  清華大学と中国気象局の大規模モデルがネイチャー誌に掲載:世界レベルの問題を解決、「幽霊天気」の予報時間が初めて3時間に到達

ブログ    

推薦する

Rocket Launch: 効率的で軽量なネットワーク トレーニング フレームワーク

まとめクリックスルー率の推定などのオンラインリアルタイム応答システムでは、応答時間に関して非常に厳し...

大きな模型 = 容器に入った脳?同源病院の朱松春氏のチームがAGIの主な欠陥を分析

最近、ChatGPT/GPT-4シリーズの製品は世界的な注目と議論を集めており、それらに代表される大...

2018 年最も注目された AI および機械学習のスタートアップ 10 社

PwCとCB Insightsによるマネーツリーのレポートによると、人工知能のスタートアップへの投資...

...

Llama 2 の精度を 80.3% まで高めるヒントは何でしょうか? Metaは、モデルの幻覚を大幅に削減する新しい注意メカニズムS2Aを提案している。

2023年の科学技術の世界は、(偽の室温超伝導を除いて)大型モデルが主流であると言えます。私たちは...

...

APP はユーザーのプライバシーと顔認識生体認証情報を深く掘り下げ、「データ疫病」の到来に注意

315 Gala で摘発された企業は、業界内ではほんの少数派です。ユーザーのプライバシーを侵害するア...

生成 AI: サイバーセキュリティにとっての恩恵か、それとも災いか?

先月、イーロン・マスク氏は公開書簡でAIシステムの開発を6か月間停止するよう求め、「人間と競合する知...

...

Python+AI で古い写真をカラー化

こんにちは、みんな。今日も引き続き、興味深い AI プロジェクトを皆さんと共有したいと思います。前回...

NetEase はデータ指標の異常をどのように検出し、診断するのでしょうか?

1. 背景指標はビジネスと密接に関係しており、その価値は、問題点やハイライトを発見し、タイムリーに...

産業用ロボットの急速な発展は社会にどのような影響を与えるのでしょうか?

インテリジェントインダストリー4.0の急速な発展に伴い、ますます多くの業界でロボットが手作業に代わる...

ビッグニュース!アリママが自社開発のCTR推定コアアルゴリズムMLRを初公開

1. 技術的背景CTR(Click-Through-Rate)とは、クリック率のことで、インターネッ...

AIとIoTの統合が加速

人工知能 (AI) とモノのインターネット (IoT) の技術トレンドが融合し始めており、業界ではこ...