Google UFOGen は、非常に高速なサンプリング速度で高品質の画像を生成できます。

Google UFOGen は、非常に高速なサンプリング速度で高品質の画像を生成できます。

過去1年間、Stable Diffusionに代表される一連の文化イメージ拡散モデルは、ビジュアル創造の分野を完全に変えました。拡散モデルによって生成された画像を使用することで、数え切れないほどのユーザーが生産性を向上させています。しかし、拡散モデルを生成できる速度は永遠の問題です。ノイズ除去モデルは、初期のガウスノイズを段階的に画像に変換する多段階のノイズ除去に依存しているため、ネットワークを複数回計算する必要があり、生成速度が遅くなります。このため、大規模なテキスト グラフ拡散モデルは、リアルタイム性とインタラクティブ性を重視する一部のアプリケーションには非常に不向きです。一連の技術の導入により、拡散モデルからのサンプリングに必要なステップ数は、当初の数百ステップから数十ステップ、さらには 4 ~ 8 ステップにまで減少しました。

最近、Google の研究チームは、非常に迅速にサンプリングできる拡散モデルのバリエーションである UFOGen モデルを提案しました。論文で提案された方法を使用して Stable Diffusion を微調整することにより、UFOGen はわずか 1 ステップで高品質の画像を生成できます。同時に、グラフ生成や ControlNet などの Stable Diffusion の下流アプリケーションも保持できます。

論文リンク: https://arxiv.org/abs/2311.09257

下の図からわかるように、 UFOGen はたった 1 つのステップで高品質で多様な画像を生成できます。

拡散モデルの生成速度を向上させることは、新しい研究方向ではありません。この分野におけるこれまでの研究は、主に 2 つの方向に焦点が当てられてきました。 1 つの方向性は、より少ない離散ステップで拡散モデルのサンプリング ODE を解くという目標を達成するために、より効率的な数値計算方法を設計することです。たとえば、清華大学の Zhu Jun 氏のチームが提案した DPM シリーズの数値ソルバーは、安定拡散に対して非常に効果的であることが証明されており、DDIM のデフォルトの 50 ステップから 20 ステップ未満に、解析ステップ数を大幅に削減できます。もう 1 つの方向性は、知識蒸留法を使用して、モデルの ODE ベースのサンプリング パスをより少ないステップ数に圧縮することです。この方向性の例として、CVPR2023 の最優秀論文候補の 1 つであるガイド付き蒸留や、最近人気の潜在的一貫性モデル (LCM) が挙げられます。特に、LCM は一貫性ターゲットを絞り込むことでサンプリング ステップの数をわずか 4 ステップにまで削減できるため、多くのリアルタイム生成アプリケーションが誕生しました。

しかし、Googleの研究チームはUFOGenモデルにおいて上記の一般的な方向性には従わず、異なるアプローチを取り、 1年以上前に提案された拡散モデルとGANのハイブリッドモデルのアイデアを使用しました。彼らは、前述の ODE ベースのサンプリングと蒸留には根本的な限界があり、サンプリング手順の数を限界まで圧縮することは難しいと考えています。したがって、ワンステップ生成という目標を達成したいのであれば、新しいアイデアを切り開く必要があります。

拡散モデルと GAN のハイブリッド モデルは、ICLR 2022 で NVIDIA の研究チームによって初めて提案された DDGAN (Tackling the Generative Learning Trilemma with Denoising Diffusion GANs) です。これは、ノイズ低減分布に関してガウス仮定を行う通常の拡散モデルの根本的な欠陥に着想を得ています。簡単に言えば、拡散モデルでは、ノイズ低減分布 (ノイズが追加されたサンプルが与えられた場合、ノイズが少ないサンプルの条件付き分布) が単純なガウス分布であると想定しています。しかし、確率微分方程式の理論では、このような仮定はノイズ除去ステップ サイズが 0 に近づく場合にのみ有効であることが証明されています。したがって、拡散モデルでは、ノイズ除去ステップ サイズを小さくするために、多数のノイズ除去ステップを繰り返す必要があり、生成速度が非常に遅くなります。

DDGAN は、ノイズ除去分布のガウス仮定を放棄し、代わりに条件付き GAN を使用してノイズ除去分布をシミュレートすることを提案します。 GAN は非常に強力な表現機能を備えており、複雑な分布をシミュレートできるため、より大きなノイズ除去ステップ サイズを使用してステップ数を減らすことができます。しかし、DDGAN は拡散モデルの安定した再構築のトレーニング目標を GAN のトレーニング目標に変更するため、トレーニングの不安定性が生じやすく、より複雑なタスクへの拡張が困難になります。 NeurIPS 2023では、UGOGenを作成した同じGoogleの研究チームがSIDDM(論文タイトル:Semi-Implicit Denoising Diffusion Models)を提案しました。これは、DDGANのトレーニング目標に再構築目的関数を再導入し、DDGANと比較してトレーニングの安定性と生成品質を大幅に向上させました。

UFOGen の前身である SIDDM では、CIFAR-10 や ImageNet などの研究データセットで高品質の画像を生成するのに 4 つのステップしか必要ありません。しかし、 SIDDM には解決すべき 2 つの問題があります。1 つ目は、理想的なワンステップ生成を実現できないこと、2 つ目は、より一般的な文化マップの分野に拡張することが容易ではないことです。このため、Google の研究チームはこれら 2 つの問題を解決するために UFOGen を提案しました。

具体的には、問題 1 については、簡単な数学的分析により、ジェネレータのパラメータ化方法を変更し、再構成損失関数の計算方法を変更することで、モデルは理論的には 1 ステップ生成を実現できることを発見しました。質問 2 については、チームは、UFOGen モデルをテキスト画像タスクに迅速かつ適切に拡張できるように、既存の安定拡散モデルを初期化に使用することを提案しました。 SIDDM では、ジェネレータとディスクリミネータの両方に UNet アーキテクチャを使用することを提案していることは注目に値します。したがって、この設計に基づいて、UFOGen のジェネレータとディスクリミネータは、安定拡散モデルによって初期化されます。そうすることで、Stable Diffusion 内の情報、特に画像とテキストの関係に関する情報を最大限に活用できます。このような情報は敵対的学習を通じて得ることは困難です。トレーニング アルゴリズムと図を以下に示します。

注目すべきは、Nvidia の StyleGAN-T や Adob​​e の GigaGAN など、GAN を使用してテキストや画像を生成する研究が以前にもいくつかあったことです。どちらも StyleGAN の基本アーキテクチャをより大規模に拡張し、1 ステップでテキストと画像を生成できるようにしています。 UFOGen の著者らは、生成品質に加えて、UFOGen には以前の GAN ベースの作業に比べていくつかの利点があると指摘しています。

1. 純粋な GAN トレーニングは、特にテキストから画像へのタスクでは非常に不安定です。識別器は、画像のテクスチャを区別する必要があるだけでなく、画像とテキストの一致度も理解する必要があり、これは特にトレーニングの初期段階では非常に難しいタスクです。そのため、GigaGAN などの従来の GAN モデルでは、トレーニングを支援するために多数の補助損失が導入され、トレーニングとパラメータの調整が非常に困難になりました。 UFOGen には再構築損失があるため、ここでは GAN が補助的な役割を果たすため、トレーニングは非常に安定しています。

2. GAN を最初から直接トレーニングすることは、不安定なだけでなく、特に大量のデータとトレーニング手順を必要とするヴィンセント グラフなどのタスクの場合、非常にコストがかかります。 2 セットのパラメータを同時に更新する必要があるため、GAN トレーニングでは拡散モデルよりも多くの時間とメモリが消費されます。 UFOGen の革新的な設計により、安定した拡散からパラメータを初期化できるため、トレーニング時間が大幅に節約されます。通常、収束するには数万回のトレーニング ステップのみが必要です。

3. テキスト生成グラフ拡散モデルの大きな魅力の 1 つは、グラフ生成グラフなどの微調整を必要としないアプリケーションや、制御可能な生成などのすでに微調整を必要とするアプリケーションを含む他のタスクに適用できることです。これまでの GAN モデルでは、GAN の微調整が常に困難であったため、これらの下流タスクに拡張することが困難でした。対照的に、UFOGen には拡散モデル フレームワークがあるため、これらのタスクに簡単に適用できます。次の図は、UFOGen のグラフ生成と制御可能な生成の例を示しています。これらの生成にも 1 つのサンプリング ステップのみが必要であることに注意してください。

実験では、UFOGen はたった 1 回のサンプリング ステップでテキストの説明に一致する高品質の画像を生成できることが示されています。最近提案された拡散モデル用の高速サンプリング方法(大規模火災用の Instaflow および LCM を含む)と比較すると、UFOGen は強力な競争力を示しています。 50 ステップのサンプリングされた Stable Diffusion と比較しても、UFOGen によって生成されたサンプルは見た目が弱いようには見えません。比較結果は次のとおりです。

要約する

Google チームは、既存の拡散モデルと GAN ハイブリッド モデルを改良することで、ワンステップでテキストから画像への生成を実現できる強力な UFOGen モデルを提案しました。このモデルは Stable Diffusion によって微調整することができ、さまざまな下流アプリケーションに適合しながらワンステップのテキストから画像への変換機能を確保できます。超高速のテキストから画像への合成を実現した初期の研究の 1 つとして、UFOGen は効率的な生成モデルの分野に新たな道を開きます。

<<:  GPT-4Vの自動運転への応用の見通しは?現実世界のシナリオの包括的な評価はここにあります

>>:  Google Bardは「防御を突破」し、自然言語を使ってロックを解除、インジェクションによるデータ漏洩のリスクを示唆

ブログ    
ブログ    

推薦する

この世界的に有名な旅行ウェブサイトは、150の独自の機械学習モデルを分析し、6つの教訓を学びました。

多くのメディア記事では、「機械学習がXX業界に力を与える」という言葉を目にしますが、この「エネルギー...

...

...

ロボットは共感を持つことができるか?感情AIはどれくらい使えるのか?

ポータブル AI アプリケーションといえば、まず Siri、Alexa、Google Assista...

プレーン AI: ディープラーニングを理解するのは本当に難しいのでしょうか?中学数学、たった10分

現在、AI が業界で重要な役割を果たしているため、ディープラーニングは重要な研究分野として、意味理解...

天才少年・志慧君が志遠ロボットとともに会場に入場!脳としてAIモデル、目標価格は20万以下

Huaweiの才能あふれる若者Zhihuiの起業家デビューがついに登場!観衆の注目が集まる中、「Ex...

...

完全なルーティングアルゴリズムの設計目標の分析

ルーティング アルゴリズムには通常、次の 1 つ以上の設計目標があります。最適化最適化とは、メトリッ...

トランスワープテクノロジーの孫元浩氏が「中国の人工知能起業家30人」の一人に選出

2020 年は特別な年であり、World Innovators Meet (WIM) の 6 年目と...

AIが麻雀をプレイする論文:理系の学生にとって麻雀はこう見える

AI 研究の初期の頃から、チェッカー、チェス、囲碁、ポーカーから StarCraft II に至るま...

今後の企業イノベーションを牽引する10の優れたテクノロジー

エンタープライズ テクノロジーの将来は、業界を変えるほどの大きな革新をもたらすでしょう。 5G から...

2023 年のフィンテック業界における AI トレンド トップ 10

2023 年の FinTech 業界では、変革的な AI トレンドが見られます。機械学習、ロボティ...

Java プログラミング スキル - データ構造とアルゴリズム「バランス バイナリ ツリー」

[[390860]]バイナリソートツリーで起こりうる問題シーケンス {1,2,3,4,5,6} が...

あなたの頭上に「ロボット」がやって来ます!起業家の知恵:リアルタイムで位置を特定し、自動的に警報を鳴らすスマートヘルメットの開発

[[317160]]建設作業中には、火災、電気、機械など、多くの潜在的な安全上の危険が存在します。安...

.NET 6 でのハッシュ アルゴリズムの簡略化された使用

[[422468]]この記事はWeChatの公開アカウント「amazingdotnet」から転載した...