DeepMind Google 研究者の推奨: 拡散モデルの効率と生成品質の向上のヒント

DeepMind Google 研究者の推奨: 拡散モデルの効率と生成品質の向上のヒント

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

画像生成の新しい王様拡散モデルが誕生したのはつい最近のことです。

その理論と実践はどちらもまだ「急速に成長」しています。

NVIDIA の StyleGAN のオリジナル作成者は、拡散モデルの設計に関するヒントやガイドラインを提供しようとしました。その結果、モデルの品質と効率が向上しました。たとえば、既存の ImageNet-64 モデルの FID スコアは 2.07 ポイントから 1.55 ポイントに向上し、SOTA に近づきました。

彼らの仕事の成果はすぐに業界のリーダーたちから認められました。

DeepMind の研究者はこの論文を称賛しました。「この論文は、拡散モデルをトレーニングする人にとって必読の論文であり、間違いなく金鉱です。」

3つの主要な貢献により、モデルの品質と効率が大幅に向上します

StyleGAN の作者による拡散モデルへの 3 つの主要な貢献を次の観点から見ていきます。

一般的なフレームワークを使用して拡散モデルを表現する

この部分では、著者の貢献は主に、モデルの背後にある理論を実用的な観点から観察し、トレーニングとサンプリングの段階で現れる「具体的な」オブジェクトとアルゴリズムに焦点を当て、コンポーネントがどのように相互に接続されているか、およびシステム全体の設計で使用できる自由度をより深く理解することにあります。

要点は次の表です。

この表には、3 つのモデルの特定のバリエーションをフレームワーク内で再現するための式が示されています。

(これら 3 つの方法 (VP、VE、iDDPM+DDIM) は、広く使用されており、SOTA パフォーマンスを実現するだけでなく、異なる理論的根拠に基づいています。)

これらの式では、原則としてコンポーネント間の暗黙的な依存関係は考慮されず、妥当な範囲内で任意の単一の宣言を選択することで機能モデルを導出できます。

ランダムサンプリングと決定論的サンプリングの改善

著者による 2 番目の貢献は、拡散モデルからの合成画像のサンプリング プロセスに関するものです。

彼らは最適な時間離散化を決定し高次ルンゲ・クッタ法をサンプリングプロセスに適用し、3つの事前トレーニング済みモデルに対してさまざまな方法を評価し、サンプリングプロセスにおけるランダム性の有用性を分析しました。

その結果、合成プロセスで必要なサンプリング手順の数が大幅に削減され、改良されたサンプラーは、広く使用されているいくつかの拡散モデルの代替品として使用できます。

まず決定論的サンプリングについて見てみましょう。使用される 3 つのテスト モデルは上記と同じで、異なる理論的フレームワークとモデル ファミリからのものです。

著者らは、まず元のサンプラーを使用してこれらのモデルのベースライン結果実装し、次に表 1 の式を使用してこれらのサンプリング方法を統一されたフレームワークに導入し、改善を加えます。

次に、生成された 50,000 枚の画像と利用可能なすべての実際の画像の間で計算された FID スコアに基づいて品質が評価されます。

ご覧のとおり、元の決定論的サンプラーは青で表示され、これらのメソッドを統合フレームワーク(オレンジ)で再実装すると、同様またはより良い結果が得られます。

著者らは、これらの違いは、元の実装におけるいくつかの見落としと、著者らによる離散ノイズ レベルのより慎重な処理によって生じたものであると説明しています。

決定論的サンプリングには多くの利点がありますが、各ステップで画像に新しいノイズが挿入されるランダム サンプリングよりも品質の低い出力画像が生成されます。

しかし、著者は、ODE (常微分方程式)とSDE (確率微分方程式)が理論的に同じ分布を回復すると仮定した場合、ランダム性の役割は何なのか疑問に思います。

ここで彼らは、既存の高次 ODE 積分器と、ノイズの追加と除去のための明示的な「ランジュバンのような「チャーン」」を組み合わせた新しいランダム サンプラーを提案しています。

最終的なモデルのパフォーマンスは大幅に向上し、サンプラーを改善するだけで、ImageNet-64 モデルの元の FID スコアが 2.07 から 1.55 に増加し、SOTA レベルに近づきました。

前処理とトレーニング

著者の 3 番目の貢献は、スコアモデリングニューラル ネットワークのトレーニングに焦点を当てています

このセクションでは、一般的に使用されるネットワーク アーキテクチャ(DDPM、NCSN)を引き続き使用し、拡散モデル設定におけるネットワークの入力、出力、損失関数の前処理の原理的な分析を通じて、トレーニング ダイナミクスを改善するためのベスト プラクティスを導き出します。

たとえば、σ (ノイズ レベル)に依存するスキップ接続を使用してニューラル ネットワークを事前トレーニングすると、y (信号)または n (ノイズ) 、あるいはその中間の何かを推定できるようになります。

次の表は、モデルのさまざまなトレーニング構成によって取得された FID スコアを具体的に示しています。

著者らは、決定論的サンプラーを使用したベースライントレーニング構成(構成Aと呼ぶ)から始めて、基本的なハイパーパラメータを再調整し(構成B) 、最低解像度のレイヤーを削除して最高解像度のレイヤーの容量を2倍にすることでモデルの表現力を向上させました(構成C)

次に、元の {cin、cout、cnoise、cskip} オプションを前処理(構成 D)に置き換えます。これにより、結果はほぼ同じになりますが、64×64 解像度では VE が大幅に向上します。この前処理方法の主な利点は、FID 自体を改善することではなく、トレーニングをより堅牢にし、悪影響なしに損失関数を再設計することに焦点を移すことです。

VP と VE は、Fθ (構成 E と F) のアーキテクチャのみが異なります

とりわけ、著者らはトレーニング中のノイズレベルの分布を改善することを提案し、 GAN で一般的に使用される手法である非漏洩拡張も拡散モデルにメリットをもたらすことを発見しました。

たとえば、上の表から、条件付きおよび条件なしの CIFAR-10 の最新の FID がそれぞれ 1.79 と 1.97 に達し、以前の記録(1.85 と 2.1046)を破ったことがわかります。

詳細については、原著論文を参照してください。
https://arxiv.org/abs/2206.00364

<<:  米商務省の新規制:承認なしに中国とセキュリティの脆弱性を共有することを禁止、マイクロソフトの異議は無効

>>:  Jitu: 5秒でNeRFをトレーニングしましょう!オープンソース

ブログ    
ブログ    
ブログ    

推薦する

...

機械学習: Python による分類

子供にリンゴとオレンジの区別を教えたいとします。これを行うには複数の方法があります。お子様にこの 2...

コンテキストウィンドウ 16,000 トークン、30 億パラメータ、安定性 AI コード大規模モデルがここにあります

最近、Vincent Diffusion アーティファクトをオープンソース化した Stability...

Googleは「先進的な天気予報AI」MetNet-3を発表、その予測結果は従来の物理モデルを上回ると主張

11月3日、Google ResearchとDeepMindは最新の気象モデルMetNet-3を共同...

AIは追いつこうと努力しているが、5Gはカーブで追い越しつつある。トランプ氏が不安にならないわけがない。

[[263771]] 5Gの進歩に伴い、コスト面でも速度面でも、中国の5Gなしでは5Gを推進するの...

英国のAI研究者マイケル・ローンズによる機械学習の5つの大きな落とし穴を避けるための独占ガイド

[[416810]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

これらの 10 個のオープンソース機械学習ツールを使用したことがありますか?

機械学習開発者として、あなたは多くの機械学習リソースに遭遇したことがあるかもしれません。今日は、オー...

人工知能は祝福か、それとも呪いなのか?事故は急増しており、アップルとグーグルも例外ではない

人工知能は現代の大きな発展のトレンドであり、世界中のほぼすべてのハイテク企業が AI 分野の技術を研...

5G+自動運転車の時代において、Car OSの主導権を握るのは誰でしょうか?

「人間の情報に対する欲求は、原始人の食欲に似ています。食物から摂取するカロリーは欲求を満たすことが...

劉強東:人工知能の時代が来ています。このチャンスをつかめば、あなたは豊かになれます。

劉強東は言った。「この世で働かずに得られる唯一のものは貧困であり、無から創造できる唯一のものは夢であ...

AI体温測定:仕事再開の波の中で構築された最初の防疫「障壁」

[51CTO.comより] 業務を再開する企業が相次ぐ中、新型コロナウイルス肺炎の流行は「輸入症例...

人工知能時代の未来の人材をどう育成するか?専門家や名門校の校長はこう言う

人工知能の時代、未来の人材をどう育成するか? 10日、2019年重慶人材大会第4回大学・高校教育発展...

Google は、開発者が独自のモデルを構築できるようにエンドツーエンドの AI プラットフォームをリリースしました。

Google は一連の人工知能ツールをリリースしました。これらすべての新しいツールとサービスの核と...

人工知能と IoT – 進化する 5 つのユースケース

AI(人工知能)とIoT(モノのインターネット)の融合により、世界中の企業に大きな可能性がもたらされ...