Apple の「マトリョーシカ」拡散モデルはトレーニング ステップ数を 70% 削減します。

Apple の「マトリョーシカ」拡散モデルはトレーニング ステップ数を 70% 削減します。

Apple による最近の研究により、高解像度画像における拡散モデルのパフォーマンスが大幅に向上しました。

この方法を使用すると、同じ解像度の画像のトレーニング ステップ数が 70% 以上削減されます。

1024×1024 の解像度では、画像の品質が最大化され、すべての詳細が鮮明に表示されます。

Appleはこの成果をMDMと名付けました。DMはDiffusion Modelの略で、最初のMはMatryoshkaを表しています。

MDM は、本物の入れ子人形のように、高解像度のプロセスの中に低解像度のプロセスを入れ子にし、複数のレイヤーにネストします。

高解像度と低解像度の拡散プロセスが同時に実行されるため、高解像度プロセスにおける従来の拡散モデルのリソース消費が大幅に削減されます。

解像度 256×256 の画像の場合、バッチ サイズが 1024 の環境では、従来の拡散モデルでは 150 万ステップのトレーニングが必要ですが、MDM では 39 万ステップしか必要ありません。これは 70% 以上の削減になります。

さらに、MDM はエンドツーエンドのトレーニングを使用し、特定のデータセットや事前トレーニング済みのモデルに依存しません。生成品質を確保しながら高速化を実現し、柔軟に使用できます。

高解像度の画像を描画できるだけでなく、16×256²の動画を合成することもできます。

一部のネットユーザーは、Appleがついにテキストと画像を関連付けたとコメントした。

では、MDM の「入れ子人形」テクノロジーは具体的にどのように機能するのでしょうか?

全体的かつ漸進的なアプローチを組み合わせる

トレーニングを開始する前に、データを前処理する必要があります。高解像度の画像は、特定のアルゴリズムを使用して再サンプリングされ、さまざまな解像度のバージョンが取得されます。

次に、これらの異なる解像度のデータを使用して、共同 UNet モデリングを実行します。小さな UNet は低解像度を処理し、高解像度を処理する大きな UNet にネストされます。

クロス解像度接続により、さまざまなサイズの UNets が機能とパラメータを共有できます。

MDM トレーニングは段階的なプロセスです。

モデリングは共同で行われますが、トレーニングプロセスは高解像度から始まるのではなく、低解像度から始めて徐々に拡大していきます。

そうすることで、膨大な量の計算を回避できるだけでなく、低解像度の UNet 事前トレーニングによって高解像度のトレーニング プロセスを加速できるようになります。

トレーニング プロセス中に、より高解像度のトレーニング データが徐々にプロセス全体に追加され、モデルが徐々に増加する解像度に適応し、最終的な高解像度のプロセスにスムーズに移行できるようになります。

ただし、全体的に見ると、高解像度のプロセスが徐々に追加された後も、MDM のトレーニングはエンドツーエンドの共同プロセスのままです。

異なる解像度での共同トレーニングでは、複数の解像度での損失関数を一緒に使用してパラメータを更新し、多段階のトレーニングによって発生するエラーの蓄積を回避します。

各解像度には対応するデータ項目の再構築損失があり、異なる解像度の損失は重み付けされて結合されます。生成の品質を確保するために、低解像度の損失重みは大きくなります。

推論フェーズでは、MDM は並列処理と増分性を組み合わせた戦略も採用します。

さらに、MDM は、事前にトレーニングされた画像分類モデル (CFG) を使用して、生成されたサンプルの最適化をより合理的な方向に導き、低解像度のサンプルにノイズを追加して、高解像度のサンプルの分布に近づけます。

では、MDM の効果は何でしょうか?

SOTAに一致するパラメータが少ない

画像に関しては、ImageNet および CC12M データセットでは、MDM の FID (値が低いほど効果が高い) および CLIP のパフォーマンスが、通常の拡散モデルよりも大幅に優れています。

FID は画像自体の品質を評価するために使用され、CLIP は画像とテキスト指示の一致度を記述します。

DALL E や IMAGEN などの SOTA モデルと比較すると、MDM のパフォーマンスも非常に近いですが、MDM のトレーニング パラメーターはこれらのモデルよりもはるかに少なくなっています。

MDM は通常の拡散モデルよりも優れているだけでなく、他のカスケード拡散モデルよりも優れています。

アブレーション実験の結果によると、低解像度のトレーニングのステップ数が多いほど、MDM 効果が顕著になります。一方、ネストされたレベル数が多いほど、同じ CLIP スコアを達成するために必要なトレーニング ステップ数が少なくなります。

CFG パラメータの選択に関しては、複数のテスト後の FID と CLIP のトレードオフの結果です (CLIP スコアが高いほど CFG 強度が増加することを意味します)。

<<: 

>>:  オープンソース版「ChatGPT Plus」が登場。データ分析、プラグイン通話、自動インターネットアクセス、現実世界のインテリジェントエージェントの実装が可能

ブログ    
ブログ    

推薦する

[オピニオン] アルゴリズムとテクノロジーが成熟すれば、新しい小売業は本当に素晴らしい時代を迎えることになる

2007年、サンフランシスコのモスコーニセンターで開催されたMacWorldカンファレンスで、スティ...

ソースディレクトリ内のファイルをプレフィックスに応じて異なるディレクトリに分散するためのアルゴリズム設計と C コードの実装

1. 要件の説明Linux システムのソース ディレクトリには、同じサフィックスを持つファイルがいく...

アメリカのショッピングプラットフォームStitch Fixの王建強氏:データ主導の意思決定サポートと製品インテリジェンス

[51CTO.comより] 最近、51CTOが主催するWOTAグローバルアーキテクチャと運用技術サミ...

科学者はAIを使って人気曲を97%の精度で識別する

6月21日のニュースによると、新たな研究により、人工知能(AI)は人気曲を正確に識別できることが示さ...

GPT-5は来年登場?内部告発者は、マルチモーダルゴビはGPT-5であり、自己認識能力を示していることを明らかにした。

OpenAI 初の開発者会議は AI の饗宴です。 GPT-4 Turbo、大幅な値下げ、開発者向...

数秒で AI を学ぶ - ディープラーニングの一般的な 4 つの活性化関数: シグモイド、Tanh、ReLU、Softmax

ディープラーニングにおける活性化関数は、ニューラル ネットワークの重要なコンポーネントです。活性化関...

AIが人間の翻訳者に取って代わり、有名なテクノロジーウェブサイトは13歳の従業員まで解雇し、ウェブサイトはすべてAIによって制作されている

AIは本当に人間の仕事を奪う——有名なテクノロジーウェブサイト「ギズモード」が、スペイン語チャンネル...

GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

人間の認知においては、汎用人工知能(AGI)を人工知能の究極の形、およびその開発の究極の目標として設...

IoTとAIの組み合わせ:さまざまなスマートフォンが互いに学習できるようにする

センサーといえば、まず思い浮かぶのはウェアラブルデバイスです。今ではウェアラブルデバイスが広く普及し...

顧客サービスの革命: 現代のビジネスにおける広報ロボットの役割

人工知能 (AI) の登場により、企業の運営方法は劇的に変化し、PR ボットが顧客サービスの革命にお...

ガートナーの調査によると、企業は来年AIプロジェクトを2倍に増やすと予想している。

世界有数の情報技術調査およびアドバイザリ企業であるガートナーによる最近の調査によると、現在人工知能 ...

Google のような大企業を辞めた後、彼らはどうやって次の仕事を見つけるのでしょうか?

今年上半期、中国と米国のインターネット・テクノロジー企業は、程度の差はあれ、レイオフや人員削減を経験...

機械学習とビッグデータを学ぶための必読書6選!

機械学習とデータサイエンスは複雑で相互に関連した概念です。技術トレンドに遅れないようにするには、知識...

ディープラーニング以外に機械翻訳には何が必要ですか?

[[200675]]視聴者が足りないなら、噂話で十分だまずは噂話から始めましょう。この記事を書き始...