OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

最近またFaceAPPが人気になってきているので、編集者もダウンロードして試してみました。

大丈夫ですよ、かなり興味深いです。

FaceAPP の背後には、生成的敵対的ネットワーク (GAN) に基づく画像生成テクノロジーがあります。

GAN は 2014 年の誕生以来、画像生成、特にディープフェイクの顔生成の研究と応用をほぼ完全に支配してきました。

しかし、GAN はトレーニングが難しく、モード崩壊などの問題が発生しやすいです。

ディープフェイクの「モデル」を使用して他の人が作成したビデオと、ディープフェイクの「マジック」を使用して私が作成したビデオ

こうして新しいSOTAモデルが誕生した

GAN のこれらの問題に対応するため、OpenAI の 2 人の研究者、Prafulla Dhariwal 氏と Alex Nichol 氏は他のアーキテクチャを検討しました。

最新の論文「拡散モデルが画像合成で GAN に勝つ」では、提案された拡散モデル アーキテクチャが GAN の欠点を解決し、画像生成タスクで GAN に勝ち、SOTA レベルに達すると述べています。

タイトルに「Beat」という言葉を使ったところ、彼らが非常に野心的であることが分かりました。

「ImageNet 512x512 で 3.85 FID を達成しました。BigGAN と同等のパフォーマンスを維持するだけでなく、サンプルあたりのフォワード パスの数を 25 に減らし、分布のカバレッジを向上させました。」

たまたま検索してみたところ、記事全体で 15 個の「最先端」があることがわかりました。GAN について説明している 2、3 個 (敗北または転換点を迎えている) を除き、その他は基本的にすべて独自の新しいモデルについて説明しています。これが SOTA であるかどうかは別として、著者は間違いなく SOTA であると考えています。

時は3ヶ月前に戻る

非常に興味深いのは、引用文献の中に、この二人が著者である論文があることです。

今年2月には「改良型ノイズ低減拡散確率モデル」と題した論文を発表し、GANとの比較も行われたが、この時点ではまだGANを「打ち負かした」わけではなかった。

意外にも、3か月後、彼らは新しい論文で成功したと述べました。彼らはかなり効率的であるようです。

同じ 1 億個のパラメータを持つモデルとして、BigGAN-Deep は、FID の点で、現時点で著者がトレーニングした DDPM よりも大幅に優れたパフォーマンスを発揮します。しかし、この2人は2億7000万のパラメータでトレーニングしたモデルで力ずくで勝利した。

ノイズ除去拡散確率モデル (DDPM) - 改良版

拡散モデルは、画像生成タスクでも優れたパフォーマンスを発揮する、別のクラスのディープラーニング モデルです。

ランダムなノイズ画像をトレーニング分布内のポイントにマッピングすることを学習する GAN とは異なり、拡散モデルはノイズの多い画像を取得し、一連のノイズ除去手順を実行して、ノイズを徐々に削減し、トレーニング データ分布に属する画像を生成します。

DDPM は、サンプリング品質にほとんど影響を与えずに、より高速にサンプリングし、より優れた対数尤度を得ることができます。トレーニング計算の量を増やすと、サンプルの品質と対数尤度が向上します。

「改良されたモデルでは、より少ないサンプルで済むことがわかり、驚いた」と2人の著者は述べた。著者が 25 のフォワード サンプリングの促進に重点を置くのは不思議ではありません。

詳細については、次の論文を参照してください。
出典:http://arxiv.org/pdf/2102.09672.pdf

新たな普及モデル

3 か月後、Dhariwal 氏と Nichol 氏は、以前の失敗を補い、拡散モデルのアーキテクチャを再度改良して、モデルのパフォーマンスをさらに向上させることを決定しました。

  1. モデルのサイズを比較的一定に保つために、深さと幅を同じ比率で増やします。
  2. 注意ヘッドの数を増やします。
  3. 32×32、16×16、8×8に注目レイヤーを追加します。
  4. アクティベーションは、BigGAN の残差モジュールを使用してアップサンプリングおよびダウンサンプリングされます。
  5. 残留接続のスケールを調整します。

アテンション ヘッドの数を増やすか、ヘッドあたりのチャネル数を減らすと、FID が向上します。

比較の結果、モデルは最終的に 128 の基本チャネル、解像度ごとに 2 つの残差モジュール、マルチ解像度の注意、BigGAN アップ/ダウン サンプリングを使用することを選択し、注意ヘッドごとに 64 チャネルを使用して 70 万回の反復でモデルをトレーニングしました。

ImageNet 128×128 モデルの場合、分類器の勾配が変化すると、サンプルの品質も変化します。勾配が 1.0 を超えると、精度と再現率の間でスムーズなトレードオフが得られます。

BigGAN-deep は変更を切り捨てるときにトレードオフを行います。

結果と評価

OpenAI の拡散モデルは、すべてのタスクで最高の FID スコアを達成し、1 つのタスクを除くすべてのタスクで最高の sFID スコアを達成しました。

改良されたモデル構造により、LSUN および ImageNet 64×64 で SOTA 画像生成結果を達成できます。

高解像度の ImageNet の場合、このモデルは最高の GAN よりも優れたパフォーマンスを発揮します。この時点で、モデルは、わずか 25 回の拡散でも、高いカバレッジ (リコールで測定) を維持しながら、GAN と同様の知覚品質を実現できます。著者は、これら 25 回の順方向伝播の結果に非常に満足しているようです。

生成モデルのサンプル品質の比較。 ADM はテキスト内の拡散モデルを参照しますが、ADM-G は分類子を追加します。

左側は BigGAN ディープ モデルの結果、中央は OpenAI 拡散モデルの結果、右側は元のトレーニング セットからの画像です。

上の画像も同様の図を示していますが、研究者は拡散モデルがトレーニング セットからより多くのことを学習したと説明しています。

「サンプルの知覚品質は似ていますが、拡散モデルには、ダチョウの頭のクローズアップ、フラミンゴ1羽、さまざまな角度のチーズバーガー、人が持っていない魚など、GANよりも多くのコンテンツが含まれています。」

著者の結論

GAN と比較すると、拡散モデルはより優れたサンプル品質を得ることができます。

改善されたアーキテクチャは、無条件画像生成タスクで SOTA を達成するのに十分であり、分類器ガイダンス技術により、モデルはクラス条件付きタスクのサンプル品質をさらに向上させることができます。

拡散モデルは、GAN と拡散モデル間のサンプリング時間のギャップを短縮できますが、サンプリング プロセス中に複数の順方向伝播が依然として必要になります。

最後に、ガイダンスとアップサンプリングを組み合わせることで、高解像度条件下での画像合成において最先端の結果を達成できます。

この時点で、もう一つの転機が訪れます

実際、著者自身も、現在の拡散モデルのトレーニング計算コストは​​ GAN よりも高く、サンプリング速度は GAN ほど速くなく、シングルステップモデルでは GAN に匹敵できないことを認めています。

最も重要なのは、この記事の分類器ブートストラップ手法はラベル付きデータセットに限定されており、著者はラベルなしデータセットにおける精度と多様性の間でトレードオフを行う効果的な戦略を提供していないことです。

ネットユーザーらは、「計算の観点から見ると、拡散モデルはGANよりもはるかに多くのメモリとステップを消費する」ともコメントした。

短期的には、GAN が依然として画像生成の分野を支配すると思われます。

<<:  自動運転と安全性の「距離」

>>:  Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

ブログ    

推薦する

新時代の人工知能の優位性を獲得し、時代に淘汰されないためにはどうすればよいか

企業で人工知能が応用され、開発されるにつれて、ビジネスリーダーは市場競争力を向上させるためにクラウド...

ビジネスに人工知能を導入する際に考慮すべき3つの要素

最近、ますます多くの企業が人工知能に投資しています。しかし、成功するには、推論の解釈可能性、データ密...

...

...

スタンフォード大学の研究:スマートフォンの録画で人が酔っているかどうかを98%の精度で識別できる

11月9日、スタンフォード大学の最近の研究で、スマートフォンは音声パターンから人が酔っているかどうか...

Pytorch の核心であるモデルの定義と構築を突破しましょう! ! !

こんにちは、Xiaozhuangです!今日はモデルの定義と構築についてお話ししましょう。初心者に最適...

世界では毎年24の言語が消滅している。AIは絶滅危惧言語の新たな救世主となった

昨年、国連は2019年を「国際先住民族言語年」と宣言し、今、このお祭りがますます近づいてきています。...

...

...

両者は負荷分散アルゴリズムを要約する

さまざまな負荷分散アルゴリズムが存在します。これらを研究する際には、まずこれらの方法の概念を理解する...

国立国防技術大学は、モバイル環境下で高精度のオンラインRGB-D再構成を実現するROSEFusionを提案

最近、国立国防科技大学の徐凱教授のチームは、高速移動に対するランダム最適化に基づくオンライン RGB...

Sora のようなモデルをトレーニングしたいですか? You YangのチームOpenDiTが80%の加速を達成

2024年初頭のキング爆弾として、ソラの出現は追いつくための新たな目標を設定しました。ヴィンセントビ...

100 以上の自然言語処理データセットが無料で、データの検索に困ることはありません。

[[228774]]ビッグデータ概要編集者: Wanjun、VVN、Zhang Lijun、Yun...

百度CTO王海鋒氏:「文心易眼」のユーザー数は1億人を超える

「文心易眼のユーザー規模が1億人を突破した」。12月28日、百度の最高技術責任者で、深層学習技術・応...

リアルタイムの犯罪警報: ディープラーニングで安全を守る方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...