OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

最近またFaceAPPが人気になってきているので、編集者もダウンロードして試してみました。

大丈夫ですよ、かなり興味深いです。

FaceAPP の背後には、生成的敵対的ネットワーク (GAN) に基づく画像生成テクノロジーがあります。

GAN は 2014 年の誕生以来、画像生成、特にディープフェイクの顔生成の研究と応用をほぼ完全に支配してきました。

しかし、GAN はトレーニングが難しく、モード崩壊などの問題が発生しやすいです。

ディープフェイクの「モデル」を使用して他の人が作成したビデオと、ディープフェイクの「マジック」を使用して私が作成したビデオ

こうして新しいSOTAモデルが誕生した

GAN のこれらの問題に対応するため、OpenAI の 2 人の研究者、Prafulla Dhariwal 氏と Alex Nichol 氏は他のアーキテクチャを検討しました。

最新の論文「拡散モデルが画像合成で GAN に勝つ」では、提案された拡散モデル アーキテクチャが GAN の欠点を解決し、画像生成タスクで GAN に勝ち、SOTA レベルに達すると述べています。

タイトルに「Beat」という言葉を使ったところ、彼らが非常に野心的であることが分かりました。

「ImageNet 512x512 で 3.85 FID を達成しました。BigGAN と同等のパフォーマンスを維持するだけでなく、サンプルあたりのフォワード パスの数を 25 に減らし、分布のカバレッジを向上させました。」

たまたま検索してみたところ、記事全体で 15 個の「最先端」があることがわかりました。GAN について説明している 2、3 個 (敗北または転換点を迎えている) を除き、その他は基本的にすべて独自の新しいモデルについて説明しています。これが SOTA であるかどうかは別として、著者は間違いなく SOTA であると考えています。

時は3ヶ月前に戻る

非常に興味深いのは、引用文献の中に、この二人が著者である論文があることです。

今年2月には「改良型ノイズ低減拡散確率モデル」と題した論文を発表し、GANとの比較も行われたが、この時点ではまだGANを「打ち負かした」わけではなかった。

意外にも、3か月後、彼らは新しい論文で成功したと述べました。彼らはかなり効率的であるようです。

同じ 1 億個のパラメータを持つモデルとして、BigGAN-Deep は、FID の点で、現時点で著者がトレーニングした DDPM よりも大幅に優れたパフォーマンスを発揮します。しかし、この2人は2億7000万のパラメータでトレーニングしたモデルで力ずくで勝利した。

ノイズ除去拡散確率モデル (DDPM) - 改良版

拡散モデルは、画像生成タスクでも優れたパフォーマンスを発揮する、別のクラスのディープラーニング モデルです。

ランダムなノイズ画像をトレーニング分布内のポイントにマッピングすることを学習する GAN とは異なり、拡散モデルはノイズの多い画像を取得し、一連のノイズ除去手順を実行して、ノイズを徐々に削減し、トレーニング データ分布に属する画像を生成します。

DDPM は、サンプリング品質にほとんど影響を与えずに、より高速にサンプリングし、より優れた対数尤度を得ることができます。トレーニング計算の量を増やすと、サンプルの品質と対数尤度が向上します。

「改良されたモデルでは、より少ないサンプルで済むことがわかり、驚いた」と2人の著者は述べた。著者が 25 のフォワード サンプリングの促進に重点を置くのは不思議ではありません。

詳細については、次の論文を参照してください。
出典:http://arxiv.org/pdf/2102.09672.pdf

新たな普及モデル

3 か月後、Dhariwal 氏と Nichol 氏は、以前の失敗を補い、拡散モデルのアーキテクチャを再度改良して、モデルのパフォーマンスをさらに向上させることを決定しました。

  1. モデルのサイズを比較的一定に保つために、深さと幅を同じ比率で増やします。
  2. 注意ヘッドの数を増やします。
  3. 32×32、16×16、8×8に注目レイヤーを追加します。
  4. アクティベーションは、BigGAN の残差モジュールを使用してアップサンプリングおよびダウンサンプリングされます。
  5. 残留接続のスケールを調整します。

アテンション ヘッドの数を増やすか、ヘッドあたりのチャネル数を減らすと、FID が向上します。

比較の結果、モデルは最終的に 128 の基本チャネル、解像度ごとに 2 つの残差モジュール、マルチ解像度の注意、BigGAN アップ/ダウン サンプリングを使用することを選択し、注意ヘッドごとに 64 チャネルを使用して 70 万回の反復でモデルをトレーニングしました。

ImageNet 128×128 モデルの場合、分類器の勾配が変化すると、サンプルの品質も変化します。勾配が 1.0 を超えると、精度と再現率の間でスムーズなトレードオフが得られます。

BigGAN-deep は変更を切り捨てるときにトレードオフを行います。

結果と評価

OpenAI の拡散モデルは、すべてのタスクで最高の FID スコアを達成し、1 つのタスクを除くすべてのタスクで最高の sFID スコアを達成しました。

改良されたモデル構造により、LSUN および ImageNet 64×64 で SOTA 画像生成結果を達成できます。

高解像度の ImageNet の場合、このモデルは最高の GAN よりも優れたパフォーマンスを発揮します。この時点で、モデルは、わずか 25 回の拡散でも、高いカバレッジ (リコールで測定) を維持しながら、GAN と同様の知覚品質を実現できます。著者は、これら 25 回の順方向伝播の結果に非常に満足しているようです。

生成モデルのサンプル品質の比較。 ADM はテキスト内の拡散モデルを参照しますが、ADM-G は分類子を追加します。

左側は BigGAN ディープ モデルの結果、中央は OpenAI 拡散モデルの結果、右側は元のトレーニング セットからの画像です。

上の画像も同様の図を示していますが、研究者は拡散モデルがトレーニング セットからより多くのことを学習したと説明しています。

「サンプルの知覚品質は似ていますが、拡散モデルには、ダチョウの頭のクローズアップ、フラミンゴ1羽、さまざまな角度のチーズバーガー、人が持っていない魚など、GANよりも多くのコンテンツが含まれています。」

著者の結論

GAN と比較すると、拡散モデルはより優れたサンプル品質を得ることができます。

改善されたアーキテクチャは、無条件画像生成タスクで SOTA を達成するのに十分であり、分類器ガイダンス技術により、モデルはクラス条件付きタスクのサンプル品質をさらに向上させることができます。

拡散モデルは、GAN と拡散モデル間のサンプリング時間のギャップを短縮できますが、サンプリング プロセス中に複数の順方向伝播が依然として必要になります。

最後に、ガイダンスとアップサンプリングを組み合わせることで、高解像度条件下での画像合成において最先端の結果を達成できます。

この時点で、もう一つの転機が訪れます

実際、著者自身も、現在の拡散モデルのトレーニング計算コストは​​ GAN よりも高く、サンプリング速度は GAN ほど速くなく、シングルステップモデルでは GAN に匹敵できないことを認めています。

最も重要なのは、この記事の分類器ブートストラップ手法はラベル付きデータセットに限定されており、著者はラベルなしデータセットにおける精度と多様性の間でトレードオフを行う効果的な戦略を提供していないことです。

ネットユーザーらは、「計算の観点から見ると、拡散モデルはGANよりもはるかに多くのメモリとステップを消費する」ともコメントした。

短期的には、GAN が依然として画像生成の分野を支配すると思われます。

<<:  自動運転と安全性の「距離」

>>:  Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

ブログ    

推薦する

中国の科学者によるこの命を救うAIは海外のホットリストに載った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

近年、人工知能などの新世代情報技術や5Gなどの新世代通信技術の急速な発展に伴い、あらゆる分野で科学技...

デジタル変革時代の産業用ロボット開発の5大トレンド

適応性は常に成功する組織の基礎となる原則です。過去 2 年間、世界は不確実性に直面してきましたが、こ...

ベクトル監視なしのベクトル画像生成アルゴリズムがCVPR 2021に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

囲碁AIの不正行為の最初の事例はすでに発生しています。他の事例は後れを取っているのでしょうか?

[[227817]]画像出典: Visual Chinaカンニングは間違いなく長い歴史を持つ「科学...

チューリングは71年前にニューラルネットワークを提案しました。 「インテリジェントマシン」が再び白熱した議論を巻き起こす

[[269208]]チューリングは 1948 年に「インテリジェント マシン」と題する論文を執筆し、...

生成型 AI は急速な発展期を迎えています。その応用はどのように実装されるのでしょうか?

先月、国際的に有名な学術誌「ネイチャー」が2023年のトップ10を発表しました。世界的な科学イベント...

モデルの再現が難しいのは必ずしも作者のせいではない。研究により、モデルの構造に問題があることが判明した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

農家は収穫を祝い、秋分の日にドローンがその技を披露するのを見てください!

黄金の秋、収穫の季節です。また秋分の日を迎え、わが国では4回目の「農民収穫祭」を迎えます。畑や広場、...

建設現場での死傷者を減らすには? 10のAI手法をご紹介します

この記事の結論から始めましょう。AI と機械学習は、ビデオ信号を 24 時間 365 日リアルタイム...

データが新たな石油なら、AIは新たな核兵器だ

人工知能 (AI) とビッグデータは以前から存在しており、さまざまな分野での応用により、世界中の組織...

顔認識の時代に顔を守る方法

シャオ・ワンは最近少しイライラしている。毎日仕事が終わったらすぐにジムに行って運動していたのですが、...

[NCTSサミットレビュー] アリババの潘家騰:アリママのオフラインテストドメインのインテリジェント構築

2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...

...