OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

最近またFaceAPPが人気になってきているので、編集者もダウンロードして試してみました。

大丈夫ですよ、かなり興味深いです。

FaceAPP の背後には、生成的敵対的ネットワーク (GAN) に基づく画像生成テクノロジーがあります。

GAN は 2014 年の誕生以来、画像生成、特にディープフェイクの顔生成の研究と応用をほぼ完全に支配してきました。

しかし、GAN はトレーニングが難しく、モード崩壊などの問題が発生しやすいです。

ディープフェイクの「モデル」を使用して他の人が作成したビデオと、ディープフェイクの「マジック」を使用して私が作成したビデオ

こうして新しいSOTAモデルが誕生した

GAN のこれらの問題に対応するため、OpenAI の 2 人の研究者、Prafulla Dhariwal 氏と Alex Nichol 氏は他のアーキテクチャを検討しました。

最新の論文「拡散モデルが画像合成で GAN に勝つ」では、提案された拡散モデル アーキテクチャが GAN の欠点を解決し、画像生成タスクで GAN に勝ち、SOTA レベルに達すると述べています。

タイトルに「Beat」という言葉を使ったところ、彼らが非常に野心的であることが分かりました。

「ImageNet 512x512 で 3.85 FID を達成しました。BigGAN と同等のパフォーマンスを維持するだけでなく、サンプルあたりのフォワード パスの数を 25 に減らし、分布のカバレッジを向上させました。」

たまたま検索してみたところ、記事全体で 15 個の「最先端」があることがわかりました。GAN について説明している 2、3 個 (敗北または転換点を迎えている) を除き、その他は基本的にすべて独自の新しいモデルについて説明しています。これが SOTA であるかどうかは別として、著者は間違いなく SOTA であると考えています。

時は3ヶ月前に戻る

非常に興味深いのは、引用文献の中に、この二人が著者である論文があることです。

今年2月には「改良型ノイズ低減拡散確率モデル」と題した論文を発表し、GANとの比較も行われたが、この時点ではまだGANを「打ち負かした」わけではなかった。

意外にも、3か月後、彼らは新しい論文で成功したと述べました。彼らはかなり効率的であるようです。

同じ 1 億個のパラメータを持つモデルとして、BigGAN-Deep は、FID の点で、現時点で著者がトレーニングした DDPM よりも大幅に優れたパフォーマンスを発揮します。しかし、この2人は2億7000万のパラメータでトレーニングしたモデルで力ずくで勝利した。

ノイズ除去拡散確率モデル (DDPM) - 改良版

拡散モデルは、画像生成タスクでも優れたパフォーマンスを発揮する、別のクラスのディープラーニング モデルです。

ランダムなノイズ画像をトレーニング分布内のポイントにマッピングすることを学習する GAN とは異なり、拡散モデルはノイズの多い画像を取得し、一連のノイズ除去手順を実行して、ノイズを徐々に削減し、トレーニング データ分布に属する画像を生成します。

DDPM は、サンプリング品質にほとんど影響を与えずに、より高速にサンプリングし、より優れた対数尤度を得ることができます。トレーニング計算の量を増やすと、サンプルの品質と対数尤度が向上します。

「改良されたモデルでは、より少ないサンプルで済むことがわかり、驚いた」と2人の著者は述べた。著者が 25 のフォワード サンプリングの促進に重点を置くのは不思議ではありません。

詳細については、次の論文を参照してください。
出典:http://arxiv.org/pdf/2102.09672.pdf

新たな普及モデル

3 か月後、Dhariwal 氏と Nichol 氏は、以前の失敗を補い、拡散モデルのアーキテクチャを再度改良して、モデルのパフォーマンスをさらに向上させることを決定しました。

  1. モデルのサイズを比較的一定に保つために、深さと幅を同じ比率で増やします。
  2. 注意ヘッドの数を増やします。
  3. 32×32、16×16、8×8に注目レイヤーを追加します。
  4. アクティベーションは、BigGAN の残差モジュールを使用してアップサンプリングおよびダウンサンプリングされます。
  5. 残留接続のスケールを調整します。

アテンション ヘッドの数を増やすか、ヘッドあたりのチャネル数を減らすと、FID が向上します。

比較の結果、モデルは最終的に 128 の基本チャネル、解像度ごとに 2 つの残差モジュール、マルチ解像度の注意、BigGAN アップ/ダウン サンプリングを使用することを選択し、注意ヘッドごとに 64 チャネルを使用して 70 万回の反復でモデルをトレーニングしました。

ImageNet 128×128 モデルの場合、分類器の勾配が変化すると、サンプルの品質も変化します。勾配が 1.0 を超えると、精度と再現率の間でスムーズなトレードオフが得られます。

BigGAN-deep は変更を切り捨てるときにトレードオフを行います。

結果と評価

OpenAI の拡散モデルは、すべてのタスクで最高の FID スコアを達成し、1 つのタスクを除くすべてのタスクで最高の sFID スコアを達成しました。

改良されたモデル構造により、LSUN および ImageNet 64×64 で SOTA 画像生成結果を達成できます。

高解像度の ImageNet の場合、このモデルは最高の GAN よりも優れたパフォーマンスを発揮します。この時点で、モデルは、わずか 25 回の拡散でも、高いカバレッジ (リコールで測定) を維持しながら、GAN と同様の知覚品質を実現できます。著者は、これら 25 回の順方向伝播の結果に非常に満足しているようです。

生成モデルのサンプル品質の比較。 ADM はテキスト内の拡散モデルを参照しますが、ADM-G は分類子を追加します。

左側は BigGAN ディープ モデルの結果、中央は OpenAI 拡散モデルの結果、右側は元のトレーニング セットからの画像です。

上の画像も同様の図を示していますが、研究者は拡散モデルがトレーニング セットからより多くのことを学習したと説明しています。

「サンプルの知覚品質は似ていますが、拡散モデルには、ダチョウの頭のクローズアップ、フラミンゴ1羽、さまざまな角度のチーズバーガー、人が持っていない魚など、GANよりも多くのコンテンツが含まれています。」

著者の結論

GAN と比較すると、拡散モデルはより優れたサンプル品質を得ることができます。

改善されたアーキテクチャは、無条件画像生成タスクで SOTA を達成するのに十分であり、分類器ガイダンス技術により、モデルはクラス条件付きタスクのサンプル品質をさらに向上させることができます。

拡散モデルは、GAN と拡散モデル間のサンプリング時間のギャップを短縮できますが、サンプリング プロセス中に複数の順方向伝播が依然として必要になります。

最後に、ガイダンスとアップサンプリングを組み合わせることで、高解像度条件下での画像合成において最先端の結果を達成できます。

この時点で、もう一つの転機が訪れます

実際、著者自身も、現在の拡散モデルのトレーニング計算コストは​​ GAN よりも高く、サンプリング速度は GAN ほど速くなく、シングルステップモデルでは GAN に匹敵できないことを認めています。

最も重要なのは、この記事の分類器ブートストラップ手法はラベル付きデータセットに限定されており、著者はラベルなしデータセットにおける精度と多様性の間でトレードオフを行う効果的な戦略を提供していないことです。

ネットユーザーらは、「計算の観点から見ると、拡散モデルはGANよりもはるかに多くのメモリとステップを消費する」ともコメントした。

短期的には、GAN が依然として画像生成の分野を支配すると思われます。

<<:  自動運転と安全性の「距離」

>>:  Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

ブログ    

推薦する

機械学習の成功事例5つ

IT リーダーが、人工知能と機械学習を使用してビジネス上の洞察を得る方法を共有します。組織が顧客の好...

顔認証は必見!顔のなりすまし防止、クロスポーズ認識などを実現する方法を学ぶための 5 つの論文 (リンク付き)

[[281197]] [はじめに] 顔認識はコンピュータビジョンにおける最大の研究分野の一つです。...

...

Python での遺伝的アルゴリズムによるガベージ コレクション戦略の最適化

遺伝的アルゴリズムは、進化のプロセスに性質が似ている最適化手法です。これは乱暴な例えかもしれませんが...

...

ChatGPT文明がオンラインになりました!ワンクリックで明代の南京と中世イタリアを旅しよう

ChatGPT がリリースされてから、宿題をするために ChatGPT を使い始める学生が増えてきま...

データサイエンスにおける ML+ と DL+ の時代へようこそ

企業のデジタル変革は、次々と熱狂の波をもたらしました。国際的な権威ある組織は、今後数年間の企業のデジ...

人工知能技術は若者の雇用にどのような影響を与えるでしょうか?

人工知能の発展の過程で、常に次のような声が聞かれます。「人工知能によって、特に若者を中心に、失業者が...

...

...

2021 年のデジタル トランスフォーメーションの 10 大トレンド

2020 年に私たちがどうなるかは誰も予測できませんでした。過去 6 か月だけでも、過去 10 年間...

人工知能の活発な発展は、ホストのような人々が将来的に職を失うことを意味する。

仮想ホスト[[427210]]科学技術の急速な発展に伴い、多くのハイテク製品が私たちの生活に登場して...

AIが監督者になる。それでも仕事をサボれるのか?

「仕事でサボるのは楽しいが、いつもサボっているのも楽しい」ということわざがあります。 [[3583...

機械学習モデルを .NET 環境にデプロイするにはどうすればよいでしょうか?

データ中心のエンジニアにとって、Python と R はデータセンターで最も人気のあるプログラミング...

450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

バックトラッキングアルゴリズムとは何ですか? Baidu 百科事典では、バックトラッキング アルゴリ...