拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

拡散モデルは、GANに匹敵する画像生成性能を備えていることから、最近AIコミュニティで注目されています。

Google と OpenAI はともに過去 1 年間に独自の普及モデルを提案しており、その結果は驚くべきものでした。

一方、ケンブリッジ大学の学者デイビッド・クルーガー氏は、オートエンコーダが復活して研究トレンドになるかどうかを疑問視した。

つい最近、DeepMind の研究科学者 Sander Dieleman 氏が、上記の 2 つの傾向に基づいて独自の見解を発表しました。

拡散モデルはオートエンコーダです。

この意見はすぐに多くのネットユーザーの注目を集めました。サンダーの説明を読んだ後、誰もがそれが理にかなっていて、多くのインスピレーションを与えていると感じました。

それで、彼はどうやって自分の主張を証明したのでしょうか?

一緒に見ましょう。

ノイズ除去オートエンコーダ = 拡散モデル

両者のつながりを理解するには、まずそれぞれの特徴を理解する必要があります。

拡散モデルは、新しい画像生成方法です。その名前の「拡散」は、本質的には反復的なプロセスです。

これは 2015 年に初めて提案され、拡散ステップでデータにランダム ノイズをゆっくりと追加し、その後、拡散プロセスを逆に学習することでノイズから目的のデータ サンプルを構築するマルコフ連鎖を定義します。

拡散モデルは、GAN、VAE、フローベースの生成モデルと比較してパフォーマンスのトレードオフが良好で、特に忠実度と多様性の両方を実現するためのガイダンスと組み合わせると、画像生成において大きな可能性があることが最近示されました。

たとえば、昨年 Google が提案した Cacade 拡散モデル SR3 は、低解像度の画像を入力として受け取り、純粋なノイズから対応する高解像度の画像を構築します。

OpenAI の GLIDE と ADM-G も拡散モデルを使用して、よりリアルで多様で複雑な画像を生成します。

△GLIDEモデル効果

次に、自動エンコーダの原理を見てみましょう

オートエンコーダは、元の入力を復元しようとするシステムとして理解できます。モデルは次のとおりです。

その主な目的は、入力を中間変数に変換し、次に中間変数を出力に変換し、最後に入力と出力を比較してできるだけ近づけることです。

モデルフレームワークにボトルネック層があったり入力が破損していたり​​する場合でも、オートエンコーダは入力の本質的な特徴を学習し、その能力を発揮することができます。

ここでは、著者は主に拡散モデルとノイズ除去オートエンコーダを比較します

破損したデータを入力として受け取り、破損していない元のデータを出力として予測するようにトレーニングできます。

これはあなたにとって見覚えがありますか?

入力にノイズを追加することは、入力を破損させる方法ではないでしょうか?

では、ノイズ除去オートエンコーダーと拡散モデルは原理的には同じ効果を持つのではないでしょうか?

これら2つはどのように同等なのでしょうか?

著者は自身の考えを検証するために、原理的な観点から拡散モデルを分解した。

拡散モデルの鍵スコア関数にある  (スコア機能)

注目すべきは、

違う。 (勾配を求めるためのパラメータは異なります)

後者は、下向きの入力の可能性を高めるためにモデルパラメータを変更する方法を知ることを可能にし、前者は、可能性を高めるために入力自体を変更する方法を知ることを可能にします。

トレーニング中は、ノイズ除去プロセスのすべてのポイントで同じネットワークを使用することが望ましいです。

これを実現するために、追加の入力が導入される。

これによって、ノイズ除去のどの部分が行われたかが分かります

t=0 の場合、ノイズのないデータに対応し、t=1 の場合、純粋なノイズ データに対応します。

このネットワークを訓練する方法はノイズを追加することである

入力xを破損します。それから

中期予報

ここでの分散tに依存し、特定のポイントでのノイズ レベルに対応することに注意することが重要です。損失関数は通常、平均二乗誤差 (MSE) ですが、λ(t) によって重み付けされ、一部のノイズ レベルが他のノイズ レベルよりも優先されることがあります。

λ(t)=1と仮定すると、重要な観察結果は

または x (これらは同等) の場合、次の式を使用できます。

同等であることを確認するには、トレーニングモデルの使用を検討してください。

予測する

新しい残余接続を追加します。入力から出力への比例係数は -1 であり、この調整されたモデルは次を実現します。

したがって、拡散モデルは徐々にノイズ除去オートエンコーダになります。

もう一つ

しかし、ブログの著者は、拡散モデルとノイズ除去オートエンコーダの効果は同等であるものの、両者完全に互換性があるわけではないことも強調しました

そして、上で得られたノイズ除去オートエンコーダも従来のタイプとは異なります。

  • まず、追加の入力 t により、単一のモデル一連の共有パラメータを使用してさまざまなノイズ レベルを処理できるようになります。
  • 第二に、モデルの出力に重点が置かれているため、内部にボトルネック層が存在せず、「良いよりも悪い」結果につながる可能性があります。

著者が強調したいのは、この2つの間のつながりです。

さらに、彼は、優れたモデル効果の鍵表現学習で広く使用されている共有パラメータであるはずだとも述べた

これらの結果からパターンも見つかります:

  • ノイズ含有量が多いモデルは画像の特徴を学習しやすい傾向があります。
  • ノイズの少ないモデルは、細部に重点を置きます。

著者は上記のルールはさらなる研究に値すると考えています。

つまり、ノイズ レベルが下がると、拡散モデルはより多くの画像の詳細を埋め込むことができるようになります。

最後に、この発見の発案者である Sander Dieleman 氏を紹介しましょう。

彼は現在、DeepMind の研究科学者として、生成モデルと音楽合成に焦点を当てています。

彼が参加した主な研究には、Spotify 音楽プラットフォームのコンテンツ推奨モデルが含まれていました。

<<:  錬金術をより形而上学的にしましょう!蘇州大学の博士課程では「天の幹と地の枝」を使ってランダムシードを生成しており、このプロジェクトはオープンソース化されている。

>>:  人工知能プロジェクトのための 10 のヒント - ガイド

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

XML 圧縮アルゴリズムについての簡単な説明

XML 圧縮ユニットテストコードクラスプログラム { パブリック静的文字列XML = @"...

...

IoT、分析、AI – デジタル化の勝利のトリオ

デジタル化が進む世界では、すべてがスピードと個々の顧客ニーズの特定と対応を中心に展開されます。サービ...

...

ビッグデータと人工知能の関係、総合的な分析

ビッグデータはクラウドコンピューティングを採用PaaS レイヤーの複雑な汎用アプリケーションは、ビッ...

...

SOA におけるソフトウェア アーキテクチャ設計とソフトウェアとハ​​ードウェアの分離方法論

次世代の集中型電子電気アーキテクチャでは、中央+ゾーン中央コンピューティング ユニットと地域コントロ...

...

マルチタスクでSOTA、UBCを実現 Googleなどが3Dポイントクラウド向けの教師なしカプセルネットワークを提案

これは、3D ポイント クラウド用に提案された教師なしカプセル アーキテクチャであり、3D ポイント...

EUがAIを活用して社会イノベーションを推進する方法

[[377176]] 2020年の新型コロナウイルスの世界的な蔓延は、人類にとって永遠の記憶となるこ...

OpenAIを批判した後、ルカン氏はこう答えた。「意識は単なる幻想だと思う」

ヤン・ルカンは演説中に、フランス革命の有名な絵画「民衆を導く自由の女神」を再生し、「革命は監視されな...

NLP とは異なり、データ駆動型手法と機械学習は、次の 3 つの理由により NLU に勝てません。

自然言語理解 (NLU) は人工知能における中核的なトピックの 1 つであり、最も困難かつ象徴的なタ...

Hadoop、Spark、Hive とはいったい何でしょうか? アルゴリズムを開発するには、これらを学ぶ必要がありますか?

[[422888]]みなさんこんにちは。私は梁唐です。最近、多くの新人がアルゴリズム エンジニアに...

AIチップとは何ですか?人々が知っておくべきことすべて

[51CTO.com クイック翻訳] 業界の専門家は、音声アシスタント、顔認識カメラ、コンピューター...