この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 年末に発表されたばかりのOpenAIの新作「GLIDE」により、拡散モデルは再び人気を集めている。 この拡散モデルベースのテキスト画像生成モデルは、モデルパラメータは小さくなりますが、より高品質の画像を生成します。 そのため、OpenAI によって現在も作成され、そのタイトルが直接的に「画像生成で GAN に勝る」と主張するADM-G モデルも、再び世間の注目を集めています。 Papers with Code の ImageNet データセットに基づく画像生成モデルのリストを見ると、このモデルは 64 x 64 から 512 x 512 の解像度でリストのトップにあります。 かつて史上最強の画像ジェネレーターとして知られたBigGAN-deepにも劣らず、LSUNやImageNet 64×64の画像生成効果においてSOTAを達成することさえ可能です。 一部のネットユーザーは嘆いた。「ここ数年、画像生成の分野はGANが独占してきたが、今や普及モデルになりつつあるようだ。」 カテゴリ条件付き拡散モデルまず、拡散モデルの定義を見てみましょう。 これは画像生成の新しい方法であり、その名前の「拡散」は本質的に反復的なプロセスです。 具体的には、完全にノイズで構成された画像から始めて、各ステップで除去されるノイズを予測し、反復的にノイズを除去して高品質のサンプルを取得し、徐々に詳細を追加します。 OpenAI の ADM-G モデルは、これに基づいて画像生成タスクにカテゴリ条件を追加し、独自のアブレーション拡散モデルを形成します。 研究者たちは以下の点で改善を行いました。 基本的なアーキテクチャUNet 構造に基づいて 5 つの改善が行われました。
分類ガイダンス研究者らは、ノイズを段階的に信号に変換する過程で、事前にトレーニングされた分類ネットワークを導入した。 中間生成された画像のラベルを予測して取得できます。つまり、生成された画像を分類できます。 その後、分類スコアとターゲット カテゴリ間のクロス エントロピー損失に基づいて勾配が計算され、その勾配を使用して次世代のサンプリングがガイドされます。 分類器の勾配のスケーリングハイパーパラメータによって分類ネットワークの勾配をスケーリングし、生成される画像の多様性と精度を制御します。 たとえば、次のように、左側はサイズ 1.0 の分類ネットワークで、右側はサイズ 10.0 の分類ネットワークです。右側に生成された画像は、明らかにカテゴリがより一貫していることがわかります。 つまり、分類ネットワークの勾配が高いほど、カテゴリの一貫性が高まり、精度が高くなり、同時に多様性は小さくなります。 発電分野の新たなホットスポット現在、このモデルは GitHub で約 1,000 個のスターを獲得しています。 GAN と比較すると、拡散モデルによって生成される画像はより多様で複雑です。 同じトレーニング データ セットに基づいて、拡散モデルはパノラマ、ローカルのクローズアップ、さまざまな角度の画像を生成できます。 △左:BigGAN-deep 右:ADM 実際、Googleが2020年にDDPMを公開して以来、拡散モデルは徐々に生成分野の新たなホットスポットになってきました。 この記事で言及されている 2 つの OpenAI 論文に加えて、Semantic Guidence Diffusion や Classifier-Free Diffusion Guidence など、拡散モデルに基づいて設計された生成モデルもいくつかあります。 拡散モデルは視覚タスクにおいてどのような新しい応用が期待できるでしょうか? 来年まで待ってみましょう。 論文リンク: オープンソースリンク: |
<<: 2021 年にグラフ機械学習にはどのような新たなブレークスルーがあるでしょうか?マギル大学のポスドク研究員が分野の動向を整理
>>: 3D モデルの「スキンを変更する」のはどれくらい簡単ですか?一言だけ
過去数年間、顔認識は広く注目を集めており、画像分析の分野で最も有望なアプリケーションの 1 つと考え...
編集者注: 将来は AI の時代であるため、あらゆる規模のテクノロジー企業が人材獲得を競っています。...
[[421713]]人工知能(AI)がその発明に対して特許を申請できるかどうかに関して、米国連邦政府...
今こそ、AI の将来を本当に理解するときです。 AI を取り巻く不安は雇用の減少など多岐にわたります...
今日の時代では、人々は目標を達成するために人工知能 (AI) にますます依存するようになっています。...
近年、需要の増加、エネルギーコストの高騰、持続可能性の問題が続く中、データセンターが注目を集めていま...
サイバーセキュリティは、おそらく今日すべての企業が直面している最大の脅威です。これらの課題は新しいも...
顔認識は皆さんもよくご存知だと思います。過去2年間、顔認識技術の急速な発展に伴い、「顔スキャン」は徐...
生成 AI は変革の原動力となり、機械が達成できるものの限界を押し広げています。テキストや画像の生成...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
宝くじで生計を立てる可能性はどれくらいありますか? 2005年、MITの学生グループが集まり、ギャン...
ウォルマートの創業者サム・ウォルトンはよく「私たちの人材が違いを生み出す」と言っていましたが、この言...
現在、世界の一部の国や地域の運輸・物流業界は、流行病によって深刻な影響を受けています。コロナウイルス...