OpenAI が Stable Diffusion を救います! Ilya Song Yang らによるオープンソースの Dall E3 デコーダー

予想外にも、OpenAI は「競合相手」である Stable Diffusion を活用しました。

話題の「AI Spring Festival Gala」で、OpenAI は 2 つの作品を一度にオープンソース化しました。その 1 つは、SD 専用の VAE モデルである一貫性デコーダーです。

複数の顔、テキストを含む画像、線の制御など、より高品質で安定した画像生成が可能になります。

大手 V ブロガーは、このデコーダーはDall·E 3 と同じであるはずだと分析し、OpenAI も GitHub プロジェクトページで Dall·E 3 の論文を提供しました。

サポートされる具体的なバージョンは、Stable Diffusion 1.4/1.5 です。

プロジェクトページには例が1つだけ掲載されており、具体的なトレーニング方法も記載されていない。ネットユーザーらはこれを「口数の少ない冷酷な人風のオープンソース」と呼んでいる。

そのままロードして使用することができます。

そして、この一貫性デコーダーには長い歴史があります。

これは、OpenAI の共同設立者兼主任科学者の Ilya 氏、OpenAI の中国の新星 Song Yang 氏らが提案した一貫性モデルから生まれたものです。

このモデルが今年上半期にオープンソース化された際、業界に衝撃を与え、「普及モデルに終止符を打つ」可能性があると評された。

つい最近、Song Yangらはモデルのトレーニング方法を最適化し、画像生成の品質をさらに向上させることができました。

開発者デーでのもう一つの主要なオープンソースリリースは、大規模な音声モデル Whisper 3 でした。これは、GPT シリーズの構築に重要な役割を果たした伝説の人物、アレック・ラドフォードによって作成されました。

ネットユーザーはため息をつくほかなかった。「OpenAI がオープンソース化されるのは嬉しいし、今後もさらに多くのモデルが公開されることを期待しています。」

一貫性モデルは進化した

まずは、もともと世界的に有名だった一貫性モデルの最初のバージョン（Consistency Models）を見てみましょう。

拡散モデルでは段階的な反復により画像生成が遅くなるという問題を解決することを目的としています。約 64 枚の 256×256 画像を生成するのにかかる時間はわずか 3.5 秒です。

拡散モデルと比較すると、主に 2 つの利点があります。

まず、敵対的トレーニングなしで高品質の画像サンプルを直接生成できます。

第二に、拡散モデルでは数百、あるいは数千回の反復が必要になる場合もありますが、一貫性モデルでは、さまざまな画像タスクを処理するのに 1 つまたは 2 つのステップしか必要ありません。

カラー化、ノイズ除去、超解像度など、これらのタスクの明示的なトレーニングを必要とせずに、すべて数ステップで実行できます。（もちろん、少数サンプル学習を行えば、生成効果はより高くなります）

原理的には、一貫性モデルはランダムノイズを複雑な画像に直接マッピングし、出力は同じ軌道上の同じポイントとなるため、ワンステップ生成が実現されます。

この論文では、2 つのトレーニング方法を提案しています。1 つは一貫性蒸留に基づくもので、事前トレーニング済みの拡散モデルを使用して隣接するデータペアを生成し、モデル出力間の差異を最小限に抑えることで一貫性モデルをトレーニングします。

もう 1 つのアプローチは、一貫性モデルを別の生成モデルとしてトレーニングする独立したトレーニングです。

実験結果によると、一貫性モデルは、1 ステップおよび数ステップのサンプリングの両方で、漸進的蒸留などの既存の蒸留技術よりも優れていることが示されています。

スタンドアロン生成モデルとしてトレーニングされた場合、一貫性モデルは、CIFAR-10、ImageNet 64×64、LSUN 256×256 などの標準ベンチマークで既存のワンステップ非敵対的生成モデルと同等のパフォーマンスを発揮します。

半年後に出版された論文の第2版では、トレーニング方法が最適化されました。

重み関数、ノイズ埋め込み、ドロップアウトを最適化することで、一貫性モデルは学習した特徴に依存せずに優れた生成品質を実現できます。

重み関数の選択が改善され、ノイズレベルが増加するにつれて重み関数が減少するようになっており、これにより、ノイズレベルが小さい場合の一貫性の損失がより重視され、サンプルの品質が向上します。

同時に、ノイズ埋め込み層の感度が調整され、小さなノイズの違いに対する感度が低くなり、連続時間一貫性トレーニングの安定性が向上します。

また、一貫性モデルでより大きなドロップアウトを使用し、教師ネットワークで EMA を削除し、擬似 Huber 損失関数を学習した特徴距離 (LPIPS など) に置き換えると、画像の品質がさらに向上することがわかりました。

もう一つ

この最新のオープンソースデコーダーに戻ると、実際のテストエクスペリエンスの最初の波がここにあります。

今のところ効果はあまり明らかではなく、走るスピードが遅いという報告が多くありました。

しかし、これはまだ初期のテストであり、将来的にはさらに改善される可能性があります。

特筆すべきは、一貫性モデルの立ち上げを主導した宋楊氏は若手ながら、普及モデル界ではOG（ベテラン）と評価されていることだ。

△NvidiaのAI科学者ジム・ファン氏のTwitterより

今年、宋楊もその一貫性あるモデルのおかげで有名になった。この男は16歳で理科の成績トップで、清華大学に進学した。彼に関する他の記事は、こちらをクリック：OpenAIの人気新星、宋楊：最新の研究は「普及モデルの終焉」と評価され、16歳で清華大学に進学した。

論文の宛先:

[1] https://arxiv.org/abs/2310.14189.

[2] https://arxiv.org/abs/2303.01469.

<<: 描いた場所に画像が動きます！ Gen-2の新機能「マジックブラシ馬良」が大ヒット、ネットユーザー：緊急、緊急、緊急

>>: PaddleOCRのスーパーパワーを解き放つ

科学技術史上最も爆発的な組み合わせ「メタバース + ブレイン・コンピューター・インターフェース」、私たちはそこからどれくらい遠いのでしょうか?

ブログ

LeCun、Zhou Zhihua、Kai-Fu Leeらは2020年にAIに何を期待しているのでしょうか?

OpenAI が Stable Diffusion を救います! Ilya Song Yang らによるオープンソースの Dall E3 デコーダー

一貫性モデルは進化した

もう一つ

△NvidiaのAI科学者ジム・ファン氏のTwitterより

科学技術史上最も爆発的な組み合わせ「メタバース + ブレイン・コンピューター・インターフェース」、私たちはそこからどれくらい遠いのでしょうか?

DIFFアルゴリズムがわからない場合は、私に連絡してください（画像付き）

タッチから音声へ: 音声テクノロジーが IoT 環境をどう変えるか

Javaソートアルゴリズムの概要（IV）：シェルソート

LeCun、Zhou Zhihua、Kai-Fu Leeらは2020年にAIに何を期待しているのでしょうか?

優れたオープンソース音声認識エンジン13選

世界モデルに関するいくつかの誤解と自動運転との統合に関する考察

信頼できる GNN を構築するにはどうすればよいでしょうか?最新のレビューはコチラ！信頼できるグラフニューラルネットワーク: 次元、方法、傾向

推薦する

MLOpsの助けにより、AIは開発の黄金期を迎えることになる

機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

数独問題を解くには人工知能や量子コンピューティングを使うべきでしょうか?

教育用人工知能における倫理的リスクを排除する方法

ディープラーニングフレームワークの簡単な歴史: TFとPyTorchは二大勢力であり、次の10年は黄金時代を迎える

人工知能（AI）を学ぶにはどのような知識が必要ですか？

データサイエンティスト向けの自動化された機械学習ライブラリ 20 選

ビデオメモリを節約する新しい方法: 2 ビット活性化圧縮を使用して PyTorch でニューラルネットワークをトレーニングする

百度、599ドルのスマートビデオスピーカーを発売

テルアビブ大学は、SOTAメソッドとアーキテクチャの新たな進歩を完全に理解するためにStyleGANを要約しました。

ML コミュニティにおける 8 つの主要な「癌」: 盲目的崇拝、相互批判、SOTA の重視と有効性の軽視...

私が純粋アルゴリズムの面接の質問に反対する理由

機械学習が量子加速を実現、AI研究のパラダイムが完全に変わる可能性

クラッシュラマ2！マイクロソフトの13億パラメータphi-1.5は、単一のA100でトレーニングされ、SOTAを更新します