HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

多くのコンテンツ作成プロジェクトでは、単純なスケッチをリアルな絵に変換する必要があります。これには、入力が与えられた自然な画像の条件付き分布を学習するために深層生成モデルを使用する画像間の変換が含まれます。

画像から画像への変換の基本的な概念は、事前にトレーニングされたニューラルネットワークを使用して、さまざまな自然画像をキャプチャすることです。画像の変換は、多様体を走査し、実行可能な入力セマンティックポイントを特定することに似ています。合成ネットワークは、潜在空間の任意のサンプリングから信頼性の高い出力を提供するために、多数の画像を使用して事前にトレーニングされています。事前にトレーニングされた合成ネットワークを通じて、下流のトレーニングはユーザー入力をモデルの潜在表現に適応させます。

長年にわたり、多くのタスク固有の方法が SOTA レベルに到達してきましたが、現在のソリューションでは、実用に耐える高忠実度画像を作成するのにまだ苦労しています。

最近の論文で、香港科技大学とマイクロソフトリサーチアジアの研究者らは、画像から画像への変換には事前のトレーニングだけが必要だと主張している。従来のアプローチでは、特殊なアーキテクチャ設計と単一の変換モデルのゼロからのトレーニングが必要であり、特にペアのトレーニングデータが不十分な場合は、複雑なシーンを高品質で生成することが困難でした。

したがって、我々は各画像間変換問題を下流タスクとみなし、さまざまな画像間変換に適応するために事前トレーニング済みの拡散モデルを採用した単純な一般的なフレームワークを導入します。彼らは、提案された事前トレーニング済みの画像間翻訳モデルを PITI (事前トレーニングベースの画像間翻訳) と呼びました。さらに、研究者らは、拡散モデルのトレーニングにおけるテクスチャ合成を強化するために敵対的トレーニングを使用することを提案し、それを正規化誘導サンプリングと組み合わせて生成品質を向上させました。

最後に、ADE20K、COCO-Stuff、DIODE などの厳しいベンチマークでさまざまなタスクについて広範な実験的比較を行い、PITI 合成画像が前例のないリアリティと忠実度を示すことを示しました。

論文リンク: https://arxiv.org/pdf/2205.12952.pdf
プロジェクトのホームページ: https://tengfei-wang.github.io/PITI/index.html

GANは死んだ、拡散モデル万歳

著者らは、特定のドメインで最高のパフォーマンスを発揮する GAN を使用する代わりに、拡散モデルを使用して多種多様な画像を合成しました。第二に、視覚的な意味を記述する潜在コードと、画像の変動を調整する潜在コードの 2 種類の潜在コードから画像を生成する必要があります。セマンティックな低次元潜在変数は、下流のタスクにとって重要です。そうしないと、モーダル入力を複雑な潜在空間に変換することは不可能です。これを踏まえて、研究者たちは、さまざまな画像を生成できるデータ駆動型モデルである GLIDE を、事前トレーニング済みの生成事前モデルとして使用しました。 GLIDE は潜在テキストを使用するため、意味的な潜在空間が可能になります。

拡散法とスコアベースの方法は、ベンチマーク全体で同等の生成品質を示します。クラス条件付き ImageNet では、これらのモデルは、視覚的な品質とサンプリングの多様性の点で GAN ベースの方法に匹敵します。最近、大規模なテキストと画像のペアでトレーニングされた拡散モデルは驚くべき能力を示しています。訓練された拡散モデルは、合成のための一般的な生成事前確率を提供できます。

フレーム

著者らは、プレテキストタスクを使用して大量のデータを事前トレーニングし、画像統計を予測するための非常に有意義な潜在空間を開発することができました。

下流のタスクでは、タスク固有の環境をマッピングするために、セマンティック空間を条件付きで微調整します。機械は事前にトレーニングされた情報に基づいて、信頼できるビジュアルを作成します。

著者らは、意味入力を使用して拡散モデルを事前トレーニングすることを提案している。彼らは、テキスト条件付けされ、画像トレーニングされた GLIDE モデルを使用しました。 Transformer ネットワークはテキスト入力をエンコードし、拡散モデルのトークンを出力します。計画どおり、テキストをスペースに埋め込むのは理にかなっています。

上の写真は作者の作品です。事前にトレーニングされたモデルを使用すると、ゼロから始める手法と比較して、画像の品質と多様性が向上します。 COCO データセットには多数のカテゴリと組み合わせがあるため、基本的な方法では魅力的なアーキテクチャを備えた美しい結果を提供することはできません。彼らのアプローチは、難しいシーンに対して正確なセマンティクスを備えた豊かな詳細を作成することができます。これらの画像は彼らのアプローチの多様性を示しています。

実験と影響

表 1 は、提案された方法のパフォーマンスが他のモデルよりも常に優れていることを示しています。主要な OASIS と比較すると、PITI はマスクから画像への合成における FID の大幅な改善を実現します。さらに、この方法は、スケッチから画像への合成タスクやジオメトリから画像への合成タスクでも優れたパフォーマンスを示します。

図 3 は、さまざまなタスクにおけるこの研究の視覚化結果を示しています。実験では、事前トレーニング済みモデルを使用すると、最初からトレーニングする方法と比較して、生成される画像の品質と多様性が大幅に向上することが示されています。私たちのアプローチは、困難な生成タスクであっても鮮明な詳細と正しいセマンティクスを生成することができます。

この研究では、Amazon Mechanical Turk の COCO-Stuff でのマスクから画像への合成に関するユーザー調査も実施し、20 人の参加者から 3,000 票を獲得しました。参加者には一度に 2 つの画像が提示され、より現実的な方に投票するよう求められました。表 2 に示すように、提案された方法は、ゼロからのモデルや他のベースラインよりも大幅に優れています。

条件付き画像合成は、特定の条件を満たす高品質の画像を作成します。コンピュータービジョンやグラフィックスの分野では、情報の作成や操作にこれを使用します。大規模な事前トレーニングにより、画像分類、オブジェクト認識、セマンティックセグメンテーションが向上します。大規模な事前トレーニングが一般的な生成タスクに有益であるかどうかは不明です。

エネルギー使用量と二酸化炭素排出量は、画像の事前トレーニングにとって重要な問題です。事前トレーニングはエネルギーを大量に消費しますが、一度だけ実行すれば済みます。条件付き微調整により、下流のタスクで同じ事前トレーニング済みモデルを使用できるようになります。事前トレーニングにより、生成モデルをより少ないトレーニングデータでトレーニングできるため、プライバシーの懸念や高額な注釈コストのためにデータが限られている場合でも、画像合成を改善できます。

<<: AI顧客サービス指標について話す

>>: 生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。