HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

多くのコンテンツ作成プロジェクトでは、単純なスケッチをリアルな絵に変換する必要があります。これには、入力が与えられた自然な画像の条件付き分布を学習するために深層生成モデルを使用する画像間の変換が含まれます。

画像から画像への変換の基本的な概念は、事前にトレーニングされたニューラル ネットワークを使用して、さまざまな自然画像をキャプチャすることです。画像の変換は、多様体を走査し、実行可能な入力セマンティック ポイントを特定することに似ています。合成ネットワークは、潜在空間の任意のサンプリングから信頼性の高い出力を提供するために、多数の画像を使用して事前にトレーニングされています。事前にトレーニングされた合成ネットワークを通じて、下流のトレーニングはユーザー入力をモデルの潜在表現に適応させます。

長年にわたり、多くのタスク固有の方法が SOTA レベルに到達してきましたが、現在のソリューションでは、実用に耐える高忠実度画像を作成するのにまだ苦労しています。

最近の論文で、香港科技大学とマイクロソフトリサーチアジアの研究者らは、画像から画像への変換には事前のトレーニングだけが必要だと主張している。従来のアプローチでは、特殊なアーキテクチャ設計と単一の変換モデルのゼロからのトレーニングが必要であり、特にペアのトレーニング データが不十分な場合は、複雑なシーンを高品質で生成することが困難でした。

したがって、我々は各画像間変換問題を下流タスクとみなし、さまざまな画像間変換に適応するために事前トレーニング済みの拡散モデルを採用した単純な一般的なフレームワークを導入します。彼らは、提案された事前トレーニング済みの画像間翻訳モデルを PITI (事前トレーニングベースの画像間翻訳) と呼びました。さらに、研究者らは、拡散モデルのトレーニングにおけるテクスチャ合成を強化するために敵対的トレーニングを使用することを提案し、それを正規化誘導サンプリングと組み合わせて生成品質を向上させました。

最後に、ADE20K、COCO-Stuff、DIODE などの厳しいベンチマークでさまざまなタスクについて広範な実験的比較を行い、PITI 合成画像が前例のないリアリティと忠実度を示すことを示しました。

  • 論文リンク: https://arxiv.org/pdf/2205.12952.pdf
  • プロジェクトのホームページ: https://tengfei-wang.github.io/PITI/index.html

GANは死んだ、拡散モデル万歳

著者らは、特定のドメインで最高のパフォーマンスを発揮する GAN を使用する代わりに、拡散モデルを使用して多種多様な画像を合成しました。第二に、視覚的な意味を記述する潜在コードと、画像の変動を調整する潜在コードの 2 種類の潜在コードから画像を生成する必要があります。セマンティックな低次元潜在変数は、下流のタスクにとって重要です。そうしないと、モーダル入力を複雑な潜在空間に変換することは不可能です。これを踏まえて、研究者たちは、さまざまな画像を生成できるデータ駆動型モデルである GLIDE を、事前トレーニング済みの生成事前モデルとして使用しました。 GLIDE は潜在テキストを使用するため、意味的な潜在空間が可能になります。

拡散法とスコアベースの方法は、ベンチマーク全体で同等の生成品質を示します。クラス条件付き ImageNet では、これらのモデルは、視覚的な品質とサンプリングの多様性の点で GAN ベースの方法に匹敵します。最近、大規模なテキストと画像のペアでトレーニングされた拡散モデルは驚くべき能力を示しています。訓練された拡散モデルは、合成のための一般的な生成事前確率を提供できます。

フレーム

著者らは、プレテキストタスクを使用して大量のデータを事前トレーニングし、画像統計を予測するための非常に有意義な潜在空間を開発することができました。

下流のタスクでは、タスク固有の環境をマッピングするために、セマンティック空間を条件付きで微調整します。機械は事前にトレーニングされた情報に基づいて、信頼できるビジュアルを作成します。

著者らは、意味入力を使用して拡散モデルを事前トレーニングすることを提案している。彼らは、テキスト条件付けされ、画像トレーニングされた GLIDE モデルを使用しました。 Transformer ネットワークはテキスト入力をエンコードし、拡散モデルのトークンを出力します。計画どおり、テキストをスペースに埋め込むのは理にかなっています。

上の写真は作者の作品です。事前にトレーニングされたモデルを使用すると、ゼロから始める手法と比較して、画像の品質と多様性が向上します。 COCO データセットには多数のカテゴリと組み合わせがあるため、基本的な方法では魅力的なアーキテクチャを備えた美しい結果を提供することはできません。彼らのアプローチは、難しいシーンに対して正確なセマンティクスを備えた豊かな詳細を作成することができます。これらの画像は彼らのアプローチの多様性を示しています。

実験と影響

表 1 は、提案された方法のパフォーマンスが他のモデルよりも常に優れていることを示しています。主要な OASIS と比較すると、PITI はマスクから画像への合成における FID の大幅な改善を実現します。さらに、この方法は、スケッチから画像への合成タスクやジオメトリから画像への合成タスクでも優れたパフォーマンスを示します。

図 3 は、さまざまなタスクにおけるこの研究の視覚化結果を示しています。実験では、事前トレーニング済みモデルを使用すると、最初からトレーニングする方法と比較して、生成される画像の品質と多様性が大幅に向上することが示されています。私たちのアプローチは、困難な生成タスクであっても鮮明な詳細と正しいセマンティクスを生成することができます。

この研究では、Amazon Mechanical Turk の COCO-Stuff でのマスクから画像への合成に関するユーザー調査も実施し、20 人の参加者から 3,000 票を獲得しました。参加者には一度に 2 つの画像が提示され、より現実的な方に投票するよう求められました。表 2 に示すように、提案された方法は、ゼロからのモデルや他のベースラインよりも大幅に優れています。

条件付き画像合成は、特定の条件を満たす高品質の画像を作成します。コンピュータービジョンやグラフィックスの分野では、情報の作成や操作にこれを使用します。大規模な事前トレーニングにより、画像分類、オブジェクト認識、セマンティックセグメンテーションが向上します。大規模な事前トレーニングが一般的な生成タスクに有益であるかどうかは不明です。

エネルギー使用量と二酸化炭素排出量は、画像の事前トレーニングにとって重要な問題です。事前トレーニングはエネルギーを大量に消費しますが、一度だけ実行すれば済みます。条件付き微調整により、下流のタスクで同じ事前トレーニング済みモデルを使用できるようになります。事前トレーニングにより、生成モデルをより少ないトレーニング データでトレーニングできるため、プライバシーの懸念や高額な注釈コストのためにデータが限られている場合でも、画像合成を改善できます。

<<:  AI顧客サービス指標について話す

>>:  生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

ブログ    
ブログ    
ブログ    

推薦する

ドローンのアフターサービス市場の改善が必要

最近、ニュースの表紙でドローンが人を負傷させたというニュースが報道され、ネットワーク全体の注目を集め...

高度なランサムウェア攻撃によりAIによるサイバー防御の必要性が浮き彫りに

Deep Instinct の CIO である Carl Froggett 氏は、2024 年に予算...

PyTorch ライブラリの 95% がこのバグの影響を受けます。テスラのAIディレクターも例外ではなかった

[[393110]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

PaddlePaddle 中国ツアー - スマート製造業を支援するゼロ閾値 AI 革新的アプリケーション

製造業は急速にインテリジェント化の新たな段階に入りつつあり、ますます多くの製造企業が「インテリジェン...

ロボットやAIが事故を起こした場合、誰が責任を負うのでしょうか?

[[348005]]自動運転車が歩行者をはねた場合、法的責任を負うのは誰でしょうか?所有者、製造者...

人工知能の時代において、最近熱い議論を呼んだ「996」に別れを告げることができるでしょうか?

[[263744]] 2019年3月27日、有名なコードホスティングプラットフォームGitHub上...

...

人工知能は何度も「危機的状況」に陥っているが、「成長痛」をどう解決するのか?

専門家や業界関係者は、人工知能がさまざまな業界や分野に広く浸透するにつれ、現場の応用に重点を置き基礎...

20以上のモバイルハードウェア、Int8超高速推論、エンドサイド推論エンジンPaddle Lite 2.0が正式にリリースされました

PaddlePaddleは今年8月、端末やエッジデバイス向けのエッジ推論エンジン「Paddle Li...

第 4 次小売革命を経て、WOT の 3 人の専門家が真のスマート小売とは何かを語ります。

[51CTO.comよりオリジナル記事] 6月21日、WOT2019グローバル人工知能技術サミット...

ChatGPT の新機能がオンラインになりました。これでビデオ編集が簡単になりますか?

最近、OpenAIが数か月間隠していた大きな動きがついに公開されました。それが「コードインタープリタ...

MITの中国人博士課程学生がChatGPTをJupyterに移行し、自然言語プログラミングをワンストップソリューションに

自然言語プログラミングは Jupyter で直接実行できます。 MIT の中国人博士課程の学生によっ...

音声認識、マッチングアルゴリズム、モデルに関する簡単な説明

[[185868]]スピーチの基本概念スピーチは複雑な現象です。それがどのように生成され、どのように...