CMU と Adob​​e が協力: GAN モデルは事前トレーニングの時代を先導し、トレーニング サンプルのわずか 1% しか必要としません

CMU と Adob​​e が協力: GAN モデルは事前トレーニングの時代を先導し、トレーニング サンプルのわずか 1% しか必要としません

事前トレーニングの時代に入ってから、視覚認識モデルのパフォーマンスは急速に向上しましたが、生成的敵対的ネットワーク (GAN) などの画像生成モデルは遅れをとっているようです。

通常、GAN のトレーニングは教師なしでゼロから行われるため、時間と労力がかかるだけでなく、ビッグデータによる大規模な事前トレーニングで得た「知識」が活用されないという損失が生じませんか?

さらに、画像生成自体が、現実世界の視覚現象における複雑な統計データをキャプチャしてシミュレートできる必要があります。そうでないと、生成された画像は物理世界の法則に従わず、一目で「偽物」と識別されてしまいます。

事前トレーニング済みモデルは知識を提供し、GAN モデルは生成機能を提供します。この 2 つを組み合わせると素晴らしい結果が得られます。

問題は、GAN モデルの生成能力を向上させるために、どの事前トレーニング済みモデルをどのように組み合わせるかということです。

最近、CMU と Adob​​e の研究者が CVPR 2022 で、事前トレーニング済みモデルと GAN モデルのトレーニングを「選択」方式で組み合わせた記事を発表しました。

論文リンク: https://arxiv.org/abs/2112.09130

プロジェクトリンク: https://github.com/nupurkmr9/vision-aided-gan

ビデオリンク: https://www.youtube.com/watch?v=oHdyJNdQ9E4

GAN モデルのトレーニング プロセスは、識別器とジェネレーターで構成されます。識別器は、実際のサンプルと生成されたサンプルを区別するための関連統計を学習するために使用され、ジェネレーターの目的は、生成された画像を実際の分布にできるだけ近づけることです。

理想的には、識別器は生成された画像と実際の画像間の分布ギャップを測定できる必要があります。

ただし、データ量が非常に限られている場合、大規模な事前トレーニング済みモデルを識別器として直接使用すると、ジェネレーターが「容赦なく粉砕」され、「過剰適合」してしまう可能性が高くなります。

FFHQ 1k データセットでの実験では、最新の微分可能データ拡張方法を使用しても、識別器は依然として過剰適合し、トレーニング セットでは優れたパフォーマンスを発揮しますが、検証セットではパフォーマンスが低下することが示されています。

さらに、識別器は、人間には識別できないが機械には明らかな偽装に焦点を当てる場合があります。

識別器と生成器の機能のバランスをとるために、研究者らは、一連の異なる事前トレーニング済みモデルの表現を識別器として組み合わせることを提案した。

このアプローチには 2 つの利点があります。

1. 事前トレーニング済みの特徴に基づいて浅い分類器をトレーニングすることは、過剰適合を減らしながら、小規模データセットに深層ネットワークを適応させる一般的な方法です。

つまり、事前トレーニング済みモデルのパラメータを固定し、その上に軽量の分類ネットワークを追加するだけで、安定したトレーニング プロセスを提供できます。

例えば、上記の実験のOurs曲線からは、検証セットの精度がStyleGAN2-ADAよりもはるかに高いことがわかります。

2. 最近の研究では、ディープ ネットワークが、低レベルの視覚的手がかり (エッジやテクスチャ) から高レベルの概念 (オブジェクトやオブジェクトの一部) まで、意味のある視覚的概念を捉えられることも実証されています。

これらの特徴に基づいて構築された識別器は、人間の知覚とより一致する可能性があります。

また、複数の事前トレーニング済みモデルを組み合わせることで、ジェネレーターが異なる補完的な特徴空間内の実際の分布と一致するように促進できます。

最適な事前トレーニング済みネットワークを選択するために、研究者はまず、分類用の VGG-16、検出とセグメンテーション用の Swin-T などを含む複数の sota モデルを収集して「モデル バンク」を形成しました。

次に、特徴空間における実際の画像と偽の画像の線形セグメンテーションに基づく自動モデル検索戦略を提案し、ラベルの平滑化と微分化可能な強化技術を使用して、モデルトレーニングをさらに安定させ、過剰適合を減らします。

具体的には、実際のトレーニング サンプルと生成された画像の結合が、トレーニング セットと検証セットに分割されます。

事前トレーニング済みの各モデルについて、サンプルが実際のサンプルからのものか生成されたものか分類するようにロジスティック線形判別器がトレーニングされ、検証分割の「負のバイナリクロスエントロピー損失」を使用して分布ギャップが測定され、エラーが最小のモデルが返されます。

検証エラーが低いほど線形プローブの精度が高くなり、これらの特徴が実際のサンプルと生成されたサンプルを区別するのに役立ち、これらの特徴を使用するとジェネレーターにさらに有用なフィードバックを提供できることを示しています。

FFHQ および LSUN CAT データセットからの 1,000 個のトレーニング サンプルを使用して、GAN トレーニングを経験的に検証しました。

結果は、事前トレーニング済みモデルでトレーニングされた GAN の方が線形検出精度が高く、一般的に FID メトリックがより優れていることを示しています。

複数の既製モデルからのフィードバックを取り入れるために、次の 2 つのモデル選択とアンサンブル戦略も検討します。

1) K固定モデル選択戦略。これは、トレーニングの開始時にK個の最良の既製モデルを選択し、収束するまでトレーニングします。

2) K プログレッシブ モデル選択戦略。これは、一定回数の反復後に、パフォーマンスが最も優れたモデルと未使用のモデルを反復的に選択して追加します。

実験結果によると、K 固定戦略と比較して、プログレッシブ アプローチは計算の複雑さが低く、データ分布の違いを捉えるために事前トレーニング済みモデルを選択するのにも役立つことがわかりました。たとえば、プログレッシブ戦略によって選択される最初の 2 つのモデルは、通常、自己教師ありモデルと教師ありモデルのペアです。

この記事の実験は主に進歩的です。

最終的なトレーニング アルゴリズムでは、まず標準的な敵対的損失を使用して GAN をトレーニングします。

ベースライン ジェネレーターが与えられれば、線形プローブを使用して最適な事前トレーニング済みモデルを検索し、トレーニング中に損失目的関数を導入できます。

K プログレッシブ戦略では、利用可能な実際のトレーニング サンプルの数に比例する固定回数の反復トレーニングを行った後、前の段階で最適なトレーニング セット FID を使用して、新しい視覚支援識別子がスナップショットに追加されます。

トレーニング中、水平反転によってデータ拡張が実行され、微分可能拡張手法と片側ラベルスムージングが正規化項として使用されます。

また、既製のモデルのみを識別器として使用すると発散が生じますが、オリジナルの識別器と事前トレーニング済みモデルを組み合わせると、この状況が改善されることがわかります。

最後の実験では、FFHQ、LSUN CAT、および LSUN CHURCH データセットのトレーニング サンプル数が 1k から 10k まで変化した場合の結果を示します。

すべての設定において、FID は大幅に改善され、データが限られたシナリオでのアプローチの有効性が実証されています。

この方法とStyleGAN2-ADAの違いを定性的に分析するために、2つの方法で生成されたサンプルの品質に応じて、本論文で提案された新しい方法は、特にFFHQとLSUN CATの場合、最悪のサンプルの品質を向上させることができます。

次の識別器を徐々に追加していくと、事前トレーニング済みモデルの特徴に対する線形検出の精度が徐々に低下していることがわかります。これは、ジェネレーターが強力になっていることを意味します。

全体として、わずか 1 万個のトレーニング サンプルで、私たちの方法は LSUN CAT で、160 万枚の画像でトレーニングされた StyleGAN2 と同等の FID パフォーマンスを達成します。

完全なデータセットでは、この方法により、LSUN の猫、教会、馬のカテゴリで FID が 1.5 ~ 2 倍向上します。

著者のリチャード・チャンは、カリフォルニア大学バークレー校で博士号を取得し、コーネル大学で学士号と修士号を取得しました。主な研究対象には、コンピュータービジョン、機械学習、ディープラーニング、グラフィックス、画像処理などがあり、インターンシップや大学を通​​じて学術研究者と協力することがよくあります。

著者のジュンヤン・チューは、カーネギーメロン大学コンピュータサイエンス学部のロボット工学研究所の助教授です。また、コンピュータサイエンス学部と機械学習学部でも役職を務めています。主な研究分野は、コンピュータビジョン、コンピュータグラフィックス、機械学習、計算写真学です。

CMU に入社する前は、Adobe Research の研究科学者でした。彼は清華大学で学士号を取得し、カリフォルニア大学バークレー校で博士号を取得した後、MIT CSAILで博士研究員として勤務しました。

<<:  企業は適切なAI推論を得る方法を知る必要がある

>>:  MITの研究者はAIを使って自動運転車が赤信号でアイドリングを回避できるように支援する

ブログ    
ブログ    

推薦する

機械学習パイプラインのデータをオーケストレーションする方法

翻訳者 | 李睿校正 | 梁哲、孫淑娟機械学習のワークロードでは、結果を迅速に生成するために効率的な...

元アップル社員によって設立されたアルトマンは、同社初のAIハードウェアに投資し、ChatGPTへのアクセスをサポートした。

次に購入する電話はなぜ携帯電話であるべきなのでしょうか?ご覧のとおり、首輪にクリップするこの小さなガ...

プロセス産業におけるグリーン製造における人工知能の機会と課題

1. はじめにプロセス産業は原材料産業の一分野であり、国民経済にとって大きな意義を持っています。数十...

機械学習の実践者が直面する8つの大きな課題

機械学習 (ML) や人工知能 (AI) と聞くと、多くの人はロボットやターミネーターを想像します。...

画像セグメンテーションのためのディープラーニング: ネットワークアーキテクチャ設計の概要

この論文では、画像セマンティックセグメンテーションに CNN を使用する際のネットワーク構造の革新に...

...

人工知能がその地位を占める中、あなたは仕事を続けることができるでしょうか?

産業革命の重機からデジタルコンピュータ時代、さらに最近では人工知能の急速な発展に至るまで、技術の進歩...

AIが悪事を働いている?人工知能における倫理について考えなければなりません!

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

OpenAIの公式プロンプトエンジニアリングガイド:ChatGPTはこのようにプレイできます

ChatGPT や GPT-4 などの大規模言語モデル (LLM) の出現により、迅速なエンジニアリ...

オープンワールドでテストセグメントトレーニングを実行するにはどうすればいいですか?動的プロトタイプ拡張に基づく自己トレーニング法

モデルの一般化能力を向上させることは、視覚ベースの認識方法の実装を促進するための重要な基盤です。テス...

人工知能とビッグデータを開発する際に注意すべき12のポイント

人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...

...

...

...