GAN モデルは優れていますが、トレーニング データに対する要件が高すぎるため、シーンとオブジェクトのセマンティクスを組み合わせると不合理な画像が生成されやすく、一見すると偽の画像になります。最近、Facebookは史上最強の移行能力を持つと言われるIC-GANモデルをリリースしました。さまざまなシーンやオブジェクトを組み合わせることができ、トレーニングセットに登場しなかったものも完璧に復元できます。雪とラクダを一緒にしても違和感がありません! 生成的敵対的ネットワーク (GAN) は、リアルな画像、抽象的なコラージュ、スタイル転送を生成できる、画像生成の分野で最も強力な AI モデルであると言えます。 しかし、GAN にはニューラル ネットワーク モデルに共通する致命的な欠陥もあります。つまり、GAN には制限があり、通常はトレーニング データセットに密接に関連するオブジェクトまたはシーンの画像しか生成できないということです。 例えば、車の画像でトレーニングしたGANは、車関連の画像であれば極めてリアルに生成できますが、花や動物などのモデルを生成するように要求された場合、生成された画像が物理学などの常識に反する可能性があるため、一見偽物に見える可能性があります。 この問題を解決するために、Facebook AI Research は、リアルでこれまでにない画像の組み合わせを生成できる新しいモデル、Instance-Conditioned GAN (IC-GAN) を提案しました。 https://arxiv.org/abs/2109.05070 たとえば、雪とラクダの写真、または街中のシマウマの写真をシームレスに組み合わせることができます。 コードは現在オープンソースです。 研究者らはカーネル密度推定 (KDE) 手法にヒントを得て、複雑なデータセットの分布をモデル化するためのノンパラメトリック手法を導入しました。 KDE は、各トレーニング データ ポイントの周囲の密度をパラメーター化されたカーネルの混合としてモデル化するノンパラメトリック密度推定器です。 IC-GAN は、各コンポーネントがトレーニングインスタンスに基づいて条件付けされて取得される混合密度推定器として考えることができます。 ただし、KDE とは異なり、IC-GAN はデータ確率を明示的にモデル化するのではなく、条件インスタンスとノイズ ベクトルを入力として受け取るニューラル ネットワークを使用してローカル密度を暗黙的にモデル化する敵対的アプローチを採用しています。 したがって、IC-GAN のカーネルは、処理するデータ ポイントから独立しなくなり、カーネル帯域幅パラメーターの代わりに、識別器に供給する実際のサンプルをサンプリングするインスタンスの近傍サイズを選択することで滑らかさを制御します。 IC-GAN は、データ マニホールドを、データ ポイントとその最も近い近傍によって記述される重複する近傍の混合物に分割し、IC-GAN モデルは各データ ポイントの周囲の分布を学習できます。条件インスタンスの周囲に十分に大きな近傍を選択することで、データが小さなクラスターに過度に分割されることを回避できます。 M 個のデータ サンプルを含むラベルなしデータセットの埋め込み関数 f が与えられた場合、まず f は教師なしトレーニングまたは自己教師トレーニングを使用してトレーニングされ、インスタンスの特徴が抽出されます。 次に、コサイン類似度を使用して、各データ サンプルの k 近傍のセットを定義します。 ジェネレータを使用して条件付き分布p(x | hi)を暗黙的にモデル化する場合、ジェネレータは条件付き分布からのサンプルを単位ガウス事前分布z∼N(0, 1)で変換します。ここで、hiはトレーニングデータから抽出されたインスタンスxiの特徴ベクトルです。 IC-GAN では、ジェネレーターのトレーニングに敵対的アプローチが使用されるため、ジェネレーターと識別器を共同でトレーニングすることができ、識別器は hi の実際の隣接ノードと生成された隣接ポイントを区別するために使用されます。各hiについて、真の近傍はAiから均一にサンプリングされます。 ジェネレータ G と識別器 D は両方とも 2 人のプレイヤーによる最小最大ゲームに参加し、目標に対するナッシュ均衡方程式を見つけようとします。 IC-GAN をトレーニングする際、利用可能なすべてのトレーニング データ ポイントを使用してモデルを微調整します。推論時には、KDE などのノンパラメトリック密度推定法と同様に、IC-GAN のジェネレーターもインスタンス特徴を必要とします。インスタンス特徴は、トレーニング分布または別の分布から取得される場合があります。 この方法は、クラス条件による生成に拡張できます。クラスラベル y に追加のジェネレーターと識別子を追加することで、IC-GAN をクラス条件付き生成に使用できます。 IC-GAN は、インスタンスの表現をジェネレーターとディスクリミネーターへの追加入力として提供し、インスタンスの近傍をディスクリミネーターの実際のサンプルとして使用することで、データ ポイント (インスタンスとも呼ばれます) の近傍の分布をモデル化することを学習します。 離散クラスター インデックスの条件付けとは異なり、インスタンス表現の条件付けにより、ジェネレーターは自然に類似のインスタンスに対して類似のサンプルを生成します。また、一度トレーニングが完了すると、IC-GAN は推論時に条件付きインスタンスを交換するだけで、トレーニング中には見られなかった他のデータセットに簡単に移行できます。 実験部分では、研究者らは ImageNet および COCO Stuff データセットを使用しました。実験結果では、無条件モデルおよび教師なしデータ分割ベースラインと比較して、IC-GAN がパフォーマンスを大幅に向上したことが示されました。 非選択的ベースライン モデル BigGAN は、トレーニング セット内のすべてのラベルをゼロに設定してトレーニングされます。IC-GAN は、64×64 と 128×128 の両方の解像度で FID スコアと IS スコアの点で以前のすべての方法を上回り、高解像度でより高品質の画像を生成できます。 移行実験を行う際、まず ImageNet 上の BigGAN アーキテクチャを使用して IC-GAN をトレーニングし、テスト中に COCO Stuff インスタンスを使用して画像を生成します。このデータ分割パターンには、オブジェクトの未知の組み合わせが含まれています。 ImageNet でトレーニングされた IC-GAN は、すべてのセグメンテーションにおいて COCO Stuff でトレーニングされた同じモデルよりも優れています (128 解像度でのトレーニング FID は 8.5 対 16.8)。 ImageNet と COCO Stuff のデータ分布がどれだけ近いかを調べるために、研究者は 128×128 解像度で 2 つのデータセットの実際のデータ シーケンス分割間の FID スコアを 37.2 と計算しました。 したがって、IC-GAN の優れた転送能力はデータセットの類似性によって説明できるものではなく、ImageNet で事前トレーニングされた特徴抽出器と特徴生成器の有効性に起因すると考えられます。 COCO Stuff の条件付きインスタンスを ImageNet の条件付きインスタンスに置き換えると、トレーニング FID スコアは 43.5 となり、条件付きインスタンスを変更することで大幅な分布シフトが実現できることが強調されます。 研究者らは、IC-GAN をクラス条件付きのケースに拡張し、意味的に制御可能な生成と ImageNet での比較可能な定量的結果を示しています。 クラス条件付き IC-GAN は、FID と、128×128 解像度での FID スコアを除くすべての解像度の点で BigGAN を上回ります。 BigGAN とは異なり、IC-GAN はインスタンスの特徴を固定してクラス条件を交換するか、クラス条件を固定してインスタンスの特徴を交換することで、生成された画像のセマンティクスを制御できます。 生成された画像は、インスタンスのクラス ラベルとセマンティクスを保持し、ImageNet では未知のシーンである、類似の背景に対する異なる犬種や雪の中のラクダを生成できます。 これらの新しい機能により、IC-GAN は、データセットを拡張して多様なオブジェクトやシーンを含めるための新しい視覚的な例を作成し、アーティストやクリエイターに AI 生成のよりクリエイティブな幅広いコンテンツを提供し、高品質の画像生成の研究を進めるために使用できます。 |
<<: エラー率を半分にするには、500 倍以上の計算能力が必要です。ディープラーニングの未来は、単にお金をかけるだけで実現できるのでしょうか?
>>: 200語あれば本一冊分は読める。GPT-3はすでに小説の要約を書くことができる
人間の細胞にはそれぞれ多数の遺伝子が含まれていますが、いわゆる「コーディング」DNA配列は、ヒトゲノ...
[51CTO.comからのオリジナル記事]新たな技術革命の到来により、技術革新は世界の発展の核心的...
最近、AIGC の広大な世界で、セマンティック コンテンツを元の位置 (ハンドル ポイント) からタ...
最も注目されているテクノロジー企業OpenAIと世界一の富豪マスク氏との壮大な戦いは新たなレベルに達...
通勤方法は時代とともに変化してきたかもしれませんが、交通管理の方法は変わっていません。 INRIX世...
近年、研究者らはトカマクの停止や損傷の原因となる核分裂反応を研究している。核分裂反応を予測・制御でき...
PHP はマネージド言語です。PHP プログラミングでは、プログラマーがメモリ リソースの割り当てと...
我が国の戦略的新興産業の一つであるドローンは近年急速に発展し、技術、製品、応用、市場において満足のい...
[[377490]]海外メディアの報道によると、フェイスブックは1月21日、視覚障害のあるユーザー向...
[51CTO.com クイック翻訳] 権威ある調査によると、2017 年に DevOps は市場で ...
3月15日、毎年恒例のCCTV Finance 3.15 Galaが開催されています。序文から判断す...