最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース

最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース

[[425904]]

GAN モデルは優れていますが、トレーニング データに対する要件が高すぎるため、シーンとオブジェクトのセマンティクスを組み合わせると不合理な画像が生成されやすく、一見すると偽の画像になります。最近、Facebookは史上最強の移行能力を持つと言われるIC-GANモデルをリリースしました。さまざまなシーンやオブジェクトを組み合わせることができ、トレーニングセットに登場しなかったものも完璧に復元できます。雪とラクダを一緒にしても違和感がありません!

生成的敵対的ネットワーク (GAN) は、リアルな画像、抽象的なコラージュ、スタイル転送を生成できる、画像生成の分野で最も強力な AI モデルであると言えます。

しかし、GAN にはニューラル ネットワーク モデルに共通する致命的な欠陥もあります。つまり、GAN には制限があり、通常はトレーニング データセットに密接に関連するオブジェクトまたはシーンの画像しか生成できないということです。

例えば、車の画像でトレーニングしたGANは、車関連の画像であれば極めてリアルに生成できますが、花や動物などのモデルを生成するように要求された場合、生成された画像が物理学などの常識に反する可能性があるため、一見偽物に見える可能性があります。

この問題を解決するために、Facebook AI Research は、リアルでこれまでにない画像の組み合わせを生成できる新しいモデル、Instance-Conditioned GAN (IC-GAN) を提案しました。

https://arxiv.org/abs/2109.05070

たとえば、雪とラクダの写真、または街中のシマウマの写真をシームレスに組み合わせることができます。

コードは現在オープンソースです。

研究者らはカーネル密度推定 (KDE) 手法にヒントを得て、複雑なデータセットの分布をモデル化するためのノンパラメトリック手法を導入しました。 KDE は、各トレーニング データ ポイントの周囲の密度をパラメーター化されたカーネルの混合としてモデル化するノンパラメトリック密度推定器です。

IC-GAN は、各コンポーネントがトレーニングインスタンスに基づいて条件付けされて取得される混合密度推定器として考えることができます。

ただし、KDE ​​とは異なり、IC-GAN はデータ確率を明示的にモデル化するのではなく、条件インスタンスとノイズ ベクトルを入力として受け取るニューラル ネットワークを使用してローカル密度を暗黙的にモデル化する敵対的アプローチを採用しています。

したがって、IC-GAN のカーネルは、処理するデータ ポイントから独立しなくなり、カーネル帯域幅パラメーターの代わりに、識別器に供給する実際のサンプルをサンプリングするインスタンスの近傍サイズを選択することで滑らかさを制御します。

IC-GAN は、データ マニホールドを、データ ポイントとその最も近い近傍によって記述される重複する近傍の混合物に分割し、IC-GAN モデルは各データ ポイントの周囲の分布を学習できます。条件インスタンスの周囲に十分に大きな近傍を選択することで、データが小さなクラスターに過度に分割されることを回避できます。

M 個のデータ サンプルを含むラベルなしデータセットの埋め込み関数 f が与えられた場合、まず f は教師なしトレーニングまたは自己教師トレーニングを使用してトレーニングされ、インスタンスの特徴が抽出されます。

次に、コサイン類似度を使用して、各データ サンプルの k 近傍のセットを定義します。

ジェネレータを使用して条件付き分布p(x | hi)を暗黙的にモデル化する場合、ジェネレータは条件付き分布からのサンプルを単位ガウス事前分布z∼N(0, 1)で変換します。ここで、hiはトレーニングデータから抽出されたインスタンスxiの特徴ベクトルです。

IC-GAN では、ジェネレーターのトレーニングに敵対的アプローチが使用されるため、ジェネレーターと識別器を共同でトレーニングすることができ、識別器は hi の実際の隣接ノードと生成された隣接ポイントを区別するために使用されます。各hiについて、真の近傍はAiから均一にサンプリングされます。

ジェネレータ G と識別器 D は両方とも 2 人のプレイヤーによる最小最大ゲームに参加し、目標に対するナッシュ均衡方程式を見つけようとします。

IC-GAN をトレーニングする際、利用可能なすべてのトレーニング データ ポイントを使用してモデルを微調整します。推論時には、KDE ​​などのノンパラメトリック密度推定法と同様に、IC-GAN のジェネレーターもインスタンス特徴を必要とします。インスタンス特徴は、トレーニング分布または別の分布から取得される場合があります。

この方法は、クラス条件による生成に拡張できます。クラスラベル y に追加のジェネレーターと識別子を追加することで、IC-GAN をクラス条件付き生成に使用できます。 IC-GAN は、インスタンスの表現をジェネレーターとディスクリミネーターへの追加入力として提供し、インスタンスの近傍をディスクリミネーターの実際のサンプルとして使用することで、データ ポイント (インスタンスとも呼ばれます) の近傍の分布をモデル化することを学習します。

離散クラスター インデックスの条件付けとは異なり、インスタンス表現の条件付けにより、ジェネレーターは自然に類似のインスタンスに対して類似のサンプルを生成します。また、一度トレーニングが完了すると、IC-GAN は推論時に条件付きインスタンスを交換するだけで、トレーニング中には見ら​​れなかった他のデータセットに簡単に移行できます。

実験部分では、研究者らは ImageNet および COCO Stuff データセットを使用しました。実験結果では、無条件モデルおよび教師なしデータ分割ベースラインと比較して、IC-GAN がパフォーマンスを大幅に向上したことが示されました。

非選択的ベースライン モデル BigGAN は、トレーニング セット内のすべてのラベルをゼロに設定してトレーニングされます。IC-GAN は、64×64 と 128×128 の両方の解像度で FID スコアと IS スコアの点で以前のすべての方法を上回り、高解像度でより高品質の画像を生成できます。

移行実験を行う際、まず ImageNet 上の BigGAN アーキテクチャを使用して IC-GAN をトレーニングし、テスト中に COCO Stuff インスタンスを使用して画像を生成します。このデータ分割パターンには、オブジェクトの未知の組み合わせが含まれています。 ImageNet でトレーニングされた IC-GAN は、すべてのセグメンテーションにおいて COCO Stuff でトレーニングされた同じモデルよりも優れています (128 解像度でのトレーニング FID は 8.5 対 16.8)。

ImageNet と COCO Stuff のデータ分布がどれだけ近いかを調べるために、研究者は 128×128 解像度で 2 つのデータセットの実際のデータ シーケンス分割間の FID スコアを 37.2 と計算しました。

したがって、IC-GAN の優れた転送能力はデータセットの類似性によって説明できるものではなく、ImageNet で事前トレーニングされた特徴抽出器と特徴生成器の有効性に起因すると考えられます。

COCO Stuff の条件付きインスタンスを ImageNet の条件付きインスタンスに置き換えると、トレーニング FID スコアは 43.5 となり、条件付きインスタンスを変更することで大幅な分布シフトが実現できることが強調されます。

研究者らは、IC-GAN をクラス条件付きのケースに拡張し、意味的に制御可能な生成と ImageNet での比較可能な定量的結果を示しています。

クラス条件付き IC-GAN は、FID と、128×128 解像度での FID スコアを除くすべての解像度の点で BigGAN を上回ります。 BigGAN とは異なり、IC-GAN はインスタンスの特徴を固定してクラス条件を交換するか、クラス条件を固定してインスタンスの特徴を交換することで、生成された画像のセマンティクスを制御できます。

生成された画像は、インスタンスのクラス ラベルとセマンティクスを保持し、ImageNet では未知のシーンである、類似の背景に対する異なる犬種や雪の中のラクダを生成できます。

これらの新しい機能により、IC-GAN は、データセットを拡張して多様なオブジェクトやシーンを含めるための新しい視覚的な例を作成し、アーティストやクリエイターに AI 生成のよりクリエイティブな幅広いコンテンツを提供し、高品質の画像生成の研究を進めるために使用できます。

<<:  エラー率を半分にするには、500 倍以上の計算能力が必要です。ディープラーニングの未来は、単にお金をかけるだけで実現できるのでしょうか?

>>:  200語あれば本一冊分は読める。GPT-3はすでに小説の要約を書くことができる

ブログ    

推薦する

C++ kmp アルゴリズム テンプレート コード解釈

C++ プログラミング言語でのテンプレートの適用は、比較的複雑な適用技術です。今日は、C++ kmp...

Puyuanはインテリジェントなビジネスプロセスを推進:「BPM+RPA」が進行中で、企業のデジタル変革を実現

世界的なデジタル変革ブームが到来し、ビジネス環境が急速に変化する中、業界の再編と再編が加速しています...

ジェネレーティブAIがインテリジェントオートメーションを推進する方法

1997 年、世界は現チェスチャンピオンのガルリ・カスパロフと IBM の Deep Blue AI...

...

最大フロー問題の解決における画期的な進歩: 新しいアルゴリズムは「驚くほど高速」

この問題はネットワークフロー理論において非常に基本的なものです。 「新しいアルゴリズムは驚くほど高速...

...

BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

データマイニングのコアアルゴリズムの一つである回帰

[[192284]]回帰は幅広い概念です。その基本的な概念は、変数のグループを使用して別の変数を予測...

あなたのビジネスに必要な AI 処理ユニットはどれですか?

データセンターに AI を導入することを検討している場合は、まず投資すべきハードウェアとインフラスト...

...

AIが銀行業務をどう変えるか

今日、人工知能 (AI) は多くの業界に多くの資産と利点をもたらし、チャットボットから Siri や...

データサイエンスにおける強力な思考

統計学の入門コースを受講したことがあるなら、データ ポイントは理論を刺激したりテストしたりするために...

IDCの予測: 今年のAI市場規模は1565億ドルに達し、前年比12.3%増となる

市場調査会社IDCは、2020年の世界の人工知能市場の規模は2019年に比べて12.3%増加すると予...

...

モデル入力は目に頼りません!中国人著者:強化学習は人間と同じ知覚能力を持つ

[[439504]]人間の適応力は恐ろしいですね!目の見えない人は目で世界を見ることはできませんが、...