オートエンコーダー (AE) と生成的敵対的ネットワーク (GAN) は、複雑な分布に対する教師なし学習のための最も有望な 2 つのアプローチであり、よく比較されます。一般的に、画像生成におけるオートエンコーダの適用範囲は GAN よりも狭いと考えられています。では、オートエンコーダは GAN と同じ生成機能を持つことができるのでしょうか?この研究で提案された新しいオートエンコーダ ALAE がその答えを提供します。現在、この論文はCVPR 2020カンファレンスに採択されています。
オートエンコーダは、エンコーダージェネレーターグラフを同時に学習することで、生成的側面と表現的側面を組み合わせた教師なしアプローチです。オートエンコーダに関して未回答の質問が 2 つあります。
最近、米国ウェストバージニア大学の研究者らは、上記の問題を解決するために、新しいタイプのオートエンコーダーである敵対的潜在オートエンコーダー (ALAE) を提案しました。 ALAE は、GAN トレーニングの最近の改善を活用した一般的なアーキテクチャです。研究者らは、ALAE は GAN に匹敵する生成能力を持ち、分離した表現を学習できると述べている。 この研究では、ALAE の一般的なアーキテクチャを使用して、MLP エンコーダーに基づくオートエンコーダー 1 つと StyleGAN ジェネレーターに基づくオートエンコーダー (StyleALAE) の 2 つを設計しました。 研究者らは、2 つのアーキテクチャの分離機能を検証し、StyleALAE は StyleGAN が生成したものと同等の品質の 1024x1024 の顔画像を生成できるだけでなく、同じ解像度の実際の画像に基づいて顔の再構築と操作の結果も生成できることを発見しました。 研究者たちは、ALAE がジェネレーター アーキテクチャと同等かそれ以上の性能を持つ最初のオートエンコーダーであると考えています。 ALAE はどれくらい効果的ですか?表示図を見てみましょう。 StyleALAE のスタイルブレンディング効果。 興味のある読者は自分でデモを実行できますが、CUDA 対応 GPU、PyTorch v1.3.1 以上、cuda/cuDNN ドライバーが必要です。詳細については、GitHub アドレスを参照してください。 新しいユニバーサルオートエンコーダALAE研究者たちは、各 AE 手法が同じ仮定を使用していることを観察しました。つまり、潜在空間の確率分布は事前分布と関連しており、オートエンコーダはそれに一致している必要があるということです。 StyleGAN 関連の論文では、中間潜在空間にはより優れた分離機能が必要であることが証明されています。 そこで研究者たちは、オリジナルのGANパラダイムを修正して新しいAEアーキテクチャを設計しました。 これにより、データから学習した潜在分布に基づいて結合問題を解決し (A)、敵対的戦略を使用して出力データ分布を学習し (B)、GAN の生成能力を維持できます。 (A) と (B) を実現するために、本研究では、データ空間で動作する単純な l_2 ノルムベースの再構成損失の使用を回避するために、潜在空間 (C) に AE 相互性を配置することを提案しています (これらは通常、画像空間では最適ではない選択です)。 下の図 1 に示すように、研究者はジェネレータ G と識別器 D をそれぞれ F、G と E、D の 2 つのネットワークに分解しました。 図 1: ALAE アーキテクチャ。 さらに、研究者らは、以下の表に示すように、ALAE と他のオートエンコーダーとの関係も示しました。 スタイルALAE 研究者らは ALAE を使用して、StyleGAN に基づくジェネレーターを使用するオートエンコーダーを構築しました。具体的なアーキテクチャは以下の図 2 に示されています。 図 2: StyleALAE アーキテクチャ。 StyleALAE エンコーダーのインスタンス正規化 (IN) レイヤーは、マルチスケール スタイル情報を抽出し、学習可能なマルチリニア マップを通じてそれらを潜在コード w に結合するために使用されます。 成し遂げるALAE のアルゴリズムトレーニングプロセスを次の図に示します。 ALAE はどれくらい効果的ですか?この研究では、複数のデータセットで ALAE のパフォーマンスを評価しました。実験コードとデータは GitHub アドレスにあります。 MNIST でのパフォーマンス 研究者らは、MNIST データセットを使用して ALAE をトレーニングし、特徴表現を使用して分類、再構築、分析の分離機能のタスクを実行しました。 表 2: MNIST 分類タスクにおけるさまざまな方法のパフォーマンス。 図3: MNIST再構築結果。 StyleALAEはスタイル表現の能力を学習します 研究者らは、FFHQ、LSUN、CelebA-HQデータセットにおけるStyleALAEのパフォーマンスを評価しました。 表 3: FFHQ および LSUN データセットにおけるさまざまな手法の FID スコア。 表 4: さまざまな方法の知覚パス長 (PPL)。表現の分離の程度を示します。 図5: FFHQ再構築結果。 StyleALAE 1024×1024 未公開画像の再構築結果。 図6: StyleALAEのFFHQ生成結果(解像度1024×1024)。 図 9: StyleALAE のスタイル混合効果。 「粗いスタイル」は、ソース画像からポーズ、一般的な髪型、顔の形などの高レベルの特徴をコピーし、宛先画像からすべての色 (目の色、髪の色、照明) をコピーします。「中程度のスタイル」は、ソース画像から髪型、目の開閉などのより小さな顔の特徴をコピーし、宛先画像から顔の形をコピーします。「細かいスタイル」は、ソース画像から色と微細構造をコピーします。 図 8: CelebA-HQ データセットにおけるさまざまな方法による再構築結果。 1 行目は実際の画像、2 行目: StyleALAE、3 行目: Balanced PIONEER、4 行目: PIONEER。 図からわかるように、StyleALAE で生成された結果はより鮮明で、歪みが最も少なくなっています。 |
[[255839]] BI中国語ウェブサイトが1月18日に報じた。マイクロソフトのCEOサティア・ナ...
データサイエンスは、近年テクノロジー分野で最もホットな分野の 1 つです。データサイエンスまたは関連...
トラック輸送業界とそれを支える物流は、国内外のサプライチェーンの成功の基盤となっています。こうしたサ...
著者 (Alex Rodriguez、Alessandro Laio) は、さまざまな形状のクラスタ...
機械学習/人工知能のサブフィールドがここ数年で人気が高まってきたことは間違いありません。ビッグデータ...
GPT-4 はより愚かになった、というのは本当ですか? ? ?スタンフォード大学とカリフォルニア大学...
エッジ AI は、今日のデジタル変革の時代に台頭している 2 つのテクノロジー、エッジ コンピューテ...
最近、アリババDAMOアカデミーは、2022年に最も注目に値する最先端技術トップ10をまとめました。...
[[434349]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...