顔合成効果はStyleGANに匹敵し、オートエンコーダである

顔合成効果はStyleGANに匹敵し、オートエンコーダである

オートエンコーダー (AE) と生成的敵対的ネットワーク (GAN) は、複雑な分布に対する教師なし学習のための最も有望な 2 つのアプローチであり、よく比較されます。一般的に、画像生成におけるオートエンコーダの適用範囲は GAN よりも狭いと考えられています。では、オートエンコーダは GAN と同じ生成機能を持つことができるのでしょうか?この研究で提案された新しいオートエンコーダ ALAE がその答えを提供します。現在、この論文はCVPR 2020カンファレンスに採択されています。

  • 論文アドレス: https://arxiv.org/pdf/2004.04467.pdf
  • GitHub アドレス: https://github.com/podgorskiy/ALAE

オートエンコーダは、エンコーダージェネレーターグラフを同時に学習することで、生成的側面と表現的側面を組み合わせた教師なしアプローチです。オートエンコーダに関して未回答の質問が 2 つあります。

  • オートエンコーダーには GAN と同じ生成機能がありますか?
  • オートエンコーダは分離した表現を学習できますか?

最近、米国ウェストバージニア大学の研究者らは、上記の問題を解決するために、新しいタイプのオートエンコーダーである敵対的潜在オートエンコーダー (ALAE) を提案しました。 ALAE は、GAN トレーニングの最近の改善を活用した一般的なアーキテクチャです。研究者らは、ALAE は GAN に匹敵する生成能力を持ち、分離した表現を学習できると述べている。

この研究では、ALAE の一般的なアーキテクチャを使用して、MLP エンコーダーに基づくオートエンコーダー 1 つと StyleGAN ジェネレーターに基づくオートエンコーダー (StyleALAE) の 2 つを設計しました。

研究者らは、2 つのアーキテクチャの分離機能を検証し、StyleALAE は StyleGAN が生成したものと同等の品質の 1024x1024 の顔画像を生成できるだけでなく、同じ解像度の実際の画像に基づいて顔の再構築と操作の結果も生成できることを発見しました。

研究者たちは、ALAE がジェネレーター アーキテクチャと同等かそれ以上の性能を持つ最初のオートエンコーダーであると考えています。

ALAE はどれくらい効果的ですか?表示図を見てみましょう。

StyleALAE のスタイルブレンディング効果。

興味のある読者は自分でデモを実行できますが、CUDA 対応 GPU、PyTorch v1.3.1 以上、cuda/cuDNN ドライバーが必要です。詳細については、GitHub アドレスを参照してください。

新しいユニバーサルオートエンコーダALAE

研究者たちは、各 AE 手法が同じ仮定を使用していることを観察しました。つまり、潜在空間の確率分布は事前分布と関連しており、オートエンコーダはそれに一致している必要があるということです。 StyleGAN 関連の論文では、中間潜在空間にはより優れた分離機能が必要であることが証明されています。

そこで研究者たちは、オリジナルのGANパラダイムを修正して新しいAEアーキテクチャを設計しました。

これにより、データから学習した潜在分布に基づいて結合問題を解決し (A)、敵対的戦略を使用して出力データ分布を学習し (B)、GAN の生成能力を維持できます。 (A) と (B) を実現するために、本研究では、データ空間で動作する単純な l_2 ノルムベースの再構成損失の使用を回避するために、潜在空間 (C) に AE 相互性を配置することを提案しています (これらは通常、画像空間では最適ではない選択です)。

下の図 1 に示すように、研究者はジェネレータ G と識別器 D をそれぞれ F、G と E、D の 2 つのネットワークに分解しました。

図 1: ALAE アーキテクチャ。

さらに、研究者らは、以下の表に示すように、ALAE と他のオートエンコーダーとの関係も示しました。

スタイルALAE

研究者らは ALAE を使用して、StyleGAN に基づくジェネレーターを使用するオートエンコーダーを構築しました。具体的なアーキテクチャは以下の図 2 に示されています。

図 2: StyleALAE アーキテクチャ。 StyleALAE エンコーダーのインスタンス正規化 (IN) レイヤーは、マルチスケール スタイル情報を抽出し、学習可能なマルチリニア マップを通じてそれらを潜在コード w に結合するために使用されます。

成し遂げる

ALAE のアルゴリズムトレーニングプロセスを次の図に示します。

ALAE はどれくらい効果的ですか?

この研究では、複数のデータセットで ALAE のパフォーマンスを評価しました。実験コードとデータは GitHub アドレスにあります。

MNIST でのパフォーマンス

研究者らは、MNIST データセットを使用して ALAE をトレーニングし、特徴表現を使用して分類、再構築、分析の分離機能のタスクを実行しました。

表 2: MNIST 分類タスクにおけるさまざまな方法のパフォーマンス。

図3: MNIST再構築結果。

StyleALAEはスタイル表現の能力を学習します

研究者らは、FFHQ、LSUN、CelebA-HQデータセットにおけるStyleALAEのパフォーマンスを評価しました。

表 3: FFHQ および LSUN データセットにおけるさまざまな手法の FID スコア。

表 4: さまざまな方法の知覚パス長 (PPL)。表現の分離の程度を示します。

図5: FFHQ再構築結果。 StyleALAE 1024×1024 未公開画像の再構築結果。

図6: StyleALAEのFFHQ生成結果(解像度1024×1024)。

図 9: StyleALAE のスタイル混合効果。 「粗いスタイル」は、ソース画像からポーズ、一般的な髪型、顔の形などの高レベルの特徴をコピーし、宛先画像からすべての色 (目の色、髪の色、照明) をコピーします。「中程度のスタイル」は、ソース画像から髪型、目の開閉などのより小さな顔の特徴をコピーし、宛先画像から顔の形をコピーします。「細かいスタイル」は、ソース画像から色と微細構造をコピーします。

図 8: CelebA-HQ データセットにおけるさまざまな方法による再構築結果。 1 行目は実際の画像、2 行目: StyleALAE、3 行目: Balanced PIONEER、4 行目: PIONEER。

図からわかるように、StyleALAE で生成された結果はより鮮明で、歪みが最も少なくなっています。

<<:  専門家が最もよく使う機械学習ツール 15 選

>>:  専門家が使用する 15 個の機械学習ツール

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

業界の視点: 人工知能がビジネスプロセスに革命をもたらす方法

今日、人工知能技術は、ウェアラブルデバイス、自動車、生産性アプリケーション、軍事、ヘルスケア、ホーム...

モノのインターネットの可能性を最大限に引き出す方法

モノのインターネットは大量のセンサーデータを生成すると予測されており、それが人工知能と組み合わさるこ...

指紋と顔の認識が手のひらスキャンにアップグレードされ、大ヒット映画でしか見られない新技術がシティエキスポでデビュー

[[250312]]手のひらをスワイプするだけで入場や支払いができ、道路清掃車にセンサーを追加するこ...

MetaはQualcommチップの使用を拒否し、そのサポートソフトウェアの成熟度に疑問を呈している

クアルコムは、計算能力とエネルギー効率の点で優れたチップを備えた、世界最大のスマートフォンプロセッサ...

ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者:プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善

大規模モデルの時代では、高品質なコード生成が驚くほど強力になりました。 HumEval のテストで ...

勾配降下法から準ニュートン法まで: ニューラル ネットワークをトレーニングするための 5 つの学習アルゴリズム

ニューラル ネットワークでは、システムの学習プロセスは一般にトレーニング アルゴリズムによって支配さ...

重要インフラのサイバーセキュリティリスク管理における AI の影響

AIがサイバー攻撃から重要なインフラを守るためにどう役立つか 電力網、水道システム、交通網などの重要...

人工知能専攻では主に何を学ぶのですか?キャリアの方向性と展望は何ですか?

人工知能専攻は、工学専攻の下にある電子情報専攻に属します。ここでは、人工知能専攻を提供している大学と...

...

スマートビジョンが AI アプリケーションに及ぼす 5 つの影響

インテリジェントビジョンは人工知能への扉です。この扉が開かれなければ、人工知能に関する詳細な研究を行...

...

人工知能タスクに知っておくべき 11 個の Python ライブラリ

[[399295]]この記事はWeChatのパブリックアカウント「Python Society」から...

...

2020 年の人工知能におけるトップ 10 の技術進歩

2020年が過ぎようとしています。今年、人工知能の分野ではどんな大きな進展がありましたか?以下で一緒...

GitHub Wanxing リソース: 強化学習アルゴリズムの実装、チュートリアル コード学習計画

[[273322]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...