GAN は教師なし表現学習に使われており、その効果は今でも驚くべきものです...

GAN は教師なし表現学習に使われており、その効果は今でも驚くべきものです...

全能の GAN がまたひとつの丘を征服しました。

近年、DeepMindが提案したBigGANなど、GANは画像合成の分野で驚くべき成果を上げています。最近、DeepMind は新しい BigBiGAN を提案し、コミュニティから大きな注目を集めました。

この論文で提案された方法は、SOTA モデル BigGAN に基づいて構築されています。表現学習と生成機能の広範な評価を通じて、これらの生成ベースのモデルが ImageNet データセットでの教師なし表現学習と無条件画像生成で SOTA の結果を達成したことが証明されています。

機械学習コミュニティの多くの研究者は、これは非常に興味深い研究だと考えています。例えば、GANの生みの親であるイアン・グッドフェロー氏は、オリジナルのGANの論文を執筆していた当時、協力者たちもBigGANに似た表現学習の研究を行っていたとTwitterで述べています。 5年経って、ようやくこのような結果が出ました。

論文: 大規模敵対的表現学習

論文アドレス: https://arxiv.org/abs/1907.02544

GAN を表現学習に使用することは本当に可能ですか?

実際、GAN の初期の頃は、教師なし表現学習にも使用できましたが、後にオートエンコーダなどの自己教師あり学習の方が優れた結果を達成しました。この論文では、研究者らは、画像生成の品質を向上させることで表現学習のパフォーマンスを大幅に向上できることを示しています。また、「根本的な詳細」に重点を置くオートエンコーダなどのモデルと比較すると、GAN は識別器を通じて意味レベルでの違いを捉えることができるため、効果が大幅に向上します。

研究者らが採用したBigBiGAN法はSOTAモデルBigGANをベースに構築されており、エンコーダーを追加し、識別器を変更することで表現学習の分野に拡張されている。著者らは一連の画像再構成を示しているが、そのどれもがピクセルパーフェクトな再構成ではない。なぜなら、モデルにはピクセルを強制的に近づける目的関数すら存在しないからだ。

ただし、表現学習と画像再構成に BigBiGAN を使用すると、エンコーダーによって学習された特徴を直感的に理解できるという利点があります。たとえば、入力画像に「犬」や「人」などのオブジェクトが含まれている場合、再構成された画像には通常、このカテゴリのオブジェクトが含まれ、それらの姿勢状態は類似しています。次に、BigBiGAN の再構築効果を確認し、教師なし表現学習に使用する利点を体験します。

実際の画像(1 行目)と実際の画像に基づいて再構成された画像(2 行目)。

ランダムに選択された生成された画像。

GANが表現学習を行える理由

GAN フレームワークのジェネレーターは、ランダムにサンプリングされた潜在変数 (「ノイズ」とも呼ばれる) から生成されたデータへのフィードフォワード マッピングであり、学習信号は、実際のデータ サンプルと生成されたデータ サンプルを区別するようにトレーニングされた識別子によって提供されます。

GAN の多くの拡張機能はエンコーダーの機能を強化し、いくつかの研究では BiGAN がオートエンコーダーと同様に動作し、画像再構成のコストを最小限に抑えることがわかりました。ただし、再構成エラーは、単純なピクセル レベルのメトリックではなく、パラメーター化された識別子によって決定されるため、オートエンコーダよりもはるかに優れています。識別器は通常、強力なニューラル ネットワークであるため、識別器によって導入されるエラー メトリックは「意味的な」違いになると予想できます。

これは表現学習にとって非常に重要です。なぜなら、隠された表現には、低レベルの詳細だけでなく、最も意味的に有益な特徴を学習させたいからです。これを考慮すると、表現学習に GAN を使用することは非常に合理的です。

ダウンストリームタスクの場合、BiGAN または ALI フレームワークに基づいて学習されたエンコーダーは、ImageNet 上の視覚表現を学習するための効果的な方法です。ただし、これらのモデルは、このデータセットで高品質の画像を生成できない DCGAN スタイルのジェネレーターを使用しているため、エンコーダーがモデル化できるセマンティクスは非常に制限されています。この論文では、研究者らはジェネレーターとして BigGAN を使用してこのアプローチを再検討しました。 BigGAN は、ImageNet 画像内の多くのパターンと構造をキャプチャできるようです。研究者らは、ImageNet では BigBiGAN (BiGAN + BigGAN ジェネレーター) の教師なし表現学習能力が現在最高のパフォーマンスを達成できることを示しました。

BigBiGANモデル

BiGAN または ALI メソッドはどちらも GAN のバリエーションであり、推論モデルや画像の表現として使用できるエンコーダーを学習するために使用されます。

BigBiGAN のコアは BiGAN のアプローチと同じですが、研究者は SOTA BigGAN のジェネレーターとディスクリミネーターのアーキテクチャを採用しました。さらに、研究者らは、改良された識別器構造が生成効果に影響を与えずに、より優れた表現学習結果をもたらすことができることを発見しました(図1を参照)。つまり、BiGAN または ALI で提案されている結合識別器 (データと潜在識別器を接続する) に加えて、研究者は学習目標に追加の単項項も提案しました。

元の BiGAN の目的は、学習した結合分布が BiGAN または ALI で実証されているようにグローバル最適値と一致することをすでに強制していますが、これらの単項項は、このプロパティを明示的に強制することにより、直感的に最適化を「正しい方向」に導きます。たとえば、画像生成タスクでは、単項損失項は元の GAN の目的と一致し、基礎となる入力とは無関係に、ジェネレーターが画像分布と一致するようにのみガイドする学習信号を提供します。

図 1: BigBiGAN フレームワークの構造。

実験

研究者らは、ラベルなしの ImageNet データセットで BigBiGAN をトレーニングし、学習した表現を固定し、その後、完全な監視のためにすべてのトレーニング セット ラベルを使用して、出力に対して線形分類器をトレーニングしました。また、標準メトリックとしてインセプションスコア (IS) とフレシェインセプション距離 (FID) を使用して、画像生成パフォーマンスを測定しました。

1. トレーニングとデータセット

研究者らは、バッチサイズが2048のBigGANと同じオプティマイザーAdamを使用し、学習率やその他のハイパーパラメータもBigGANと同じでした。トレーニング中、研究者らは入力画像に対して ResNet スタイルのデータ拡張手法を使用しましたが、切り抜きサイズは 224 ではなく 128 または 256 でした。

表 1 の実験では、研究者は公式の ImageNet トレーニング セットから 10,000 枚の画像を検証セットとしてランダムにサンプリングし、精度を報告しました。このデータセットは「train_val」と呼ばれます。表 1 の実験は 500K ステップ実行され、train_val データセットの線形分類器の精度に基づいて早期に停止されました。

表 2 では、研究者らは BigBiGAN のトレーニング ステップ数を 100 万に増やし、50,000 枚の画像に対する検証セットの精度を報告しています。分類器は、学習率{10^−4, 3 · 10^−4, 10^−3, 3 · 10^−3, 10^−2}のAdamオプティマイザーを使用して100Kステップにわたってトレーニングされました。

2. 実験結果

研究者らは、モデルの最高のパフォーマンスを最近の教師なし学習の結果と比較した。

表1

表 1: BigBiGAN バリアントのパフォーマンス結果。生成された画像のインセプション スコア (IS) とフレシェ インセプション距離 (FID)、および教師ありロジスティック回帰分類器の ImageNet トップ 1 精度パーセンテージ (CI) は、エンコーダー機能によってトレーニングされ、トレーニング セットからランダムにサンプリングされた 10,000 枚の画像のセグメンテーションに基づいて計算されます。研究者はこれを「train-val」セグメンテーションと呼んでいます。

表2

表 2: 公式検証セットでの教師ありロジスティック回帰分類器を使用した BigBiGAN モデルと最近の同様の方法の比較。

表3

表3: 教師なし(無条件)生成にBigBiGANを使用した以前の結果と[24]の教師なしBigGANの結果。

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  WOT2019 検索推奨アルゴリズムフォーラム: さまざまな分野における AI ベースの検索推奨の実用化

>>:  AIと宇宙技術が日常生活をどう改善するか

ブログ    
ブログ    

推薦する

人工知能 vs 人間の知能: 人間と機械の融合が未来か?

[[187064]]人工知能を研究するアメリカの企業カーネルの投資家ブライアン・ジョンソン氏は、埋...

IoTとAIの融合:予知保全の新たなパラダイム

モノのインターネット (IoT) と人工知能 (AI) の融合により、予知保全における新たなパラダイ...

機械学習が医療に革命を起こす

その中で、ヘルスケア業界は強力なスポンサーであり、新しいテクノロジーを積極的に導入してきました。人工...

元GitHub CEO:AIプログラミングアシスタントCopilotは価格よりも安く、損失はない

10月13日、元マイクロソフト幹部で元GitHub CEOのナット・フリードマン氏は、10月12日に...

...

反復コラボレーション法に基づく顔の超解像

2020CVPR 受理論文「Deep Face Super-Resolution with Iter...

AI サイバーセキュリティ脅威マップ

12月15日、欧州連合ネットワーク情報セキュリティ機関(ENISA)は、 「人工知能サイバーセキュリ...

...

人工知能によって人々の仕事が失われることは確実だが、仕事がなくなることはないと言われているのはなぜでしょうか。

1956年に人工知能の概念が提案されて以来、人工知能と労働市場の関係については議論されてきました。...

...

...

なぜ人工知能には欠陥があるのでしょうか?

人工知能は、すべての人の生活に欠かせないものとなっています。 YouTube のおすすめなどの単純な...

...

GoogleのオープンソースAIは92%の精度で音を区別できる

[[249335]] VentureBeatによると、Googleの人工知能研究部門は音声認識におい...