全能の GAN がまたひとつの丘を征服しました。 近年、DeepMindが提案したBigGANなど、GANは画像合成の分野で驚くべき成果を上げています。最近、DeepMind は新しい BigBiGAN を提案し、コミュニティから大きな注目を集めました。 この論文で提案された方法は、SOTA モデル BigGAN に基づいて構築されています。表現学習と生成機能の広範な評価を通じて、これらの生成ベースのモデルが ImageNet データセットでの教師なし表現学習と無条件画像生成で SOTA の結果を達成したことが証明されています。 機械学習コミュニティの多くの研究者は、これは非常に興味深い研究だと考えています。例えば、GANの生みの親であるイアン・グッドフェロー氏は、オリジナルのGANの論文を執筆していた当時、協力者たちもBigGANに似た表現学習の研究を行っていたとTwitterで述べています。 5年経って、ようやくこのような結果が出ました。 論文: 大規模敵対的表現学習 論文アドレス: https://arxiv.org/abs/1907.02544 GAN を表現学習に使用することは本当に可能ですか? 実際、GAN の初期の頃は、教師なし表現学習にも使用できましたが、後にオートエンコーダなどの自己教師あり学習の方が優れた結果を達成しました。この論文では、研究者らは、画像生成の品質を向上させることで表現学習のパフォーマンスを大幅に向上できることを示しています。また、「根本的な詳細」に重点を置くオートエンコーダなどのモデルと比較すると、GAN は識別器を通じて意味レベルでの違いを捉えることができるため、効果が大幅に向上します。 研究者らが採用したBigBiGAN法はSOTAモデルBigGANをベースに構築されており、エンコーダーを追加し、識別器を変更することで表現学習の分野に拡張されている。著者らは一連の画像再構成を示しているが、そのどれもがピクセルパーフェクトな再構成ではない。なぜなら、モデルにはピクセルを強制的に近づける目的関数すら存在しないからだ。 ただし、表現学習と画像再構成に BigBiGAN を使用すると、エンコーダーによって学習された特徴を直感的に理解できるという利点があります。たとえば、入力画像に「犬」や「人」などのオブジェクトが含まれている場合、再構成された画像には通常、このカテゴリのオブジェクトが含まれ、それらの姿勢状態は類似しています。次に、BigBiGAN の再構築効果を確認し、教師なし表現学習に使用する利点を体験します。 実際の画像(1 行目)と実際の画像に基づいて再構成された画像(2 行目)。 ランダムに選択された生成された画像。 GANが表現学習を行える理由 GAN フレームワークのジェネレーターは、ランダムにサンプリングされた潜在変数 (「ノイズ」とも呼ばれる) から生成されたデータへのフィードフォワード マッピングであり、学習信号は、実際のデータ サンプルと生成されたデータ サンプルを区別するようにトレーニングされた識別子によって提供されます。 GAN の多くの拡張機能はエンコーダーの機能を強化し、いくつかの研究では BiGAN がオートエンコーダーと同様に動作し、画像再構成のコストを最小限に抑えることがわかりました。ただし、再構成エラーは、単純なピクセル レベルのメトリックではなく、パラメーター化された識別子によって決定されるため、オートエンコーダよりもはるかに優れています。識別器は通常、強力なニューラル ネットワークであるため、識別器によって導入されるエラー メトリックは「意味的な」違いになると予想できます。 これは表現学習にとって非常に重要です。なぜなら、隠された表現には、低レベルの詳細だけでなく、最も意味的に有益な特徴を学習させたいからです。これを考慮すると、表現学習に GAN を使用することは非常に合理的です。 ダウンストリームタスクの場合、BiGAN または ALI フレームワークに基づいて学習されたエンコーダーは、ImageNet 上の視覚表現を学習するための効果的な方法です。ただし、これらのモデルは、このデータセットで高品質の画像を生成できない DCGAN スタイルのジェネレーターを使用しているため、エンコーダーがモデル化できるセマンティクスは非常に制限されています。この論文では、研究者らはジェネレーターとして BigGAN を使用してこのアプローチを再検討しました。 BigGAN は、ImageNet 画像内の多くのパターンと構造をキャプチャできるようです。研究者らは、ImageNet では BigBiGAN (BiGAN + BigGAN ジェネレーター) の教師なし表現学習能力が現在最高のパフォーマンスを達成できることを示しました。 BigBiGANモデル BiGAN または ALI メソッドはどちらも GAN のバリエーションであり、推論モデルや画像の表現として使用できるエンコーダーを学習するために使用されます。 BigBiGAN のコアは BiGAN のアプローチと同じですが、研究者は SOTA BigGAN のジェネレーターとディスクリミネーターのアーキテクチャを採用しました。さらに、研究者らは、改良された識別器構造が生成効果に影響を与えずに、より優れた表現学習結果をもたらすことができることを発見しました(図1を参照)。つまり、BiGAN または ALI で提案されている結合識別器 (データと潜在識別器を接続する) に加えて、研究者は学習目標に追加の単項項も提案しました。 元の BiGAN の目的は、学習した結合分布が BiGAN または ALI で実証されているようにグローバル最適値と一致することをすでに強制していますが、これらの単項項は、このプロパティを明示的に強制することにより、直感的に最適化を「正しい方向」に導きます。たとえば、画像生成タスクでは、単項損失項は元の GAN の目的と一致し、基礎となる入力とは無関係に、ジェネレーターが画像分布と一致するようにのみガイドする学習信号を提供します。 図 1: BigBiGAN フレームワークの構造。 実験 研究者らは、ラベルなしの ImageNet データセットで BigBiGAN をトレーニングし、学習した表現を固定し、その後、完全な監視のためにすべてのトレーニング セット ラベルを使用して、出力に対して線形分類器をトレーニングしました。また、標準メトリックとしてインセプションスコア (IS) とフレシェインセプション距離 (FID) を使用して、画像生成パフォーマンスを測定しました。 1. トレーニングとデータセット 研究者らは、バッチサイズが2048のBigGANと同じオプティマイザーAdamを使用し、学習率やその他のハイパーパラメータもBigGANと同じでした。トレーニング中、研究者らは入力画像に対して ResNet スタイルのデータ拡張手法を使用しましたが、切り抜きサイズは 224 ではなく 128 または 256 でした。 表 1 の実験では、研究者は公式の ImageNet トレーニング セットから 10,000 枚の画像を検証セットとしてランダムにサンプリングし、精度を報告しました。このデータセットは「train_val」と呼ばれます。表 1 の実験は 500K ステップ実行され、train_val データセットの線形分類器の精度に基づいて早期に停止されました。 表 2 では、研究者らは BigBiGAN のトレーニング ステップ数を 100 万に増やし、50,000 枚の画像に対する検証セットの精度を報告しています。分類器は、学習率{10^−4, 3 · 10^−4, 10^−3, 3 · 10^−3, 10^−2}のAdamオプティマイザーを使用して100Kステップにわたってトレーニングされました。 2. 実験結果 研究者らは、モデルの最高のパフォーマンスを最近の教師なし学習の結果と比較した。 表1 表 1: BigBiGAN バリアントのパフォーマンス結果。生成された画像のインセプション スコア (IS) とフレシェ インセプション距離 (FID)、および教師ありロジスティック回帰分類器の ImageNet トップ 1 精度パーセンテージ (CI) は、エンコーダー機能によってトレーニングされ、トレーニング セットからランダムにサンプリングされた 10,000 枚の画像のセグメンテーションに基づいて計算されます。研究者はこれを「train-val」セグメンテーションと呼んでいます。 表2 表 2: 公式検証セットでの教師ありロジスティック回帰分類器を使用した BigBiGAN モデルと最近の同様の方法の比較。 表3 表3: 教師なし(無条件)生成にBigBiGANを使用した以前の結果と[24]の教師なしBigGANの結果。 [この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: WOT2019 検索推奨アルゴリズムフォーラム: さまざまな分野における AI ベースの検索推奨の実用化
水中の海洋生物を研究する場合、動物たちにとって不自然に見えて怖がらせないような装置を使うと役に立つで...
強力なパフォーマンスと汎用性を備えた大規模言語モデルは、オーディオやビデオなどの多数の大規模マルチモ...
今年の「テクノロジー スプリング フェスティバル ガラ」CES で最も注目を集めたものは何かと聞かれ...
アルゴリズムが米国の選挙にどのような影響を与えるかご存知ですか?本日、「Meta のアルゴリズムが ...
ディープラーニングマシンは、人が年をとった後の顔がどのようになるかを示すことができますが、多くの場合...
導入機械学習モデルは、複数の業界にわたる意思決定プロセスの不可欠な要素となっていますが、ノイズの多い...
MBZUAI、上海交通大学、Microsoft Research Asia は協力して、包括的な中国...
最近、劉強東氏は、今後10年間でJD.comの従業員数を現在の16万人から8万人に減らし、1人当たり...
みなさんこんにちは。今日はAIoTについてお話します。 AIoT、つまり AI + IoT は、人工...
一般の人々は自動運転車についてどう思っているのだろうか?市場調査会社CarGurusは最近、将来の自...
近年、ビッグデータとディープラーニングに基づく人工知能は、驚くべきコンピューティング能力と学習能力を...
[[232541]]最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDF...