2021年最新Contrastive Learning(対照学習)主要会議での必読古典論文解釈

2021年最新Contrastive Learning(対照学習)主要会議での必読古典論文解釈

みなさんこんにちは。私はDiaobaiです。

最近、対照学習が流行っているので、ICLR2020では、ディープラーニングの三大巨頭であるベンジオ、ルカン、ヒントンが全員一致で自己教師あり学習こそがAIの未来だと同意しました。また、大手インターネット企業での導入も増えており、成果も非常に良い(社内での個人的実践)ので、対照学習に関する記事を2つ書きました。

1 冊目は、CV と NLP の分野における対照学習の研究の進展に関するもので、比較的体系的かつ包括的に書かれています。対照学習とは何か、この技術が MoCo、SimCLR、BYOL、SwAV、SimCSE などさまざまな分野にどのように応用されているかを紹介しています。

もう1つの記事では、ICLR2021のNLP分野における対照学習の6つの主要な方向への応用を整理し、友人から多くのプライベートメッセージを受け取りました。興味のある学生は、こちらもご覧ください。

1. CVとNLPにおける対照学習の研究の進展

2. ICLR2021 対照学習 NLP 分野論文進捗レビュー

この記事では、ICLR2021、ICLR2020、NIPS2020 で発表された、一読の価値がある対照学習に関するいくつかの古典的な論文を整理します。アイデアは非常に巧妙で、CV と NLP の分野をカバーしており、前の 2 つの記事で紹介されたモデルとは重複しません。 NIPS2021 の論文が公開された後も、引き続き更新して皆さんと共有します。さっそく本題に入りましょう。

対照学習(ICLR2021/2020)

一読の価値がある8つの論文

[[423925]]

1. PCL

論文タイトル: 教師なし表現のプロトタイプ対照学習

論文の方向性:画像フィールド、提案されたプロトタイプのコントラスト学習、その効果はMoCoやSimCLRよりもはるかに優れている

論文出典: ICLR2021

論文リンク: https://arxiv.org/abs/2005.04966

論文コード: https://github.com/salesforce/PCL

著者らは、対照学習とクラスタリング学習の利点を組み合わせた、教師なし表現学習の新しいアプローチであるプロトタイプ対照学習 (PCL) を提案しました。

PCL では、著者らは類似の画像によって形成されるクラスターの重心として「プロトタイプ」を導入しました。各画像を、異なる粒度の複数のプロトタイプに割り当てます。トレーニングの目標は、各画像の埋め込みを関連するプロトタイプに近づけることであり、これは ProtoNCE 損失関数を最小化することによって達成されます。

大まかに言えば、PCL の目標は、観測された画像が与えられた場合にモデル パラメータの最大尤度推定値 (MLE) を見つけることです。

著者らは、観測データに関連付けられた潜在変数としてプロトタイプ c を導入し、最大尤度推定を解決するための EM アルゴリズムを提案しました。 E ステップでは、K 平均アルゴリズムを実行してプロトタイプの確率を推定します。 M ステップでは、尤度推定を最大化するようにモデルをトレーニングし、ProtoNCE 損失を最小限に抑えます。

期待最大化フレームワークでは、これまでの対照学習法が PCL の特殊なケースであることを示します。

さらに、著者らは、少数ショット転移学習、半教師あり学習、および物体検出という 3 つのタスクで PCL を評価し、すべてのケースで SOTA パフォーマンスを達成しました。

著者は、PCL がビデオ、テキスト、音声などの分野に拡張され、PCL が教師なし学習の分野でより有望な研究を刺激し、将来の人工知能の開発を促進し、手動によるラベル付けがモデル トレーニングの必須コンポーネントではなくなることを期待しています。

2. バルフィート

論文タイトル: 表現学習のためのバランスのとれた特徴空間の探索

論文の方向性:画像分野、主にカテゴリの不均等な分布の問題を解決する

論文出典: ICLR2021

論文リンク: https://openreview.net/forum?id=OqtLIabPTit

既存の自己教師学習 (SSL) 手法は、主に ImageNet などの人工的にバランスの取れたデータセットから表現モデルをトレーニングするために使用されます。データセットが不均衡になることが多い現実世界の状況で、これらがどれほどうまく機能するかは不明です。この問題に基づいて、著者らは、均一分布からロングテール分布までのトレーニングインスタンス分布を持つ複数のデータセットに対する自己教師付き対照学習と教師あり学習手法のパフォーマンスに関する一連の研究を実施しました。著者らは、パフォーマンスの大幅な低下を招く教師あり学習法とは異なり、自己教師あり対照学習法ではデータセットが著しく不均衡な場合でも安定した学習パフォーマンスを維持できることを発見しました。

これにより、著者らは、特徴表現がすべてのクラスにわたって同様の線形分離性を持つ、対照学習によって得られたバランスの取れた特徴空間を探索するようになりました。私たちの実験では、複数の条件下で、バランスのとれた特徴空間を生成する表現モデルは、不均衡な特徴空間を生成する表現モデルよりも一般化が優れていることが示されています。これに基づいて、著者らは、教師あり学習法と対照学習法の利点を効果的に組み合わせて、識別的かつバランスのとれた表現を学習する k 正対照学習を提案しました。多数の実験により、このアルゴリズムはロングテール認識や通常バランス認識などのさまざまな認識タスクで優れていることが示されています。

3.マウス

論文タイトル: MiCE: 教師なし画像クラスタリングのための対照的な専門家の混合

論文の方向性: 画像フィールド、混合エキスパートモデル MoE と組み合わせた対照学習、正規化は不要

論文出典: ICLR2021

論文リンク: https://arxiv.org/abs/2105.01899

論文コード: https://github.com/TsungWeiTsai/MiCE

現在、ディープクラスタリング手法はすべて2段階アプローチで構築されています。つまり、最初に事前トレーニング済みモデルを使用して表現学習を行い、次にクラスタリングアルゴリズムを使用してクラスタリングを完了します。ただし、これらの2つの段階は互いに独立しており、既存のベースラインには表現学習における優れたモデリング意味情報がないため、後で優れたクラスタリングを得ることは不可能です。

著者らは、対照学習によって学習された識別表現と潜在混合モデルによって取得された意味構造を同時に利用する、統合確率クラスタリングモデル Mixture of Contrastive Experts (MiCE) を提案しています。エキスパート混合 (MoE) モデルにヒントを得て、潜在変数を導入して画像のクラスタリング ラベルを表すハイブリッド条件モデルが形成されます。各条件モデル (エキスパートとも呼ばれる) は、インスタンスのサブセットを区別することを学習します。同時に、モデルはゲーティング関数を使用して、エキスパート間で重みを割り当てることにより、意味情報に従ってデータセットをサブセットに分割します。さらに、潜在変数によって引き起こされる非自明な推論やその他のトレーニング問題を解決するために、著者らはスケーラブルな EM アルゴリズムをさらに構築し、収束の証明を示しました。 E ステップでは、観測データに基づいて潜在変数の事後分布の推定値が得られ、M ステップでは、すべての変数の対数条件付き尤度が最大化されます。

MICEには次のような利点があります。

方法論の統一: MICE は、対照学習を通じて得られる識別表現の利点と、潜在混合モデルを通じて得られる意味構造の利点を、統一された確率的フレームワーク内で組み合わせます。

正則化は不要: MICE は EM のみで最適化され、他の補助損失や正則化損失は必要ありません。

予備

ゲート機能

専門家

式(5)において、第1インスタンス単位のドット積はインスタンスレベルの情報を計算して各エキスパートにおける識別表現を生成し、第2インスタンスプロトタイプドット積はクラスレベルの情報を表現学習に統合し、プロトタイプの周囲に明確なクラスター構造を形成できるようにする。したがって、生成された埋め込みは意味構造を持ち、異なるインスタンスを表現するのに十分な識別性を持つ。

この式は、MoCo と EMA に基づいて構築されています。詳細については、元のテキストの付録 D を参照してください。

4.i-ミックス

論文タイトル: i-Mix: 対照的表現学習を正規化する戦略

論文の方向性: 画像フィールド、少数のサンプル + 対照学習効果を向上させる MixUp 戦略

論文出典: ICLR2021

論文リンク: https://arxiv.org/abs/2010.08887

論文コード: https://github.com/kibok90/imix

対照的表現学習は、ラベルのないデータから表現を学習する上で有効であることが実証されています。しかし、ドメイン知識を使用して適切に設計されたデータ拡張技術は、ビジョン分野で大きな進歩を遂げました。

著者らは、対照的表現学習を改善するためのシンプルでありながら効果的なドメインに依存しない正則化戦略である i-Mix を提案しています。著者は、教師なし対照学習で MixUp 手法を使用しており、これにより、既存の対照学習方法 (特に小規模なデータ セット) を効果的に改善できます。つまり、各サンプルに仮想ラベルを導入し、サンプル空間とラベル空間を補間してデータを強化します。実験結果は、i-Mix が画像、音声、表形式データなどの領域における表現学習の品質を一貫して向上させることを示しています。

5.ハードネガティブサンプルを用いた対照学習

論文タイトル: ハードネガティブサンプルを用いた対照学習

論文の方向性: 画像とテキストの分野、高品質のハードネガティブサンプルのサンプリング方法の研究

論文出典: ICLR2021

論文リンク: https://arxiv.org/abs/2010.04592

論文コード: https://github.com/joshr17/HCL

教師なし表現学習の分野における対照学習の可能性については、多くを語る必要はありません。その有効性を証明する例はすでに数多くあります。現在、損失関数、サンプリング戦略、データ拡張方法など、対照学習には多くの改良が行われていますが、負のペアに関する研究は比較的少ないです。一般的に、正のペアと負のペアを構築する場合、ほとんどのモデルは、単一の画像とその強化されたコピーを正のペアとして単純に取り、残りのサンプルは負のペアとみなされます。この戦略によって発生する可能性のある問題は、モデルが遠く離れたサンプルを非常に遠くに分離する一方で、互いに近い負のサンプルのペアを区別することが困難になる可能性があることです。

これを踏まえて、本論文では難しいネガティブペアというアイデアを構築しました。主な目的は、サンプルポイントに非常に近いがネガティブサンプルと同じクラスに属していないサンプルを使用することで、ネガティブサンプルの難易度を高め、クラスの分離をさらに進め、対照学習モデルのパフォーマンスを向上させることです。

優れたハードネガティブサンプルには、2 つの原則があります。1) ラベルが元のサンプルと異なること、2) ラベルが元のサンプルに可能な限り類似していることです。

これは、従来の対照学習とはまったく異なります。対照学習では、一般的に教師あり情報を使用しないからです。したがって、アンカー ポイント以外のサンプルは、ラベルに関係なく、負のペアと見なされます。したがって、問題の鍵の 1 つは、「同じラベルに属さないサンプルを除外するために教師なし手法を使用する」ことです。それだけでなく、ここには矛盾があります。アンカーポイントにできるだけ似ている必要がありますが、同じカテゴリに属していない必要もあります。これは、教師なしモデルでは困難です。そのため、この記事では実際の実装プロセスでトレードオフを行います。サンプルの難易度要件がそれほど高くない場合は、原則 1 のみが満たされ、原則 2 は無視されます。同時に、このアプローチでは追加のトレーニング コストが増加しないようにする必要があります。

6.ルーク

論文タイトル: 対照学習において対照的であってはならないこと

論文の方向性: イメージ分野、対照学習によってもたらされる可能性のあるバイアスの調査

論文出典: ICLR2021

論文リンク: https://arxiv.org/abs/2008.05659

現在の対照学習フレームワークのほとんどは、固定されたデータ拡張方法を使用しています。ただし、異なるデータ拡張は、異なる下流タスクに異なる影響を与えることは間違いありません。たとえば、回転がデータ拡張に追加されると、下流タスクで方向を区別することが難しくなります。この論文では、この問題を研究しています。

データ拡張セットを適用する場合

このモデルでは、従来のモデルが画像データに対して 2 つの独立したデータ強化を実行します (データ強化パラメータにはある程度のランダム性があります)。著者は、データ拡張を行うことでLooCを提案した。最初の方法は、画像データに対して2つの独立したデータ拡張を実行すること、つまり、すべてのデータ拡張方法を適用することである。残りのNつの方法は、パラメータを固定し、最終的なトレーニング済みモデルが

この変換は敏感であり、これらの n+1 データ拡張方法は最終的に n+1 埋め込み空間を生成します。最終的な損失は次のとおりです。

著者は、元の対照学習が同じ空間にマッピングされていたが、これは他の特徴の学習に悪影響を与えることを発見したため、各特徴を、このタイプのデータ拡張を経たデータのみを含む個別の特徴空間にマッピングしました。

要約すると、データ拡張は下流のタスクに基づいて、さまざまな下流のタスクに合わせて異なる埋め込みスペースに分割する必要があります。ただし、2 つ以上の機能を必要とする下流のタスクでは、効果が良くない可能性があります。たとえば、構造情報だけでなく、場所も必要です。

7. 落ち着き

論文タイトル: 概念中心の常識のためのテキストからテキストへの変換の事前トレーニング

論文の方向性: テキスト分野、対照学習と自己教師あり損失を使用して、事前学習済み言語モデルに常識情報を導入する

論文出典: ICLR2021

論文リンク: https://openreview.net/forum?id=3k20LAiHYL2

論文コード: https://github.com/INK-USC/CALM

事前トレーニング済みの言語モデルは、さまざまな自然言語の理解および生成タスクで素晴らしい結果を達成しています。しかし、マスク予測やマスクスパン充填などの現在の事前トレーニング目標では、日常的な概念に関する関係常識を明示的にモデル化していません。これは、理解や生成に常識を必要とする多くの下流タスクにとって重要です。

本論文では、概念中心の常識を備えた事前トレーニング済み言語モデルを強化するために、テキストから常識を学習し、それらを段階的に事前トレーニングする言語モデル(特定のタスクの前に下流のデータセットで微調整する)の中間自己教師学習タスクとして使用する生成目的と対照目的を提案しています。さらに、生成目的と対照目的を統合して、それらが相互に強化できるようにするための共同事前トレーニング フレームワークを開発します。

広範な実験結果から、CALM は外部の知識に頼ることなく、事前トレーニング済みのテキストからテキストへのトランスフォーマーのパラメータにより多くの常識を詰め込むことができ、NLU タスクと NLG タスクの両方でより優れたパフォーマンスを実現できることが示されています。著者らは、比較的小規模なコーパスでわずか数ステップの増分事前トレーニングを行ったにもかかわらず、CALM が一貫してベースラインを上回り、さらに大規模な事前トレーニング済み言語モデルに匹敵する性能を示したことを示しており、これは CALM が事前トレーニング済み言語モデルの常識的推論機能を改善するための一般的な「プラグアンドプレイ」アプローチとして機能できることを示唆しています。

8. ビデオテキスト表現学習におけるサポートセットのボトルネック

論文タイトル: ビデオテキスト表現学習におけるサポートセットのボトルネック

論文の方向性: マルチモーダル分野 (テキスト + ビデオ)、提案されたクロスキャプションの目標

論文出典: ICLR2021

論文リンク: https://arxiv.org/abs/2010.02824

ビデオとテキストの表現を学習するための主要なパラダイムであるノイズ対照学習では、同じサンプルからのテキストとビデオなど、既知の関連する例のペアの表現の類似性を高めますが、すべてのペアを負の例として扱います。著者らは、最後の動作は厳しすぎるため、視覚的に類似したビデオや、同じアクションが記述されているビデオなど、意味的に関連するサンプルに対しても異なる表現が強制されると主張しています。

本論文では、生成モデルを活用してこれらの関連サンプルを自然にまとめることで、この状況を緩和する新しいアプローチを提案しています。各サンプルのキャプションは、他のサポートサンプルの視覚的表現の加重組み合わせとして再構築する必要があります。このシンプルなアイデアにより、表現が単一のサンプルに過度に特化されず、データセット全体で再利用でき、ノイズ対照学習とは異なり、サンプル間で共有されるセマンティクスを明示的にエンコードする表現が生成されます。提案された方法は、MSR-VTT、VATEX、ActivityNet、および MSVD でのビデオからテキストへの検索およびテキストからビデオへの検索において他の方法よりも大幅に優れています。

クロスモーダル識別とクロスキャプション: 私たちのモデルは、2 つの相補的な損失から学習します。(a) クロスモーダル対照学習は、強力なビデオとテキストの結合埋め込みを学習しますが、他のすべてのサンプルは負の例と見なされ、意味的に関連するキャプション (オレンジ色の矢印) さえも押しのけます。 (b) 我々はクロスキャプション生成タスクを導入し、サンプルのテキスト表現を、他のサンプルのビデオ表現で構成されるサポートセットの重み付けされた組み合わせとして再構築することを学習することで、この問題を軽減します。

著者のクロスモーダルフレームワークには、識別的(対照的)目的と生成的目的があります。モデルは、テキスト エンコーダーとビデオ エンコーダーを使用して、共通の埋め込み空間でビデオとテキストのペアを関連付けることを学習します (上)。同時に、テキストは、Attention を介して選択されたサポート セットからのビデオ埋め込みの加重組み合わせとして再構築される必要があり、これにより、異なるサンプル間での埋め込みの共有が強制されます。

対照学習(NIPS2020)

9つの古典論文

[[423927]]

1.SpCL

論文タイトル: ドメイン適応型オブジェクト再識別のためのハイブリッドメモリによる自己ペース対照学習

論文の方向性: オブジェクトの再識別、自己ペースの対照学習を提案し、教師なしのオブジェクト再識別タスクで最先端のモデルを最大 16.7% 大幅に上回ります。

論文出典: NIPS2020

論文リンク: https://arxiv.org/abs/2006.02713

論文コード: https://github.com/yxgeee/SpCL

この論文では、画像特徴エンコーダーとハイブリッドメモリモデルを含む、自己ペースの対照学習フレームワークを提案します。コアとなるのは、動的に変化するカテゴリの下でハイブリッド メモリ モデルによって提供される継続的かつ効果的な監視であり、統一された対照損失関数の形式でネットワークの更新を監視します。実装が非常に簡単で、プラグ アンド プレイです。

前述のように、ハイブリッドメモリモデルは、リアルタイムで3つの異なるカテゴリプロトタイプを提供します。著者は、モメンタム更新の使用を提案しました。この用語は、皆さんにとって馴染みのない用語ではないと思います。MoCoやMean-teacherなどのモデルでよく見られます。簡単に言えば、「パラメータ=(1-モメンタム)x新しいパラメータ+モメンタムxパラメータ」という形で更新されます。ソース ドメインとターゲット ドメインの異なる特性に適応するために、異なる運動量更新アルゴリズムが採用されています。

ソース ドメインのデータには実際のカテゴリがあるため、著者はそれをクラスに格納することを提案します。この操作により、スペースが節約されるだけでなく、実験でより良い結果が得られます。現在のミニバッチ内のソース ドメイン機能は、カテゴリに従って平均化され、その後、ハイブリッド メモリ モデル内の対応するクラス セントロイドにモメンタム方式で蓄積されます。ターゲットドメインのデータについては、すべての特徴をインスタンス単位で保存することを提案しています。これにより、クラスター化された外れ値とクラスター化されていない外れ値が常に変化している場合でも、ハイブリッドメモリモデルでターゲットドメインのサンプルを継続的に更新できます。具体的には、現在のミニバッチ内のターゲットドメインの特徴が、インスタンスインデックスに従ってハイブリッドメモリモデルに対応するインスタンス特徴に蓄積されます。

2.SimCLR V2 (ヒントンによるもう一つの傑作)

論文タイトル: 大規模な自己教師ありモデルは強力な半教師あり学習者である

論文の方向性:画像分野(Google制作)

論文出典: NIPS2020

論文リンク: 大規模な自己教師ありモデルは強力な半教師あり学習者

論文コード: https://github.com/google-research/simclr

本論文では、ディープラーニングにおけるデータセット ラベルの不均衡、つまり大量のラベルなしデータと少量のラベル付きデータの問題を解決することを目指しています。著者は、弱教師ありモデル SimCLRv2 (SimCLRv1 に基づく) を提案しています。著者らは、この大規模で極めて深いネットワークは自己教師学習によって改善される可能性が高いと考えています。この論文のアイデアは、次の 3 つのステップに要約できます。

1. ResNet をバックボーンとして使用し、教師なし事前トレーニング用の大規模な SimCLRv2 を構築します。

2. 次に、少量のラベル付きデータに対して教師あり微調整を実行します。

3. ラベルなしデータを通じてモデルを圧縮し、特定のタスクに移行します。

実験結果によると、彼らのモデルは SOTA に比べて大幅に改善されています。

著者は、SimCLR でコントラスト トレーニング メソッドを採用しています。つまり、潜在空間でのコントラスト損失を最適化することで、画像とその強調 (回転、拡大縮小、色の変更など) との相関を最大化します。式は次のとおりです。

SimCLR V2 のネットワーク構造は次のとおりです。

SimCLR V2 では、V1 と比較していくつかの改善点があります。

V2ではネットワークの規模が大幅に拡大し、最大サイズはResNetの152層、チャンネル数は3倍、SKモジュール(選択カーネル)が追加されました。ラベル付きデータの1%を微調整することで、29%のパフォーマンス向上が達成できると言われています。

まず、V2 はより深い投影ヘッドを使用します。次に、事前トレーニング後に投影ヘッドを直接破棄する V1 と比較して、V2 は微調整用にいくつかのレイヤーを保持し、事前トレーニングで抽出されたいくつかの機能も保持します。

メモリ メカニズム (この論文を参照) を使用して、出力がトレーニング用の負のサンプルとしてキャッシュされるメモリ ネットワークを設計します。

3.対照学習のためのハードネガティブミキシング

論文タイトル: 対照学習のためのハードネガティブミキシング

論文の方向性:画像とテキストの分野では、特徴空間での混合により、より困難な負のサンプルが生成される。

論文出典: NIPS2020

論文リンク: https://arxiv.org/abs/2010.01028

難しいサンプルは、常に対照学習の主な研究対象でした。バッチ サイズの増加とメモリ バンクの使用は、すべてより難しいサンプルを取得することを目的としています。ただし、メモリまたはバッチ サイズの増加は、必ずしもパフォーマンスの急速な向上につながるわけではありません。これは、負のサンプルが増えると必ずしも負のサンプルが難しくなるわけではないためです。そのため、著者は Mixup を使用して、より難しいネガティブ サンプルを生成します。この論文では、この種の問題について詳細な実験を行っています。興味のある方は原著論文をお読みください。

4.教師あり対照学習

論文タイトル: 教師あり対照学習

論文の方向性: 教師ありコントラスト損失の提案 (Google が作成、優れていること)

論文出典: NIPS2020

論文リンク: https://arxiv.org/abs/2004.11362

教師あり学習法と自己教師あり学習法の損失の比較:

教師ありコントラスト損失 (左) では、1 つのクラスの正と他のクラスの負を比較し (ラベルが提供されているため)、同じクラスの画像が低次元の超球面内の近くのポイントにマッピングされます。

自己教師ありの対照損失(右)、ラベルは提供されていません。したがって、陽性はデータ拡張によって与えられたサンプルとして生成され、陰性はバッチ内でランダムにサンプリングされます。これにより、正しくマッピングされない偽陰性(右下に表示)が発生し、学習されたマッピングが悪化する可能性があります。

論文の要点:

これは、一般的に使用されている対比損失に基づく新しい損失です。(ただし、これは実際には新しい損失ではなく、クロスエントロピーに代わる新しい損失でもありません。より正確には、新しいトレーニング方法です。) 対比損失には 2 つの側面があります。1 つは、データ拡張やその他の操作を通じて同じトレーニング サンプルからの 2 つの特徴で構成される正のペアです。これらの 2 つの特徴はますます近づきます。もう 1 つは、異なるトレーニング サンプルからの 2 つの特徴で構成される負のペアです。これらの 2 つの特徴はますます遠ざかります。この論文の違いは、1 つのトレーニング サンプル (論文のアンカー) に対して複数の正のペアのペアが考慮されるのに対し、元の対照学習では 1 つのみ考慮される点です。

コアメソッドは2段階のトレーニングです。上の写真の通りです。この論文では、左から右に教師あり学習、自己教師あり対照学習、教師あり対照学習を示しています。最初の段階: 既知のラベルを介して対照損失の正と負のペアを構築します。ラベルがあるため、負のペアに対して偽陰性は発生しません (説明については図 1 を参照)。第 2 段階: バックボーン ネットワークを固定し、通常の教師あり学習方法、つまりクロス エントロピーのみを使用して、最終分類層 FC 層をトレーニングします。

実験に関しては、主に ImageNet で実験を行い、精度による分類性能と一般的な画像破損による堅牢性を検証しました。

5. 敵対的例を用いた対照学習

論文タイトル: 敵対的例を用いた対照学習

論文の方向性: 敵対的サンプル + 対照学習

論文出典: NIPS2020

論文リンク: https://arxiv.org/abs/2010.12050

本論文では、標準的な対比学習の枠組みの中で、データ強化の手段として敵対的サンプルを導入しています。具体的なアプローチは、標準的な対比損失関数に基づいて敵対的対比損失を通常の項として追加し、対比学習ベースラインのパフォーマンスを向上させることです。簡単に言うと、データ強化後のサンプルが与えられると、サンプルの勾配はコントラスト損失に応じて計算され、その後、FGSM (高速勾配符号法) を使用して対応する敵対的サンプルが生成されます。最終的なコントラスト損失は 2 つの項で構成されます。最初の項は標準コントラスト損失 (ランダムに強化されたサンプルのペアの 2 つのグループ) であり、2 番目の項は敵対的コントラスト損失 (ランダムに強化されたサンプルのグループとその敵対的サンプル) です。2 つの項の重要性は、ハイパーパラメータを指定することによって調整できます。

6. ロコ

論文タイトル: LoCo: 局所的対照表現学習

論文の方向性: 対照学習を使用してネットワークの各層をトレーニングする

論文出典: NIPS2020

論文リンク: https://arxiv.org/abs/2008.01342

上の図の左側には、バックプロパゲーションを使用した通常のエンドツーエンド ネットワークが示されており、各四角形はダウンサンプリング ステージを表しています。中間には、各ステージの最後に infoNCE 損失が追加される GIM がありますが、勾配は前のステージから次のステージに流れ戻りません。初期のエンコーダの受容野は、対照学習問題を効果的に解決するには小さすぎる可能性があります。同じ infoNCE 損失がすべてのローカル学習ブロック (初期と後期の両方) に適用されるため、初期段階のデコーダーは受容野が限られているため、正のサンプルを正しく区別するための表現を取得するのが困難です。例えば、最初の段階では、

カーネルは、分類のためにデコーダー (非線形完全接続) に送信する前に、グローバル平均プーリングを実行します。

デコーダーに畳み込み層を追加して、受容野を拡大することができます。ただし、最終段階の受容野は十分に大きいため、この増加はエンドツーエンドのシミュレーションには影響しません。実際、ローカル ステージ間で重複するレベルを共有することで、フォワード パスで追加のコストをかけずにデコーダーの受容フィールドを効果的に拡大することができ、論文で説明されている両方の問題を解決できます。

7.対照学習に適した視点とは?

論文タイトル: 対照学習に適した視点とは何か?

論文の方向性: InfoMin 仮説を提案し、対照学習が効果的な理由を探る (Google が作成、優れた内容であることが必要)

論文出典: NIPS2020

論文リンク: https://arxiv.org/abs/2005.10243

まず、著者は3つの仮説を提唱しました。

  1. 十分なエンコーダ
  2. 最小限の十分なエンコーダ
  3. タスクの最適な表現 第二に、著者は以下に示すような非常に興味深い例を示しました。

ランダムな背景上を一定の速度で移動する数字。このデータ セットには 3 つの要素があります。

  1. 番号
  2. 数字の位置
  3. 背景

左側の v1 は通常のビューで、右側の v2+ は対応するポジティブ サンプルです。3 セットのポジティブ サンプル ペアは、数字、数字の位置、背景の情報を共有します。他の 2 つの要素はランダムに選択されるため、ポジティブ サンプルは対応する要素の情報のみを共有します。ネガティブ サンプル ペアの各要素はランダムに選択されます。

実験結果は上の表の通りです。記事にもあるように、ポジティブサンプルが1つの要素のみに着目している場合は、下流のタスク(つまり、数字の識別、背景の識別、数字の位置の識別など、対応する要素の識別)に使用されます。特定の要素に着目すると、その要素の下流のタスクの効果が大幅に向上します(数字が小さいほど良いことに注意してください)。

この論文では、複数の要因に同時に焦点を当てる追加の実験も実施しましたが、実験結果は理想的ではありませんでした。コントラストの損失によって焦点が当てられるのは、より明白で、より支配的な共有情報を占める背景であることが多いのです。

次に著者は新しい見解を構築するためのいくつかの方法を提案した。前述したように、新しいビュー v1 と v2 は、このコアを把握しながら、下流のタスクに関連する一部の情報のみを共有する必要があります。これにより U 字型が形成され、最も高いポイントがスイート スポットとして定義されます。目標は、2 つのビューからの情報がスイート スポットに到達し、多すぎず少なすぎず、特定の機能のみを学習できるようにすることです。

8.グラフCL

論文タイトル: グラフ対照学習と拡張

論文の方向性: グラフ+対照学習

論文出典: NIPS2020

論文リンク: https://arxiv.org/abs/2010.13902

上の図に示すように、潜在空間のコントラスト損失を通じて、同じ画像の 2 つの拡大ビュー間の一貫性を最大化することで事前トレーニングが実行されます。

本論文では、グラフ データの異質性の問題に対処するために、GNN 事前トレーニングを強化した対照学習を開発しています。

データの増強は対照学習の前提条件であるが、グラフデータで完全に研究されていないため、このホワイトペーパーでは4種類のグラフデータ増強を設計します。それぞれがグラフデータに特定の事前を課し、程度と範囲でパラメーター化されています。

さまざまな拡張方法を使用して関連するビューを取得し、GNNプレのトレーニング用に新しいグラフ対照学習フレームワーク(GRAPHCL)を提案して、さまざまなグラフ構造データの摂動非依存表現を学習できるようにします。

GraphClは実際に相互情報の最大化を実行し、GraphClと最近提案された対照学習方法との関係を確立することを示します。

GraphClは、グラフ構造データのさまざまな対照学習方法を統合するための一般的なフレームワークとして書き換えることができることを実証します。

評価は、さまざまなタイプのデータセットでのさまざまな拡張のパフォーマンスを比較し、パフォーマンスの根底にある原則を明らかにし、特定のデータセットを採用するフレームワークのガイダンスを提供します。

GraphClは、一般的な敵対攻撃に対する堅牢性の強化に加えて、半教師の学習、監視なしの表現学習、および転送学習の設定で最先端のパフォーマンスを達成します。

9。コントラガン

ペーパータイトル:コントラガン:条件付き画像生成のためのコントラスト学習

紙の方向:条件付き画像生成フィールド

紙の出典:NIPS2020

紙リンク:https://arxiv.org/abs/2006.12681

紙コード:https://github.com/postech-cvlab/pytorch-studiogan

このホワイトペーパーの方法は次のとおりです。識別子の一般的な構造は、最初に、特徴抽出物Dを介して入力して、特徴ベクトルを取得します。画像のカテゴリの場合、カテゴリをemmbeddingの後、寸法kを持つベクトルになります。

損失関数もInfonceの損失ですが、データの増強を使用する代わりに、クラスラベルの埋め込みを類似性として使用します。

上記の減損は、参照サンプルxiを埋め込みe(yi)のカテゴリに近づけ、他のサンプルを押しのけます。しかし、この損失は、YIと同じラベルでサンプルを押しのけ、それらを負のサンプルと見なすことができます。したがって、同様のカテゴリの画像をより近くに持ち込みたいと思います。

このようにして、画像とそのカテゴリの間の距離が短縮され、同じカテゴリの画像間の距離が短縮されます。

要約する

Contrastive Learningは、AIのさまざまな分野で広く使用されており、自己監視学習の代表として、その効果は多くの監視された学習タスクを超えています。実際、多くのインターネット企業は、AIを適切な効果を得るために訓練できるように、ラベル付けに多くの人材を必要とする多くのビジネスを持っています。私は比較学習の分野でより良い作品を楽しみにしており、彼らがさまざまなアプリケーションの方向に実を結ぶことを願っています。

<<:  アルゴリズムによるレイオフによって解き放たれる「悪の花」とは?

>>:  IoTセキュリティにおける人工知能の重要性

ブログ    
ブログ    

推薦する

BI と AI が出会うとき、「最強の脳」がどのように意思決定を支援するのかを見てみましょう。

ビジネス インテリジェンス (BI) プラットフォームは常に進化しています。企業は、人工知能と機械学...

Sitechi スマートオペレーションプラットフォームがスマートシティの求心力を生み出す

デジタル トレントは、さまざまな新興テクノロジーが成熟し、新しいビジネスや新しいアプリケーションが出...

...

ML Ops: データ品質が鍵

ML Ops は AI 分野における比較的新しい概念であり、「機械学習操作」として説明できます。モデ...

無人運転は地方で大きな発展の可能性を秘めている

農業人口の高齢化と低所得化により、牛による耕作、手作業による移植、手作業による収穫といった伝統的な農...

3万語に及ぶ記事: サーバー開発と設計のためのアルゴリズム集

[[442986]]孫子はこう言った。「行軍と戦闘の最善の方法は戦略を使うこと、次に良いのは敵の同盟...

2021年4月の自動運転分野における重要な進展の概要

2021年に入ってから、自動運転分野の開発は着実に進展しており、4月には自動運転関連のさまざまな動き...

有名人の「ペイント肌」顔変更技術を悪用したいたずら合成AI動画の調査

[[265249]]新華社、上海、5月13日。AI技術の発展により、動画の顔を変える技術的ハードルが...

ChatGPTプロンプトワードの新しいゲームプレイ「もっと作る」、テキストと画像の効果を2倍にする

ChatGPT は誰もがよく知っていると思いますが、それをうまく使う方法は想像するほど簡単ではありま...

RPAテクノロジーが製造業の未来をどのように変えるか

RPA コンサルティング サービスは、製造業者がソフトウェア ロボットを使用してさまざまな反復的なル...

ワールドモデルや DriveGPT などの大規模モデルは自動運転に何をもたらすのでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

AI企業は米国政府に安全性テストを報告することが義務付けられる

バイデン政権は、すべての主要なAIシステムの開発者にセキュリティテストの結果を政府に開示することを義...

...

インテリジェントコンピューティングセンター構築の「サンゴ礁」と「灯台」

インテリジェント コンピューティング センターを「誰でもアクセス可能かつ無料」にする時が来ています。...