対照学習(CV)比較学習は何をするのでしょうか?教師ありトレーニングの典型的な問題は、ラベル付けされたデータが限られていることです。 NLP 分野における現在の経験によれば、自己教師あり事前トレーニングで使用されるデータの量が多く、モデルが複雑になるほど、モデルが吸収できる知識が増え、下流のタスクへの影響も大きくなります。これはバートが登場して以来、何度も証明されてきたのかもしれない。 したがって、対照学習の出現は、画像処理の分野における「より大きなラベル付きデータセットがない場合、自己教師あり事前トレーニングモデルを使用して画像自体の事前知識分布を吸収し、事前トレーニング済みモデルを取得する方法」という問題を解決することです。 対照学習は自己教師学習の一種で、ラベル付きデータに依存せず、ラベルなし画像から知識を学習します。 現時点では、対照学習は「明確な定義はないが、指針はある」という状態にあるようです。その指針は、類似インスタンスと非類似インスタンスを自動的に構築することにより、表現学習モデルを学習する必要があるというものです。このモデルにより、類似インスタンスは投影空間内でより近くなり、非類似インスタンスは投影空間内でより遠くなります。 論文に含まれるいくつかの重要なポイントの比較研究:
SimCLR: 典型的な負の対照学習法SimCLR は、画像処理の分野における 2020 年の ICML カンファレンスで提案されたもので、比較的「標準的な」対照学習モデルです。 まず、従来のモデルに比べて大幅に改善されています。次に、対称的な構造を採用しており、全体として比較的簡潔で明確です。最後に、それが確立する構造は、他の対照学習モデルの標準的なコンポーネントになっています。 肯定的な例と否定的な例を構築する方法 正例構築法は上図に示されています。ある画像に対して、可能な強化操作セット T から t1~T と t2~T の 2 種類をランダムに選択し、それぞれ元の画像に適用して、互いに正の例となる 2 つの強化された新しい画像を形成します。トレーニング中は、バッチ内の他の画像を x1 または x2 の負の例として使用できます。 対照学習は、画像を投影空間にマッピングし、この空間内で正例間の距離を短縮し、負例間の距離を増やすことができる表現モデルを学習することを目的としています。言い換えれば、表現モデルは表面要因を無視し、画像の本質的に一貫した構造情報を学習する、つまり、オクルージョン不変性、回転不変性、色不変性などの特定の種類の不変性を学習することを余儀なくされます。 SimCLR は、複数の画像強調操作を同時に統合し、対照学習モデルタスクの難易度を上げると、対照学習効果が大幅に向上することを証明しています。 表現学習システムの構築 指導原則: このシステムを通じて、トレーニング データは特定の表現空間に投影され、特定の方法を採用して、正の例を近づけ、負の例を遠ざけます。 上の図は、SimCLR モデルの全体構造を示しています。はい、2塔式モデルですが、画像分野では一般的にBranch(上下枝)と呼ばれています。 ラベルなしのトレーニング データから N 枚の画像をランダムに選択してバッチを形成します。バッチ内の任意の画像に対して、上記の方法に従って正の例を構築し、2 つの画像強化ビュー Aug1 と Aug2 を形成します。 Aug1 と Aug2 にはそれぞれ N 個の強化データが含まれており、それぞれ上部と下部のブランチを通過して強化画像に対して非線形変換を実行します。これらの 2 つのブランチは、SimCLR によって設計された表現学習に必要な投影関数であり、画像データを特定の表現空間に投影する役割を果たします。 上記のブランチを例に挙げます。 Aug1 はまず特徴エンコーダー(通常はモデル構造として ResNet が使用され、ここでは関数 fθ で表されます)を通過し、CNN によって対応する特徴表現に変換されます。その後、別の非線形変換構造 Projector(MLP [FC->BN->ReLU->FC] の 2 つのレイヤーで構成され、ここでは関数 gθ で表されます)があり、これはさらに特徴表現 hi を別の空間のベクトル zi にマッピングします。このようにして、gθ(fθ(x))の2つの非線形変換の後に、強調された画像が表現空間に投影されます。下側のブランチのAug2プロセスも同様です。 (質問: この投影操作を 2 回実行する必要があるのはなぜですか: 経験的結果)。 バッチ内の画像 x の場合、Aug1 と Aug2 内の対応する強化画像はそれぞれ xi と xj であり、これらは互いに正の例であり、xi と、xj を除く Aug1 と Aug2 内の他の 2N-2 個の画像は互いに負の例です。変換後、拡張された画像は表現空間に投影されます。適切な損失関数を定義することで、「正の例はより近く、負の例はより遠く」という目標を達成できます。 距離測定関数 まず、投影空間内の 2 つのベクトル間の距離を決定するためのメトリック関数が必要です。一般的に、距離メトリックとして類似度関数が使用されます。 具体的には、類似度計算関数は、L2 正規化後の表現ベクトルのドット積、または表現ベクトル間のコサイン類似度を取得します。 損失関数 損失関数は非常に重要です。SimCLR は損失関数として InfoNCE Loss を使用します。特定の例に対応する InfoNCE Loss は次のとおりです。 これは、2 つの正の例の対応する埋め込みを表します。 InfoNCE 関数では、分子は正の例の類似度が可能な限り高くなるように促します。つまり、表現空間内の距離が近いほど良いということです。一方、分母は負の例間のベクトル類似度が可能な限り低くなるように促します。つまり、距離が遠いほど良いということです。 SimCLR の主要なプラクティスは上記で紹介しました。このプロセス自体は、実際には標準的な事前トレーニング モードです。大量のラベルなし画像データを使用し、比較学習の指針に従って、適切なエンコーダー モデルとそれに対応する機能表現を学習します。優れたエンコーダーとは、入力画像から主要な特徴を学習して抽出できるエンコーダーです。このプロセスは、Bert モデルの MLM 自己教師あり事前トレーニングと同じ目的ですが、アプローチは異なります。エンコーダーを十分に学習した後は、特定の下流タスクを解決する際に、学習したパラメータを使用してエンコーダー内のResNetモデルを初期化し、下流タスクのラベル付きデータを使用してモデルパラメータを微調整することができます。事前トレーニング段階で学習した知識が下流タスクに転移効果をもたらすことが期待されます。 SimCLR には、エンコーダー、プロジェクター、画像強化、InfoNCE 損失関数など、多くのコンポーネントがあるように見えます。実際、最終的に必要なのはエンコーダーだけであり、他のすべてのコンポーネントと損失関数は、高品質のエンコーダーをトレーニングするための補助構造にすぎません。これは現在のすべての対照学習モデルに当てはまることに注意してください。 SimCLR の貢献は、1 つは合成画像の強化が重要であることを証明すること、もう 1 つはプロジェクター構造です。これら 2 つを組み合わせることで、対照学習システムのパフォーマンスが大幅に向上し、対照学習のパフォーマンスが教師ありモデルのそれと同等かそれ以上になりました。その後の対照学習モデルは、基本的にエンコーダ + プロジェクターの 2 つのマッピング構造と合成画像強化法を採用しています。 比較学習システムを判断する基準 対照学習を使用して特徴表現の類似度を計算する場合、最初に表現ベクトルに対して L2 正則化を実行してからドット積計算を実行するか、直接コサイン類似度を使用する必要があります。なぜこれを行うのでしょうか? 多くの研究により、特徴表現を単位超球面にマッピングすることには多くの利点があることが示されています。ここで重要なポイントは 2 つあります。1 つは単位長さ、もう 1 つは超球面です。まず、ベクトルの長さ情報を持つドット積と比較して、長さ情報を削除した後の単位長さのベクトル演算は、ディープラーニングモデルのトレーニング安定性を高めることができます。さらに、表現ベクトルが超球面にマッピングされている場合、モデルの表現能力が類似の例を超球面上のより近い領域にクラスタリングするのに十分であれば、線形分類器を使用して 1 つのクラスを他のクラスと区別することが容易になります (上図を参照)。対照学習モデルでは、学習した表現ベクトルに対して L2 正則化を実行したり、コサイン類似度を使用したりすることは、表現ベクトルを単位超球面に投影して相互比較することと同等です。 対照学習モデルに関連する多くの実験でも、表現ベクトルの L2 正則化によってモデルのパフォーマンスが向上することが証明されています。 整列と均一性 論文「ハイパースフィア上の配置と均一性による対照表現学習の理解」では、優れた対照学習システムについて説明しています。優れた対照学習システムには 2 つの特性が必要であると提案されています。 アライメント: 単位超球にマッピングされた後に類似した特徴を持つ、つまり超球上で距離が近い類似の例、つまり正の例を指します。 均一性: システムは、特徴内にできるだけ多くの情報を保持する傾向があることを意味します。これは、単位超球にマッピングされた特徴を球上にできるだけ均等に分散させることに相当します。分布が均一であればあるほど、保持される情報はより十分になります。均一分布とは、各ペア間に違いがあり、各ペアが固有の情報を保持していることを意味し、情報が完全に保持されていることを意味します。 崩壊 均一性特性の極端な反例として、すべてのデータが単位超球面上の同じ点にマッピングされるというものがあります。これは均一性原理の極端な違反です。なぜなら、すべてのデータ情報が失われることを意味し、超球面上の同じ点におけるデータの分布が極端に不均一になることに反映されるからです。つまり、すべてのデータが特徴表現マッピングのプロセスを経た後、同じ定数解に収束したということです。この異常な状況は、一般的にモデル崩壊(Collapse)と呼ばれます(上図参照)。 SimCLRのような構造を持つ対照学習モデルの再検討 対照学習モデル構造の上部ブランチと下部ブランチは、まず 2 つの非線形マッピングを通じて、正例ペアまたは負例ペアを単位超球面に投影することがわかります。次に、最適化目標を反映する InfoNCE 損失関数を使用して、単位超球にマッピングされたポイント間の位相構造関係を調整し、正の例を超球上で近づけ、負の例を超球上で遠ざけることが期待されます。では、損失関数 InfoNCE はこれをどのように実現するのでしょうか? 分子は「配置」プロパティを反映しており、正の例が単位超球上で可能な限り近くなるように促します。一方、分母の負の例は「均一性」プロパティを反映しており、負の例の任意の 2 つのペアが単位超球上で可能な限り離れるように促します。 温度ハイパーパラメータ τ の役割は何ですか? 多くの実験により、コントラスト学習モデルをより適切に機能させるには、温度ハイパーパラメータ τ を比較的小さい値 (通常は 0.1 または 0.2) に設定する必要があることがわかっています。問題は、このハイパーパラメータを大きくしたり小さくしたりすると、モデルの最適化プロセスにどのような影響が及ぶかということです。現在の研究結果によると、InfoNCE は負の例の難しさを感知できる損失関数であり、その理由は主にハイパーパラメータによるものです。 分類のための対照学習法(画像)モデル崩壊を防ぐためのさまざまな方法の観点から、既存の方法は、負の例に基づく対照学習法、対照クラスタリングに基づく方法、非対称ネットワーク構造に基づく方法、冗長除去損失関数に基づく方法の 4 つのタイプに大まかに分類できます。 対照学習法の分類負の例に基づく対照学習法 SimCLR シリーズや Moco シリーズなどの多くの典型的な対照学習モデルを含め、損失関数で負の例を使用するすべての対照学習方法は、モデルの崩壊を防ぐために負の例の均一性に依存しています。 対照的クラスタリングに基づく方法 代表車種SwAV。 バッチ内の画像 x に対して、画像強化 Aug1 および Aug2 が実行され、強化された画像 x1 および x2 が得られ、x1 と x2 が互いの正の例であるとします。 x1 はブランチを上っていき、x2 はブランチを下っていき、SwAV は Aug1 と Aug2 の表現ベクトルの Sinkhorn-Knopp アルゴリズムに基づいてバッチ内のデータをオンラインでクラスタリングします。 SwAV では、表現学習モデルが x1 に基づいて x2 のクラスを予測する必要があります。同様に、x1 のクラスを予測するには x2 も必要です。 この方法では、超球面上の特定の投影点が、別の投影点が属するクラスターの中心に近いことが必要であり、これは位置合わせの原則を反映しています。他のクラスターの中心から離れているほど良いことになり、これは均一性の属性を反映しています。 SwAV は、バッチ内のすべてのインスタンスが同じクラスにクラスター化されるという形で現れるモデル崩壊の問題に直面しています。したがって、モデルの崩壊を防ぐために、SwAV はクラスタリングに制約を追加し、バッチ内のインスタンスを比較的均等に異なるカテゴリにクラスタリングすることを要求します。本質的には、モデル崩壊を防ぐ作用メカニズムは、負の例を直接使用する対照学習モデルのメカニズムと似ており、目に見えない負の例です。 非対称ネットワーク構造に基づく方法 代表モデル BYOL: 対照学習モデルのトレーニングには正の例のみが使用され、モデルの崩壊を防ぐために上部ブランチと下部ブランチの非対称構造が使用されます。 冗長性除去損失関数に基づく方法 代表モデルはバーロウツインズ。 負の例も非対称構造も使用されません。モデルの崩壊は主に、「冗長性除去損失関数」と呼ばれる新しい損失関数を置き換えることによって防止されます。 実験結果 現在、ほとんどの対照学習モデルは、モデルをトレーニングするときに ImageNet データセットを使用しています。評価の際、主な実験も ImageNet で行われます。そこで問題となるのは、対照学習は本質的に自己教師型の事前トレーニング モデルであり、自己教師型の方法で ImageNet データセットから画像の事前知識と構造を学習しようとすることです。では、ImageNet データセットから学習した知識は、他のデータセットにうまく転送できるのでしょうか? 論文「自己教師ありモデルの転移はどの程度優れているか?」では、40 を超えるデータセットで 13 のよく知られた自己教師ありモデルについて比較的公平な比較テストを実施し、いくつかの貴重な結論を導き出しました。 対照学習法(NLP)CV分野における対照学習研究は過去2年間で急成長を遂げており、徐々にNLP分野に影響を与えています。2020年以降、NLP分野では対照学習のアイデアを自己教師あり文埋め込みトレーニングに使用するアイデアがいくつか登場しています。 私自身の研究では、対照学習の考え方をどのように適用するかに基づいて、それを 2 つのカテゴリに分類しました。
以下では、背景、スキーム、データ強化方法、実験結果の観点からいくつかの代表的なモデルを紹介します。 損失共同自己監督1. クリア リンク: 出典: http://arxiv.org/pdf/2012.15466.pdf 背景: 著者は、現在の事前トレーニング モデルはすべて単語レベルに基づいており、文レベルの目標がないため、文に対する効果が低いと考えています。 解決策: 単語レベルと文レベルの損失を組み合わせます。 対照損失関数: データ拡張方法: トークンレイヤー 実験結果: のり: 送信評価: 2.DeCLUTR リンク: https://arxiv.org/abs/2006.03659 解決策: トレーニング データを必要とせず、事前トレーニング プロセスを最適化する自己教師あり方式です。 データ拡張方法: 解決方法: N 個のドキュメントを選択してバッチを形成します。各ドキュメントに対して A 個のアンカーを取得すると、AN 個のアンカーが存在します。正のアンカーを取得すると、AN 個のアンカーも存在するため、合計 2AN ポイントになります。各点について、それと正の例を示す 2 つを除き、残りの 2AN-2 は負の例です。 目的: テキストがアンカー スパンに近いほど類似性が高くなります。そのため、アンカー スパンとその周囲のスパンが正の例として使用されます。 異なるベータ分布を使用して、アンカーと正のスパンの長さを制限します。通常、アンカーは正のスパンよりも長く、最長のアンカーは最大 512 です。 著者は次のように信じている。 1. 長いアンカーは、文と段落の両方のレベルで埋め込みが可能です。 2. この構成は、下流のタスクに良い効果をもたらします。a) グローバルからローカルへの情報を学習します。b) 複数のポジティブを生成した後、多様性情報を取得できます。 3. バッチには複数のドキュメントがあるため、異なるドキュメントの範囲で構成された負の例は簡単な負の例であり、同じドキュメントの範囲で構成された負の例は難しい負の例です。 実験結果: 比較学習プロセスにおける ENCODER 部分と MLM 部分の事前学習済みモデルは RoBerta と DistillRoBerta であり、プーリングには平均プーリングが使用されます。 さらに詳しい情報: Bert vs RoBerta vs AlBert 評価データセットは、文の表現を評価するためのツールキットである SentEval です。これには、入力が文の表現で出力が予測結果である 17 個のダウンストリーム タスクが含まれています。 この論文の解決策は必ずしも最善のものではないことがわかりますが、著者は対照学習法を使用しない場合と対照学習法を使用した場合の結果 (最終的な Transformer-* VS DeCLUTER-*) を比較しており、彼の解決策が有効であることを示しています。 3. 対照学習によるクラスタリングのサポート リンク: https://arxiv.org/abs/2103.12953 (NAACL 2021) 背景: 学習プロセスの初期段階では、表現空間内でさまざまなカテゴリが重複することが多く、異なるカテゴリ間の適切な分離を実現する方法に大きな課題が生じます。 解決策: 対照学習を使用して、より優れた分離を実現します。トップダウンのクラスタリング損失とボトムアップのエンティティレベルの比較損失を共同で最適化することで、クラスター内とクラスター間の両方の最適化という目標を達成できます。 これは、インスタンス CL 部分とクラスタリング部分の 2 つの部分に分かれています。 インスタンス CL:
データ拡張方法:
実験結果: 非共同自己監督1. BERT-CT(ICLR2021) 背景: さまざまな事前トレーニング済みモデルの特定のレイヤーから取得された埋め込みは、文章をうまく表現できず、レイヤーがターゲットに近づくほど、効果は悪くなります。著者はトレーニングの目標が非常に重要であると考えています。 解決策: ハイパーパラメータが異なる 2 つのモデルを使用して文の埋め込みを抽出し、正のペアのドット積をできるだけ大きくし、負のペアのドット積をできるだけ小さくします。 データ拡張方法: 肯定的な例: 同じ文内の異なる埋め込み。 否定例: 7 つの異なる文をランダムに選択します。 実験結果: 2.シムCSE リンク: https://arxiv.org/abs/2104.08821 背景: BERT 文ベクトルを教師なしの意味的類似度計算に直接使用しても、効果は非常に低くなります。任意の 2 つの文の BERT 文ベクトルの類似性は非常に高くなります。その理由の 1 つは、ベクトル分布の非線形性と特異性です。偶然にも、対照学習の目標の 1 つは、均一に分布したベクトル表現を学習することです。したがって、対照学習を使用して、表現空間を正規化する効果を間接的に達成できます。これは、正のサンプル構築の問題に戻ります。この論文の革新の 1 つは、教師なし条件下での正のサンプルの構築です。 解決策とデータ拡張方法: この論文の著者は、ドロップアウト マスクをランダムにサンプリングして xi+ を生成することを提案しています。標準のトランスフォーマーでは、ドロップアウト マスクは完全接続層とアテンション合計演算に配置され、z はランダムに生成されたドロップアウト マスクです。ドロップアウト マスクはランダムに生成されるため、トレーニング フェーズでは同じサンプルが同じエンコーダーに 2 回入力され、2 つの異なる表現ベクトル z と z' が得られます。z' を正のサンプルとすると、モデルのトレーニング目標は次のようになります。 ドロップアウト マスクを変更してポジティブ サンプルを生成するこの方法は、元のサンプルと生成されたポジティブ サンプルのセマンティクスがまったく同じであり (セマンティクスの一貫性とセマンティクスの相関の違いに注意)、生成された埋め込みのみが異なるため、データ拡張の最小形式と見なすことができます。 実験結果: 著者について 清華大学で修士号を取得したディアオバイさんは、現在大企業でアルゴリズムエンジニアとして働いており、8つの大企業からSSPのオファーを受けている。私は学部生時代に5年間起業し、2つの会社を設立し、合計300万元以上の資金調達(すでに受領済み)を行いました。私のプロジェクトは南京市の321ハイレベル起業家人材導入プログラムに選ばれました。彼はドローン、ロボット、インターネット教育の分野で起業したが、大学院に入学した後に辞めることにした。 |
<<: Testin Cloud TestingがHuawei Hongmeng HarmonyOSイノベーションソリューションチーム賞を受賞
>>: LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます
ビッグデータは人々にとって巨大な概念であるようです。しかし、多くの企業がすでに業務にビッグデータを活...
現在、人工知能(AI)と機械学習は私たちの日常生活に入り込み、徐々に私たちの生活を変えつつあります。...
この記事では、Xiaohongshu プッシュ検索シナリオの完全な GPU 構築プロセスにおけるモデ...
製造強国戦略の徹底的な実行の重要な部分として、ロボット産業はますます多くの人々の注目を集めています。...
北京時間8月19日朝のニュースによると、2019年4月にテスラが「自動運転の日」イベントを開催したと...
海外メディアは、プライスウォーターハウスクーパースの報告書が、人工知能と5G技術が今後3~5年でスマ...
iResearch Instituteが発表したレポートによると、2021年の中国の幹線物流大型ト...
人工知能の開発にはまだまだ長い道のりが残っているようです。エルサレムのヘブライ大学の研究者らは、単一...
[[389147]]人間は経験を通して学び、成長する能力を持っている学習能力と経験を通じてタスクを...
置き換えられるというよりは、スキルの反復の方が心配です。 2017年は、人工知能が世界中で大きな注目...