フレームワークがシャム自己教師学習を統合、清華大学とセンスタイムが効果的な勾配形式を提案

[[443228]]

現在、自己教師あり学習は、手動によるラベル付けを必要とせずに強力な視覚特徴抽出機能を実証しており、複数の下流視覚タスクにおいて教師あり学習を上回るパフォーマンスを達成しています。そのため、この学習パラダイムは広く注目を集めています。

この流れの中で、さまざまな自己教師学習法が次々と登場しています。その多くはツインネットワークアーキテクチャを採用していますが、問題を解決する角度は大きく異なります。これらの方法は、MoCoやSimCLRに代表される対照学習法、BYOLやSimSiamに代表される非対称ネットワーク法、Barlow TwinsやVICRegに代表される特徴分離法の3つに大別できます。これらの手法は、特徴表現の学習方法に関して非常に異なるアプローチを採用しています。同時に、実際の実装で使用されるネットワーク構造とトレーニング設定が異なるため、研究者はそれらのパフォーマンスを公平に比較することはできません。

したがって、いくつかの自然な疑問が生じます。これらの方法の間には何らかの関連があるのでしょうか?それらの背後にある動作メカニズム間の関係は何ですか?さらに、異なる方法間でパフォーマンスの違いが生じる具体的な要因は何でしょうか?

この目的のために、清華大学、センスタイム、その他の機関の研究者は、これらの方法を説明するための統一されたフレームワークを提案しました。彼らは損失関数を直接比較するのではなく、勾配分析の観点から比較し、これらの方法が非常に類似した勾配構造を持ち、正の勾配、負の勾配、バランス係数の 3 つの部分で構成されることを発見しました。その中で、正の勾配と負の勾配の役割は、対照学習における正のサンプルと負のサンプルの役割と非常に似ており、これは上記の 3 つの方法の動作メカニズムが実際には似ていることを示しています。さらに、勾配の具体的な形態はさまざまであるため、研究者らは詳細な比較実験を通じてその影響を分析しました。勾配の特定の形式はパフォーマンスにほとんど影響を与えず、重要な要素は運動量エンコーダーの使用にあることが判明しました。

論文リンク: https://arxiv.org/pdf/2112.05141.pdf

この統一されたフレームワークに基づいて、研究者は簡潔かつ効果的なグラデーション形式である UniGrad を提案しました。 UniGrad は複雑なメモリバンクや予測ネットワーク設計を必要とせず、SOTA パフォーマンスを提供できます。 UniGrad は、複数のダウンストリームタスクで優れた転送パフォーマンスを実現し、他の拡張テクニックを追加してパフォーマンスをさらに向上させることも簡単です。

図1 3種類の自己教師あり学習法とUniGradの比較

統一フレームワーク

このセクションでは、さまざまな方法の勾配形式を分析します。まず、3 種類の方法の勾配形式を示し、次にそれらの共通の構造をまとめます。読者は、勾配の観点から、さまざまな種類の方法がどのように機能するかをよりよく理解することもできます。説明の便宜上、著者は u を使用して現在のサンプル機能を表し、v を使用して他のサンプル機能を表し、下付き文字を追加します。

異なる拡張ビューを示すには、上付き文字を追加します。

ツインネットワーク内のオンラインブランチまたはターゲットブランチによって生成された機能を表します。

対照学習法

対照的な学習法は、現在のサンプルが

ズームインとポジティブサンプル

ブーストサンプルとネガティブサンプル間の距離

一般的に使用される InfoNCE 損失は次のとおりです。

具体的な実装に関しては、2 つの代表的な方法である MoCo と SimCLR には多くの違いがあります。MoCo はターゲットブランチのエンコーダーとしてモメンタムエンコーダーを使用しますが、SimCLR ではターゲットブランチがオンラインブランチとパラメーターを共有します。MoCo はメモリバンクを使用してネガティブサンプルを保存しますが、SimCLR は現在のバッチ内の他のサンプルをネガティブサンプルとして使用します。

SimCLR 勾配をわずかに簡略化することで (ターゲットブランチの勾配バックプロパゲーションをオフにしても最終的なパフォーマンスには影響しません)、対照学習法の勾配を次の形式に統一できます。

この式では、

の役割は、陽性サンプルを近づけることです。

の役割は負のサンプルを押しのけることなので、著者はこれら 2 つの項目をそれぞれ正の勾配と負の勾配と呼んでいます。

非対称ネットワーク方式

非対称ネットワーク法では、特徴を学習するために正のサンプルのみを使用し、非対称ネットワークの設計を通じて単純な解決策を回避します。このタイプの方法では、通常、オンラインブランチの後に予測ネットワークが追加されます。

、そしてターゲットブランチの勾配逆伝播をオフにします。最後に、次の損失関数が使用されます。

これらの方法のうち、BYOL と SimSiam は非常に似ていますが、唯一の違いはモメンタムエンコーダーを使用するかどうかです。これらの方法は非常に優れたパフォーマンスを示していますが、その仕組みについてはほとんどわかっていません。最近、DirectPred によるこの記事では、ネットワーク最適化の動的プロセスの観点から、それらについて予備的な説明が行われました。この研究では、予測ネットワークの特徴空間が特徴相関行列の特徴空間と徐々に一致することが観察されました。これに基づいて、DirectPred は予測ネットワークの分析ソリューションを提案しました。この研究を基に、著者らはさらに非対称ネットワーク法と他の方法との関連性を示している。特に、それらの勾配は次のように導出できる。

で

予測ネットワークの解析解です。ご覧のとおり、上記の式にも 2 つの主要な部分があります。

正の勾配である。

負の勾配です。

一見すると、この結果は非常に直感に反しているように見えます。損失関数では負のサンプルは使用されていませんが、勾配には負の勾配が現れます。実際、これらのネガティブサンプルは、最適化プロセス中に予測子によって学習された情報から取得されます。 DirectPred の結論によると、予測子の特徴空間は、相関行列の特徴空間と徐々に一致するようになります。したがって、予測子は、トレーニング中に相関行列の情報をネットワークパラメータにエンコードする可能性があります。バックプロパゲーション中に、この情報は負のサンプルの形で勾配に表示されます。

機能分離法

特徴分離法は、単純な解決を避けるために特徴次元間の相関を減らすことを目的としています。さまざまな研究で使用される損失関数は形式が大きく異なるため、著者はそれらを個別に説明します。

Barlow Twins は次の損失関数を採用しています。

で

2 つの拡張ビュー間の相関行列です。この損失関数では、相関行列の対角要素が 1 に近くなり、非対角要素が 0 に近くなると予想されます。

この損失関数の勾配形式は次のとおりです。

著者はまず最初の項を

同時に、オリジナルのBarlow Twinsは特徴量のバッチ正規化を採用していましたが、著者はそれを

正規化、これらの変換は最終的なパフォーマンスに影響を与えません。

VICReg は、Barlow Twins に基づいていくつかの変更を加えます。特徴に追加されたバッチ正規化を削除するために、次の損失関数を採用します。

対応する勾配形式は

申請することで

正規化により、著者はパフォーマンスに影響を与えずに最後の項を削除できます。このようにして、特徴分離法の勾配形式は次のように統一できます。

グラデーションフォームには、次の 2 つの項目がまだ含まれています。

正の勾配である。

負の勾配は、相関行列の対角要素と非対角要素からそれぞれ生じます。したがって、特徴分離法は本質的に他の 2 つの方法と非常に似ています。損失関数で、正のサンプルと負のサンプルを異なる形式で組み合わせるだけです。

統一形式

上記の 3 つの方法の勾配形式を比較すると、それらはすべて同様の構造を持っていることがわかりました。

で、

陽性サンプルの特徴に応じて、

負のサンプル特徴の加重平均であり、

は、2 つの方法のバランスをとる係数です。この類似した構造は、3 つの方法の動作メカニズムが非常に類似していることを示しています。

パフォーマンス比較

構造は似ていますが、異なる方法の具体的な勾配形式は依然として異なり、ターゲットブランチの種類とネガティブサンプルセットの構成も異なります。このセクションでは、比較実験を通じて最終的なパフォーマンスに影響を与える主な要因を探ります。

グラデーション形式

比較を容易にするために、著者はまず各カテゴリ内の各方法を簡略化して比較し、最後に異なる方法を比較します。完全な実験結果を表1に示します。

表1 異なるタイプの方法のパフォーマンス比較

表1(ab)は比較学習法の結果を示しています。公平な比較を維持するために、SimCLR はモメンタムエンコーダーを使用し、この場合 MoCo と同じパフォーマンスを示します。ここで、SimCLR は現在のバッチのみを負のサンプルセットとして使用し、MoCo はメモリバンクを負のサンプルセットとして使用します。これは、適切なトレーニング設定では、多数の負のサンプルは必要ないことを示しています。

表1(ce)は非対称ネットワーク法の結果を示しています。モメンタムエンコーダーを備えた SimSiam は BYOL であるため、ここでは BYOL の結果のみが表示されます。表 1 (cd) は、それぞれオリジナルの BYOL と DirectPred BYOL を示しています。2 つのパフォーマンスは同等であり、これは DirectPred の結論と一致しています。表1(e) 陽性サンプルの勾配

これを単位行列に置き換えても性能には影響がないので、非対称ネットワーク法の勾配形式は表1(e)の形式に統一できる。

表1(fj)は特徴分離法の結果を示しています。バーロー双子の場合、表1(g)は正の勾配の行列Aを単位行列に置き換え、表1(h)は特徴量のバッチ正規化を

正規化により、これらの置換はパフォーマンスの低下を招かない。VICRegの場合、表1(j)は勾配の最後の項目を削除し、

正規化はパフォーマンスにほとんど影響を与えません。最後に、表1(hj)を比較すると、両者の違いは負のサンプル係数の計算方法のみであるが、性能差は非常に小さいため、特徴分離法の勾配形式は表1(j)の形式に統一することができる。

最後に、著者らは3つの方法の勾配を比較しました。その結果は表1（bej）のとおりです。勾配構造では、正勾配の形式が統一されており、探索を通じてバランス係数が最適に保たれます。唯一の違いは負勾配形式です。実験結果によると、異なる負勾配形式の性能は非常に近いことが示されています。表 1(ej) のネガティブサンプルの形式が非常に似ていることも注目に値します。違いは、表 1(e) では以前のすべてのサンプルで構成されるネガティブサンプルセットが使用されているのに対し、表 1(j) では現在のバッチセットのみが使用されていることです。これは、ネガティブサンプルセットの構築が自己教師学習において最も重要な要素ではないことも示しています。

ターゲットブランチタイプ

以前、公平な比較のために、著者はあらゆる種類の手法にモメンタムエンコーダーを使用しました。次に、さまざまなタイプのターゲットブランチが最終結果に与える影響を調べてみましょう。実験結果を表 2 に示します。

表2 対象ブランチタイプの影響

ターゲットブランチがストップグラジエント型を採用した場合、3 つの方法はすべて同様のパフォーマンスを示し、これは以前の結論と一致しています。ターゲットブランチがモメンタムエンコーダ型を採用した場合、3 つの方法は以前の基準から約 2 ポイント向上し、モメンタムエンコーダがさまざまな方法に改善をもたらすことができることを示しています。

さらに、著者らは、いくつかの方法では正の勾配のみが運動量エンコーダの機能を利用していることを観察したため、3 つの方法すべてにおいて正の勾配のみで運動量エンコーダの機能を利用するようにしました。実験結果によると、これはすべての勾配に対してモメンタムエンコーダーを使用する場合と同様のパフォーマンスを示します。これは、ゆっくり更新される一貫性のある更新ターゲットが自己教師学習にとって非常に重要であることを示しています。

最終方法

上記の統一されたフレームワークに基づいて、著者は簡潔かつ効果的な自己監督法 (UniGrad) を提案しました。

で

相関行列のスライド平均です。 UniGrad は本質的には表 1(e) の勾配形式です。この勾配では追加のメモリバンクや追加のプロジェクターの設計は必要ありません。実験では、線形評価と転移学習の両方で SOTA 実験パフォーマンスを達成できることが示されています。

図 2 は、複数のメトリックの観点からさまざまな方法の最適化プロセスを示しています。異なる方法の最適化曲線には明らかな違いがないことがわかります。これは、この方法が以前の方法と同様の動作メカニズムを持っていることも示しています。

表3と表4はUniGradの具体的な結果を示しています。 UniGrad 自体は、以前の方法と同等のパフォーマンスを実現でき、以前のデータ拡張方法を簡単に組み込んでパフォーマンスをさらに向上させることができます。 UniGrad は、より長いトレーニングラウンドでも優れたパフォーマンスを発揮します。

表3 データ拡張法と組み合わせたUniGradのパフォーマンス

表4 長距離ラウンドにおける従来の方法との比較

<<: アイデアこそが王様！メンサ国際元会長が2021年の人工知能の応用を総括

>>: このトリックにより、トランスフォーマーの推論速度が4.5倍になり、数十万ドルを節約できます。