ヤン・ルカンのチームの新しい研究結果：自己教師あり学習のリバースエンジニアリング、クラスタリングはこのようにして達成されることが判明

自己教師あり学習 (SSL) は近年大きな進歩を遂げており、多くの下流タスクにおいて教師あり学習法のレベルにほぼ達しています。しかし、モデルの複雑さとラベル付けされたトレーニングデータセットの不足により、学習された表現とその基礎となる動作メカニズムを理解することは困難でした。さらに、自己教師学習で使用される口実タスクは通常、特定の下流タスクに直接関連していないため、学習した表現を解釈する複雑さがさらに増します。教師あり分類では、学習された表現の構造は単純な場合が多いです。

従来の分類タスク (目標はサンプルを特定のカテゴリに正確に分類すること) と比較して、最新の SSL アルゴリズムの目標は通常、2 つの主要コンポーネントを含む損失関数を最小化することです。1 つは強化されたサンプルをクラスタ化すること (不変性制約)、もう 1 つは表現の崩壊を防ぐこと (正則化制約) です。たとえば、異なる強化後の同じサンプルのデータの場合、対照学習法の目標は、強化後の異なるサンプルを区別できるようにしながら、これらのサンプルの分類結果を同じにすることです。一方、非対照的な方法では、表現の崩壊を避けるために正規化子を使用します。

自己教師あり学習では、補助タスク (口実) を使用して教師なしデータから独自の教師情報をマイニングし、この構築された教師情報を通じてネットワークをトレーニングして、下流のタスクに役立つ表現を学習することができます。最近、チューリング賞受賞者のヤン・ルカン氏を含む数人の研究者が、自己教師あり学習をリバースエンジニアリングし、そのトレーニングプロセスの内部動作を理解できるようになったと主張する研究を発表しました。

論文アドレス: https://arxiv.org/abs/2305.15614v2

この論文では、慎重に設計された一連の実験を通じて SLL を使用した表現学習の詳細な分析を提供し、トレーニング中のクラスタリングプロセスを理解するのに役立ちます。具体的には、拡張サンプルは高度にクラスター化された動作を示し、同じ画像を共有する拡張サンプルの意味埋め込みの周囲に重心を形成することを明らかにしました。さらに驚くべきことに、研究者たちは、対象タスクに関する明示的な情報がない場合でも、サンプルが意味ラベルに従ってクラスター化されることを観察しました。これは、SSL が意味的類似性に基づいてサンプルをグループ化する機能を持っていることを示しています。

問題設定

自己教師学習 (SSL) は、下流のタスク用のモデルを準備するための事前トレーニングによく使用されるため、重要な疑問が生じます。SSL トレーニングは、学習した表現にどのような影響を与えるのでしょうか。具体的には、トレーニング中に SSL は内部でどのように機能し、どのようなカテゴリの表現関数を学習できるのでしょうか。

これらの問題を調査するために、研究者はさまざまな設定で SSL ネットワークをトレーニングし、さまざまな手法を使用してその動作を分析しました。

データと拡張: この論文で言及されているすべての実験では、CIFAR100 画像分類データセットが使用されています。モデルをトレーニングするために、研究者らは SimCLR で提案された画像拡張プロトコルを使用しました。各 SSL トレーニングセッションは、モメンタム付きの SGD オプティマイザーを使用して 1000 エポック実行されました。

バックボーンアーキテクチャ: すべての実験では、RES-LH アーキテクチャをバックボーンとして使用し、2 層のマルチレイヤーパーセプトロン (MLP) プロジェクションヘッドと組み合わせて使用しました。

線形プロービング: 表現関数から特定の離散関数 (カテゴリなど) を抽出する有効性を評価するために、ここで使用される方法は線形プロービングです。これには、表現に基づいて線形分類器 (線形プローブとも呼ばれる) をトレーニングする必要があり、そのためにはいくつかのトレーニングサンプルが必要です。

サンプルレベルの分類: サンプルレベルの分離可能性を評価するために、新しい専用データセットを作成しました。

トレーニングデータセットには、CIFAR-100 トレーニングセットからのランダムな画像 500 枚が含まれています。各画像は特定のクラスを表し、100 種類の異なる拡張が行われます。したがって、トレーニングデータセットには、500 のカテゴリから合計 50,000 のサンプルが含まれます。テストセットでは、同じ 500 枚の画像が使用されますが、すべて同じ分布からの 20 種類の異なる拡張が加えられます。したがって、テストセットの結果は 10,000 個のサンプルで構成されます。サンプルレベルで特定の表現関数の線形または NCC (最も近いクラス中心) 精度を測定するために、ここで採用されている方法は、まずトレーニングデータを使用して関連する分類子を計算し、次に対応するテストセットでその精度を評価することです。

自己教師学習のクラスタリングプロセスの解明

クラスタリングプロセスは、ディープラーニングモデルの分析を支援する上で常に重要な役割を果たしてきました。 SSL トレーニングを直感的に理解するために、図 1 では、トレーニング前後の状況が含まれ、さまざまなレベルに分割された、UMAP 視覚化によるネットワークのトレーニングサンプルの埋め込み空間を示しています。

図1: SSLトレーニングによるセマンティッククラスタリング

予想どおり、トレーニングプロセスではサンプルレベルでサンプルが正常にクラスタ化され、同じ画像のさまざまな拡張がマッピングされます (最初の行に示されています)。目的関数自体が（不変性損失項を介して）この動作を奨励していることを考えると、これは驚くべきことではありません。しかし、さらに注目すべきは、トレーニングプロセス中にラベルが欠落しているにもかかわらず、トレーニングプロセスが標準 CIFAR-100 データセットの元の「意味カテゴリ」に従ってクラスタリングされることです。興味深いことに、より高いレベル (スーパーカテゴリ) も効果的にクラスター化できます。この例では、トレーニングプロセスはサンプルレベルで直接クラスタリングを促進しますが、SSL によってトレーニングされたデータ表現も、異なるレベルでセマンティックカテゴリに従ってクラスタリングされることがわかります。

このクラスタリングプロセスをさらに定量化するために、研究者らはVICRegを使用してRES-10-250をトレーニングしました。研究者らは、サンプルレベルと元のカテゴリの両方に基づいて NCC トレーニングの精度を測定しました。特に、SSL トレーニングされた表現は、サンプルレベルではニューラルコラプス (NCC トレーニング精度は 1.0 に近い) を示しますが、意味カテゴリに関しては大幅にクラスタリングされます (元のターゲットでは約 0.41)。

図 2 の左側に示されているように、ネットワークが直接トレーニングされる拡張を伴うクラスタリングは、トレーニングプロセスの初期段階で主に発生し、その後停滞しますが、意味カテゴリ (トレーニング目標で指定されていない) に基づくクラスタリングは、トレーニング中に改善し続けます。

図2: SSLアルゴリズムは意味的目標に基づいてデータをクラスタ化する

これまでの研究者は、教師ありトレーニングサンプルの最上位レベルの埋め込みが徐々に重心のような構造に収束することを観察してきました。 SSL によってトレーニングされた表現関数のクラスタリング特性をよりよく理解するために、SSL 中の同様の状況を調査しました。 NCC 分類器は線形分類器であり、そのパフォーマンスは最良の線形分類器を超えることはありません。同じデータでトレーニングされた線形分類器と比較して NCC 分類器の精度を評価することにより、さまざまな粒度レベルでデータクラスタリングを研究できます。図 2 の中央のグラフは、サンプルレベルのカテゴリと元のターゲットカテゴリにおけるこの比率の変化を示しており、その値は初期化値に応じて正規化されています。 SSL トレーニングが進むにつれて、NCC 精度と線形精度のギャップが小さくなり、強化されたサンプルではサンプル ID とセマンティック属性に応じてクラスタリングレベルが徐々に向上することがわかります。

さらに、この図は、サンプルレベルの比率が最初は高いことも示しており、これは、拡張サンプルが重心に収束するまで、その ID に従ってクラスター化されることを示しています (NCC 精度と線形精度の比率は、100 エポックで 0.9 以上です)。ただし、トレーニングが続くと、サンプルレベルの比率は飽和しますが、カテゴリレベルの比率は増加し続け、約 0.75 に収束します。これは、拡張サンプルが最初にサンプル ID に従ってクラスタ化され、次に高レベルのセマンティックカテゴリに従ってクラスタ化されることを示しています。

SSLトレーニングにおける暗黙的な情報圧縮

圧縮を効果的に行うことができれば、有益で有用な表現が得られます。しかし、SSL トレーニング中にこのような圧縮が発生するかどうかについては、まだあまり研究されていないトピックです。

これを理解するために、研究者らは、トレーニング中に入力とそれに対応する埋め込み表現との間の相互情報量を推定する方法である相互情報ニューラル推定 (MINE) を使用しました。このメトリックは、エンコードされる情報量 (ビット数) を表示することで、表現の複雑さのレベルを効果的に測定するために使用できます。

図 3 の中央のパネルは、5 つの異なる MINE 初期化シードにわたって計算された平均相互情報を示しています。図に示すように、トレーニングプロセスは大幅に圧縮され、非常にコンパクトなトレーニング表現が得られます。

図 3: (左) SSL トレーニング済みモデルのトレーニング中の正則化と不変性の損失と元の目標線形テストの精度。 (中央) トレーニング中の入力と表現間の相互情報量の圧縮。 (右) SSL トレーニングはクラスタリングの表現を学習します。

正則化損失の役割

目的関数は、不変性と正則化という 2 つの項で構成されます。不変性項の主な機能は、同じサンプルの異なる強化表現間の類似性を強制することです。正規化項の目的は、表現の崩壊を防ぐことです。

クラスタリングプロセスにおけるこれらのコンポーネントの役割を調べるために、研究者は目的関数を不変性項と正則化項に分解し、トレーニング中のそれらの動作を観察しました。比較結果は図 3 (左) に示されており、元のセマンティックターゲットにおける損失項の変化と線形テストの精度を示しています。一般に信じられていることとは反対に、不変性損失項はトレーニング中に大幅に改善されることはありません。代わりに、正規化損失を削減することによって損失 (および下流の意味精度) の改善が達成されます。

このことから、SSL のトレーニングプロセスの大部分は、サンプルレベルでの分類精度とクラスタリングではなく、学習した表現の意味精度とクラスタリングを向上させることであると結論付けることができます。

本質的に、ここでの調査結果は、自己教師あり学習の当面の目標はサンプルレベルの分類であるものの、トレーニング時間の大部分はさまざまなレベルの意味カテゴリに基づくデータのクラスタリングに費やされていることを示唆しています。この観察は、SSL メソッドがクラスタリングを通じて意味的に意味のある表現を生成できることを示唆しており、これにより、その基礎となるメカニズムについての洞察も得られます。

教師あり学習と SSL クラスタリングの比較

ディープネットワーク分類器は、多くの場合、トレーニングサンプルをカテゴリに基づいて重心にクラスタ化します。ただし、学習した関数が実際にクラスター化される場合、このプロパティはテストサンプルに対して依然として有効である必要があります。これは期待される効果ですが、効果はわずかに悪くなります。

ここで興味深い質問があります。教師あり学習クラスタリングと比較して、SSL はサンプルの意味カテゴリに基づいてクラスタリングをどの程度実行できるのでしょうか。図 3 の右側のパネルは、さまざまなシナリオ (強化された教師あり学習と SSL の有無) でのトレーニング終了時の NCC トレーニングとテストの精度の比率を示しています。

教師あり分類器の NCC トレーニング精度は 1.0 であり、SSL トレーニングモデルの NCC トレーニング精度よりも大幅に高くなっていますが、SSL モデルの NCC テスト精度は教師ありモデルの精度よりもわずかに高くなっています。これは、意味カテゴリに応じた 2 つのモデルのクラスタリング動作がある程度類似していることを示しています。興味深いことに、拡張サンプルを使用して教師ありモデルをトレーニングすると、NCC トレーニングの精度はわずかに低下しますが、NCC テストの精度は大幅に向上します。

意味カテゴリー学習とランダム性の影響を探る

意味カテゴリは、入力の固有のパターンに基づいて、入力とターゲットの関係を定義します。一方、入力をランダムなターゲットにマッピングすると、識別可能なパターンがなくなり、入力とターゲット間の接続が恣意的になります。

研究者らはまた、モデルが望ましい目的をどれだけよく学習するかに対するランダム性の影響を調査した。これを実現するために、研究者らはランダム性の度合いが異なる一連のターゲットシステムを構築し、学習した表現に対するランダム性の影響を調べました。彼らは、分類に使用したのと同じデータセットでニューラルネットワーク分類器をトレーニングし、異なるエポックでのターゲット予測を、ランダム性の度合いが異なるターゲットとして使用しました。エポック 0 では、ネットワークは完全にランダムであり、決定論的だが一見任意のラベルを取得します。トレーニングが進むにつれて、その関数のランダム性は低下し、最終的には真のターゲット（完全に非ランダムであると見なすことができる）と一致するターゲットが生成されます。ここで、ランダム性は 0 (トレーニング終了時にまったくランダムではない) から 1 (初期化時に完全にランダム) の間に正規化されます。

図 4 の左側のグラフは、さまざまなランダム性ターゲットの線形テスト精度を示しています。各線は、ランダム性の度合いが異なるさまざまなトレーニング段階での SSL の精度に対応します。トレーニング中、モデルは「セマンティック」ターゲット（ランダム性が低い）に近いカテゴリをより効率的にキャプチャしますが、ランダム性が高いターゲットではパフォーマンスが大幅に向上していないことがわかります。

図4: SSLはランダムターゲットではなくセマンティックターゲットを継続的に学習します

ディープラーニングにおける重要な課題は、さまざまな種類のカテゴリを分類する際の中間層の役割と影響を理解することです。たとえば、異なるレイヤーは異なるタイプのカテゴリを学習しますか?研究者らはまた、トレーニング終了時に異なるターゲットランダム性で異なるレイヤーの表現の線形テスト精度を評価することによってこの問題を調査しました。図 4 の中央のグラフに示すように、ランダム性が減少するにつれて線形テストの精度は向上し続け、より深いレイヤーではすべてのカテゴリタイプでパフォーマンスが向上しますが、セマンティックカテゴリに近いカテゴリではパフォーマンスギャップが大きくなります。

研究者らは、クラスタリング品質を評価するために、NCC 精度、CDNV、クラスごとの平均分散、クラス平均間の平均二乗距離など、他のいくつかの指標も使用しました。トレーニングによって表現がどのように改善されるかを測定するために、セマンティックターゲットとランダムターゲットのこれらのメトリックの比率を計算しました。図 4 (右) はこれらの比率を示しており、表現がランダムターゲットよりもセマンティックターゲットに基づいてデータをクラスタ化する可能性が高いことを示しています。興味深いことに、CDNV (分散を距離の二乗で割った値) は、距離の二乗の減少によって単純に減少することがわかります。トレーニング中、分散比はかなり安定しています。これにより、クラスター間の間隔が広くなり、パフォーマンスが向上することが示されています。

カテゴリ階層と中間層の理解

これまでの研究では、教師あり学習では中間層がさまざまな抽象化レベルで特徴を徐々に捉えていくことが示されています。最初のレイヤーでは低レベルの機能が優先される傾向があり、より深いレイヤーではより抽象的な機能がキャプチャされます。次に、研究者らは、SSL ネットワークがより高レベルの階層属性を学習できるかどうか、またどのレベルがこれらの属性とよりよく関連しているかを調査しました。

実験では、サンプルレベル、元の 100 カテゴリ、および 20 のスーパーカテゴリの 3 つのレベルで線形テストの精度を計算しました。図 2 の右側のパネルには、これら 3 つの異なるカテゴリセットに対して計算された量が表示されます。トレーニングプロセス中に、元のカテゴリレベルとスーパーカテゴリレベルでのパフォーマンスが、サンプルレベルのカテゴリよりも大幅に向上することがわかります。

次は、SSL トレーニング済みモデルの中間層の動作と、さまざまなレベルでオブジェクトをキャプチャする機能です。図 5. 左と中央のグラフは、元のターゲットとスーパーターゲットの両方が測定された、さまざまなトレーニングステージでのすべての中間層の線形テスト精度を示しています。図 5 の右側のグラフは、スーパークラスと元のクラスの比率を示しています。

図5: SSLは中間層全体で意味カテゴリを効果的に学習できる

研究者たちはこれらの結果に基づいていくつかの結論を導き出した。まず、レイヤーが深くなるにつれてクラスタリング効果が向上し続けることがわかります。さらに、研究者らは、教師あり学習の場合と同様に、SSL トレーニング中にネットワークの各層の線形精度が向上することを発見しました。注目すべきことに、元のクラスの場合、最終レイヤーは最適なレイヤーではなかったことがわかりました。最近の SSL 研究では、ダウンストリームタスクがさまざまなアルゴリズムのパフォーマンスに大きな影響を与える可能性があることが示されています。私たちの研究はこの観察を拡張し、ネットワークのさまざまな部分がさまざまな下流タスクやタスクレベルに適している可能性があることを示しています。図5の右図によれば、ネットワークのより深い層では、スーパーカテゴリの精度が元のカテゴリの精度よりも向上していることがわかります。

<<: 小型モデルの意見も参考になります！ GPT-4+AutoGPTオンライン意思決定：物を買うときにもう心配はいりません

>>: 360、認知汎用大型モデル「360 Brain 4.0」をリリース、360ファミリーバケットに完全統合