対照学習も次元の崩壊を引き起こすのでしょうか? LeCunとTian Yuandongのチームの新しい研究DirectCLRは、

[[431792]]

自己教師学習はコンピュータービジョンで広く使用されており、手動で注釈を付けることなく入力データの効果的な表現を学習できます。

ジョイント埋め込み法に基づく自己教師あり視覚表現学習に関する現在の研究の進歩は、自己教師あり学習によって得られる表現パフォーマンスが教師あり表現のそれとそれほど変わらないことを示しています。これらの方法の目標は通常、異なるレベルの歪みにおける同じ画像の埋め込みベクトル間の一貫性を最大化することにより、データ拡張に対して不変な表現を学習することです。

しかし、自己教師ありモデルには、すべての入力が同じ定数ベクトルにマッピングされるという崩壊問題があります。そのため、研究者はこの問題を解決するためにさまざまな方法を提案してきました。これらの方法は、異なるメカニズムに依存しています。これらの方法は、すべての表現ベクトルが単一の点に縮小される完全な崩壊をうまく防ぎますが、非対照学習法では、埋め込みベクトルが完全に崩壊しないものの、特定の次元に沿って崩壊し (次元崩壊)、埋め込みベクトルがより低次元のサブスペースでのみ有効になることが観察されます。

直感的には、この崩壊問題は対照学習では発生しないはずです。対照学習法では、損失関数で正の例と負の例を明示的に使用し、すべての次元を使用して負の例の反発効果を推測し、この次元の崩壊を防ぐことができるためです。しかし、直感に反して、対照学習法では依然として次元崩壊の問題が残ります。

この現象の原因については意見の一致がありません。Facebook の LeCun 氏と Tian Yuandong 博士は最近、この現象の原因を理論的に研究した論文を発表しました。

Yuandong Tian 博士は、Facebook 人工知能研究所の研究者兼研究マネージャーです。上海交通大学でコンピューターサイエンスの学士号と修士号を取得し、2013 年にカーネギーメロン大学でロボット工学の博士号を取得しました。深層強化学習、表現学習、最適化に取り組んでいます。

論文の中で研究者らは、崩壊を引き起こす可能性のある2つの異なるメカニズムがあることを発見した。

1. 特徴方向に沿って、データの増加によって生じる分散がデータ分布によって生じる分散よりも大きい場合、重みは崩れます。

2. データ拡張の共分散がすべての次元のデータ分散よりも小さい場合でも、異なるレベルの重み行列の相互作用により、重みは依然として崩壊します (暗黙の正則化)。この崩壊は、複数の層を持つネットワークでのみ発生します。

この理論に触発されて、この記事では、トレーニング可能な投影に依存せずにエンコーダー (つまり、表現空間) を直接最適化する新しい対照学習方法 DirectCLR を提案しています。DirectCLR は ImageNet 上で線形トレーニング可能な投影を備えており、SimCLR よりも優れたパフォーマンスを発揮します。

経験的に、プロジェクターを追加すると、学習した表現と下流の表現のパフォーマンスが大幅に向上します。表現層のスペクトルを調べると、プロジェクターの有無の違いも明らかになります。研究者らは、プロジェクターありとプロジェクターなしの 2 つの SimCLR モデルをトレーニングしました。プロジェクターなしでモデルをトレーニングすると、SimCLR は表現空間で次元の崩壊に悩まされました。

対照学習におけるプロジェクターは、表現空間における次元の崩壊を防ぐために重要です。この理論に基づいて、研究者は次のことを提案しました。

勾配により、プロジェクターの重みマトリックスがエンコーダーバックボーンの最後のレイヤーと揃うため、プロジェクターの重みマトリックスは対角線のみである必要があります。
プロジェクターは表現のサブスペースにのみ勾配を適用するため、重み行列は低ランク行列で十分です。

著者らは、表現ベクトルのサブベクトルを損失関数に直接送信することで、対照学習におけるプロジェクターを削除することを提案しています。この操作は DirectCLR とも呼ばれます。最近のすべての自己教師学習法とは対照的に、このアプローチは表現空間を直接最適化することができます。

次に研究者らは、ResNet50 バックボーンエンコーディングネットワークを使用して、ImageNet 上の DirectCLR 用の標準 Sim-CLR を 100 エポックにわたってトレーニングしました。 DirectCLR は、ImageNet でトレーニング可能な線形プロジェクターを使用すると、SimCLR よりも優れたパフォーマンスを示します。

DirectCLR は、表現空間における次元の崩壊を防ぐために、SimCLR のトレーニング可能なプロジェクターと同様の機能を実装することもできます。

DirectCLR のコントラスト損失では、表現ベクトル r[d0:] の残りの部分に勾配が適用されないと思われるかもしれませんが、実際には表現ベクトル r 全体がトレーニングされ、有用な情報が含まれています。表現ベクトルの残りは、残差接続を介して最後の残差ブロックの前のレイヤーからコピーされます。表現のこの部分は損失関数からの勾配を直接経験しませんが、畳み込みブロックを通る勾配によって更新され、残差接続は最後の畳み込みブロックのフルランク勾配を通過します。

研究者らは、3つのアブレーション実験も実施した。

固定低ランクプロジェクター: DirectCLR は、固定線形対角行列プロジェクターを備えた SimCLR に退化します。実験結果によると、固定の低ランク行列をプロジェクターとして使用すると、ImageNet でも同様のパフォーマンスを発揮し、線形プローブ精度は 62.3% に達します。この低ランク行列の特異値はd0に1、残りは0に設定されます。この行列に対応する特異ベクトルはすべてランダムに生成されます。したがって、それらの唯一の違いは、固定プロジェクターには追加の固定直交行列があることです。これは、表現空間 (または同等の前のレイヤー) がトレーニング中にこの直交行列に合わせて進化したことを示唆しています。
トレーニング可能な対角プロジェクター: 研究者は、トレーニング可能なプロジェクターを使用して SimCLR モデルをトレーニングしましたが、対角値に限定しました。このモデルは、ImageNet で 60.2% の線形プローブ精度を達成しており、これは 1 層線形プロジェクターを備えた SimCLR に匹敵します。これは、プロジェクターがバックボーン内の前のレイヤーと位置合わせされるアライメント現象によっても説明できます。しかし研究者らは、モデルのパフォーマンスが 1 層の線形トレーニング可能プロジェクターを使用した SimCLR よりもわずかに劣る理由は、ランダムマトリックスの特異値が均一分布と異なるという初期化の問題にあると疑っています。
サブベクトル z の線形プローブ: DirectCLR の場合、サブベクトル z に対してのみ線形プローブを実行し、ImageNet で 47.9% の精度を達成します。これは、r が損失関数から直接勾配を見ることができないにもかかわらず、残りの部分には依然として有用な情報が含まれていることを示しています。

論文が正常に再現できることを保証するために、各補題と定理の詳細な証明、コード、およびパラメータが論文の付録に提供されています。

<<: AIは依然として人気、テクノロジー企業の人材育成の道筋を見てみよう

>>: Ruilai Wisdom、安全なAIインフラの構築に注力するためシリーズAで3億人民元超の資金調達を完了