対照学習も次元の崩壊を引き起こすのでしょうか? LeCunとTian Yuandongのチームの新しい研究DirectCLRは、

対照学習も次元の崩壊を引き起こすのでしょうか? LeCunとTian Yuandongのチームの新しい研究DirectCLRは、

[[431792]]

自己教師学習はコンピューター ビジョンで広く使用されており、手動で注釈を付けることなく入力データの効果的な表現を学習できます。

ジョイント埋め込み法に基づく自己教師あり視覚表現学習に関する現在の研究の進歩は、自己教師あり学習によって得られる表現パフォーマンスが教師あり表現のそれとそれほど変わらないことを示しています。これらの方法の目標は通常、異なるレベルの歪みにおける同じ画像の埋め込みベクトル間の一貫性を最大化することにより、データ拡張に対して不変な表現を学習することです。

しかし、自己教師ありモデルには、すべての入力が同じ定数ベクトルにマッピングされるという崩壊問題があります。そのため、研究者はこの問題を解決するためにさまざまな方法を提案してきました。これらの方法は、異なるメカニズムに依存しています。これらの方法は、すべての表現ベクトルが単一の点に縮小される完全な崩壊をうまく防ぎますが、非対照学習法では、埋め込みベクトルが完全に崩壊しないものの、特定の次元に沿って崩壊し (次元崩壊)、埋め込みベクトルがより低次元のサブスペースでのみ有効になることが観察されます。

直感的には、この崩壊問題は対照学習では発生しないはずです。対照学習法では、損失関数で正の例と負の例を明示的に使用し、すべての次元を使用して負の例の反発効果を推測し、この次元の崩壊を防ぐことができるためです。しかし、直感に反して、対照学習法では依然として次元崩壊の問題が残ります。

この現象の原因については意見の一致がありません。Facebook の LeCun 氏と Tian Yuandong 博士は最近、この現象の原因を理論的に研究した論文を発表しました。

Yuandong Tian 博士は、Facebook 人工知能研究所の研究者兼研究マネージャーです。上海交通大学でコンピューターサイエンスの学士号と修士号を取得し、2013 年にカーネギーメロン大学でロボット工学の博士号を取得しました。深層強化学習、表現学習、最適化に取り組んでいます。

[[431793]]

論文の中で研究者らは、崩壊を引き起こす可能性のある2つの異なるメカニズムがあることを発見した。

1. 特徴方向に沿って、データの増加によって生じる分散がデータ分布によって生じる分散よりも大きい場合、重みは崩れます。

2. データ拡張の共分散がすべての次元のデータ分散よりも小さい場合でも、異なるレベルの重み行列の相互作用により、重みは依然として崩壊します (暗黙の正則化)。この崩壊は、複数の層を持つネットワークでのみ発生します。

この理論に触発されて、この記事では、トレーニング可能な投影に依存せずにエンコーダー (つまり、表現空間) を直接最適化する新しい対照学習方法 DirectCLR を提案しています。DirectCLR は ImageNet 上で線形トレーニング可能な投影を備えており、SimCLR よりも優れたパフォーマンスを発揮します。

経験的に、プロジェクターを追加すると、学習した表現と下流の表現のパフォーマンスが大幅に向上します。表現層のスペクトルを調べると、プロジェクターの有無の違いも明らかになります。研究者らは、プロジェクターありとプロジェクターなしの 2 つの SimCLR モデルをトレーニングしました。プロジェクターなしでモデルをトレーニングすると、SimCLR は表現空間で次元の崩壊に悩まされました。

対照学習におけるプロジェクターは、表現空間における次元の崩壊を防ぐために重要です。この理論に基づいて、研究者は次のことを提案しました。

  1. 勾配により、プロジェクターの重みマトリックスがエンコーダー バックボーンの最後のレイヤーと揃うため、プロジェクターの重みマトリックスは対角線のみである必要があります。
  2. プロジェクターは表現のサブスペースにのみ勾配を適用するため、重み行列は低ランク行列で十分です。

著者らは、表現ベクトルのサブベクトルを損失関数に直接送信することで、対照学習におけるプロジェクターを削除することを提案しています。この操作は DirectCLR とも呼ばれます。最近のすべての自己教師学習法とは対照的に、このアプローチは表現空間を直接最適化することができます。

次に研究者らは、ResNet50 バックボーン エンコーディング ネットワークを使用して、ImageNet 上の DirectCLR 用の標準 Sim-CLR を 100 エポックにわたってトレーニングしました。 DirectCLR は、ImageNet でトレーニング可能な線形プロジェクターを使用すると、SimCLR よりも優れたパフォーマンスを示します。

DirectCLR は、表現空間における次元の崩壊を防ぐために、SimCLR のトレーニング可能なプロジェクターと同様の機能を実装することもできます。

DirectCLR のコントラスト損失では、表現ベクトル r[d0:] の残りの部分に勾配が適用されないと思われるかもしれませんが、実際には表現ベクトル r 全体がトレーニングされ、有用な情報が含まれています。表現ベクトルの残りは、残差接続を介して最後の残差ブロックの前のレイヤーからコピーされます。表現のこの部分は損失関数からの勾配を直接経験しませんが、畳み込みブロックを通る勾配によって更新され、残差接続は最後の畳み込みブロックのフルランク勾配を通過します。

研究者らは、3つのアブレーション実験も実施した。

  1. 固定低ランク プロジェクター: DirectCLR は、固定線形対角行列プロジェクターを備えた SimCLR に退化します。実験結果によると、固定の低ランク行列をプロジェクターとして使用すると、ImageNet でも同様のパフォーマンスを発揮し、線形プローブ精度は 62.3% に達します。この低ランク行列の特異値はd0に1、残りは0に設定されます。この行列に対応する特異ベクトルはすべてランダムに生成されます。したがって、それらの唯一の違いは、固定プロジェクターには追加の固定直交行列があることです。これは、表現空間 (または同等の前のレイヤー) がトレーニング中にこの直交行列に合わせて進化したことを示唆しています。
  2. トレーニング可能な対角プロジェクター: 研究者は、トレーニング可能なプロジェクターを使用して SimCLR モデルをトレーニングしましたが、対角値に限定しました。このモデルは、ImageNet で 60.2% の線形プローブ精度を達成しており、これは 1 層線形プロジェクターを備えた SimCLR に匹敵します。これは、プロジェクターがバックボーン内の前のレイヤーと位置合わせされるアライメント現象によっても説明できます。しかし研究者らは、モデルのパフォーマンスが 1 層の線形トレーニング可能プロジェクターを使用した SimCLR よりもわずかに劣る理由は、ランダム マトリックスの特異値が均一分布と異なるという初期化の問題にあると疑っています。
  3. サブベクトル z の線形プローブ: DirectCLR の場合、サブベクトル z に対してのみ線形プローブを実行し、ImageNet で 47.9% の精度を達成します。これは、r が損失関数から直接勾配を見ることができないにもかかわらず、残りの部分には依然として有用な情報が含まれていることを示しています。

論文が正常に再現できることを保証するために、各補題と定理の詳細な証明、コード、およびパラメータが論文の付録に提供されています。

<<:  AIは依然として人気、テクノロジー企業の人材育成の道筋を見てみよう

>>:  Ruilai Wisdom、安全なAIインフラの構築に注力するためシリーズAで3億人民元超の資金調達を完了

ブログ    
ブログ    
ブログ    

推薦する

Quark App、健康検索をアップグレードし、健康モデルアプリ「Quark Health Assistant」をリリース

12月25日、Quark Appは健康検索の全面的なアップグレードを発表し、健康大規模モデルアプリケ...

オックスフォード大学とケンブリッジ大学は「顔面を叩き」、ChatGPTの使用を許可し、段階的にチュートリアルも教えた。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Google、開発者の効率向上を支援するAIコード支援ツール「Duet AI for Developers」をリリース

IT Homeは12月14日、GoogleがAI駆動型コード補完・生成ツール「Duet AI for...

ジェネレーティブ AI がサプライ チェーンと調達の役割をどのように変革しているか

実際、生成 AI は近い将来、企業全体の販売、マーケティング、調達、サプライ チェーンにおける人間の...

顔認識技術の倫理

顔認識技術がさまざまな分野で持つ大きな可能性は、ほとんど想像できないほどです。ただし、使用する前に、...

デザイナーのための人工知能ガイド: 基本概念

Google が開発した AlphaGo が囲碁の名人に勝利したとき、シンシナティ大学の Psibe...

...

...

機械学習の仕事を探すとき、学歴はどの程度重要ですか?

[[254426]]機械学習の分野における知識とツールの主な特徴は、無料かつオープンであることです...

2021年、AIはどんな未来を迎えるのでしょうか?

人工知能は新しい時代の「電気」であると主張する人もいます。市場調査会社IDCのデータによると、AIハ...

人力資源社会保障省は、人工知能トレーナーを含む16の新しい職業を最終候補者に発表する予定である。

Chinanews.com 1月2日(李金磊)人力資源・社会保障部の承認を得て、中国就業訓練技術指...

警察が採用したボストン・ダイナミクスの犬たちは、感情のない「監視ツール」になるのだろうか?

[[384524]]ニューヨークのマンハッタン北部のアパートで男性2人が人質に取られている。その数...