自己教師学習はコンピューター ビジョンで広く使用されており、手動で注釈を付けることなく入力データの効果的な表現を学習できます。 ジョイント埋め込み法に基づく自己教師あり視覚表現学習に関する現在の研究の進歩は、自己教師あり学習によって得られる表現パフォーマンスが教師あり表現のそれとそれほど変わらないことを示しています。これらの方法の目標は通常、異なるレベルの歪みにおける同じ画像の埋め込みベクトル間の一貫性を最大化することにより、データ拡張に対して不変な表現を学習することです。 しかし、自己教師ありモデルには、すべての入力が同じ定数ベクトルにマッピングされるという崩壊問題があります。そのため、研究者はこの問題を解決するためにさまざまな方法を提案してきました。これらの方法は、異なるメカニズムに依存しています。これらの方法は、すべての表現ベクトルが単一の点に縮小される完全な崩壊をうまく防ぎますが、非対照学習法では、埋め込みベクトルが完全に崩壊しないものの、特定の次元に沿って崩壊し (次元崩壊)、埋め込みベクトルがより低次元のサブスペースでのみ有効になることが観察されます。 直感的には、この崩壊問題は対照学習では発生しないはずです。対照学習法では、損失関数で正の例と負の例を明示的に使用し、すべての次元を使用して負の例の反発効果を推測し、この次元の崩壊を防ぐことができるためです。しかし、直感に反して、対照学習法では依然として次元崩壊の問題が残ります。 この現象の原因については意見の一致がありません。Facebook の LeCun 氏と Tian Yuandong 博士は最近、この現象の原因を理論的に研究した論文を発表しました。 Yuandong Tian 博士は、Facebook 人工知能研究所の研究者兼研究マネージャーです。上海交通大学でコンピューターサイエンスの学士号と修士号を取得し、2013 年にカーネギーメロン大学でロボット工学の博士号を取得しました。深層強化学習、表現学習、最適化に取り組んでいます。 論文の中で研究者らは、崩壊を引き起こす可能性のある2つの異なるメカニズムがあることを発見した。 1. 特徴方向に沿って、データの増加によって生じる分散がデータ分布によって生じる分散よりも大きい場合、重みは崩れます。 2. データ拡張の共分散がすべての次元のデータ分散よりも小さい場合でも、異なるレベルの重み行列の相互作用により、重みは依然として崩壊します (暗黙の正則化)。この崩壊は、複数の層を持つネットワークでのみ発生します。 この理論に触発されて、この記事では、トレーニング可能な投影に依存せずにエンコーダー (つまり、表現空間) を直接最適化する新しい対照学習方法 DirectCLR を提案しています。DirectCLR は ImageNet 上で線形トレーニング可能な投影を備えており、SimCLR よりも優れたパフォーマンスを発揮します。 経験的に、プロジェクターを追加すると、学習した表現と下流の表現のパフォーマンスが大幅に向上します。表現層のスペクトルを調べると、プロジェクターの有無の違いも明らかになります。研究者らは、プロジェクターありとプロジェクターなしの 2 つの SimCLR モデルをトレーニングしました。プロジェクターなしでモデルをトレーニングすると、SimCLR は表現空間で次元の崩壊に悩まされました。 対照学習におけるプロジェクターは、表現空間における次元の崩壊を防ぐために重要です。この理論に基づいて、研究者は次のことを提案しました。
著者らは、表現ベクトルのサブベクトルを損失関数に直接送信することで、対照学習におけるプロジェクターを削除することを提案しています。この操作は DirectCLR とも呼ばれます。最近のすべての自己教師学習法とは対照的に、このアプローチは表現空間を直接最適化することができます。 次に研究者らは、ResNet50 バックボーン エンコーディング ネットワークを使用して、ImageNet 上の DirectCLR 用の標準 Sim-CLR を 100 エポックにわたってトレーニングしました。 DirectCLR は、ImageNet でトレーニング可能な線形プロジェクターを使用すると、SimCLR よりも優れたパフォーマンスを示します。 DirectCLR は、表現空間における次元の崩壊を防ぐために、SimCLR のトレーニング可能なプロジェクターと同様の機能を実装することもできます。 DirectCLR のコントラスト損失では、表現ベクトル r[d0:] の残りの部分に勾配が適用されないと思われるかもしれませんが、実際には表現ベクトル r 全体がトレーニングされ、有用な情報が含まれています。表現ベクトルの残りは、残差接続を介して最後の残差ブロックの前のレイヤーからコピーされます。表現のこの部分は損失関数からの勾配を直接経験しませんが、畳み込みブロックを通る勾配によって更新され、残差接続は最後の畳み込みブロックのフルランク勾配を通過します。 研究者らは、3つのアブレーション実験も実施した。
論文が正常に再現できることを保証するために、各補題と定理の詳細な証明、コード、およびパラメータが論文の付録に提供されています。 |
<<: AIは依然として人気、テクノロジー企業の人材育成の道筋を見てみよう
>>: Ruilai Wisdom、安全なAIインフラの構築に注力するためシリーズAで3億人民元超の資金調達を完了
安価な高速インターネット、安全なクラウド ストレージ、モバイル ソリューション、低コストのデバイスの...
海外メディアによると、イスラエルのテルアビブ大学の研究者らは最近、画像生成システムStyleGANを...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
協働ロボットは従来のロボットとどう違うのでしょうか? [[418520]]本質的には、協働ロボットと...
ヘルスケア業界とそのサービス技術が急速に発展するにつれて、大量のデータと情報が生成されます。統計レポ...
春が来たが、インターネットの寒い冬の影はまだ消えていない。年初から人員削減、外部採用の中止、採用削減...
ChatGPT を楽しみや機能のために使用する個人から、タスクの自動化に人工知能 (AI) を適用...
昨年末、Google Geminiが業界に衝撃を与えた。これはGoogleの「最大、最も有能、最も多...
生成型人工知能 (AIGC) は、ソフトウェア開発者の生産性を向上させる大きな可能性を秘めています。...