自己教師学習はコンピューター ビジョンで広く使用されており、手動で注釈を付けることなく入力データの効果的な表現を学習できます。 ジョイント埋め込み法に基づく自己教師あり視覚表現学習に関する現在の研究の進歩は、自己教師あり学習によって得られる表現パフォーマンスが教師あり表現のそれとそれほど変わらないことを示しています。これらの方法の目標は通常、異なるレベルの歪みにおける同じ画像の埋め込みベクトル間の一貫性を最大化することにより、データ拡張に対して不変な表現を学習することです。 しかし、自己教師ありモデルには、すべての入力が同じ定数ベクトルにマッピングされるという崩壊問題があります。そのため、研究者はこの問題を解決するためにさまざまな方法を提案してきました。これらの方法は、異なるメカニズムに依存しています。これらの方法は、すべての表現ベクトルが単一の点に縮小される完全な崩壊をうまく防ぎますが、非対照学習法では、埋め込みベクトルが完全に崩壊しないものの、特定の次元に沿って崩壊し (次元崩壊)、埋め込みベクトルがより低次元のサブスペースでのみ有効になることが観察されます。 直感的には、この崩壊問題は対照学習では発生しないはずです。対照学習法では、損失関数で正の例と負の例を明示的に使用し、すべての次元を使用して負の例の反発効果を推測し、この次元の崩壊を防ぐことができるためです。しかし、直感に反して、対照学習法では依然として次元崩壊の問題が残ります。 この現象の原因については意見の一致がありません。Facebook の LeCun 氏と Tian Yuandong 博士は最近、この現象の原因を理論的に研究した論文を発表しました。 Yuandong Tian 博士は、Facebook 人工知能研究所の研究者兼研究マネージャーです。上海交通大学でコンピューターサイエンスの学士号と修士号を取得し、2013 年にカーネギーメロン大学でロボット工学の博士号を取得しました。深層強化学習、表現学習、最適化に取り組んでいます。 論文の中で研究者らは、崩壊を引き起こす可能性のある2つの異なるメカニズムがあることを発見した。 1. 特徴方向に沿って、データの増加によって生じる分散がデータ分布によって生じる分散よりも大きい場合、重みは崩れます。 2. データ拡張の共分散がすべての次元のデータ分散よりも小さい場合でも、異なるレベルの重み行列の相互作用により、重みは依然として崩壊します (暗黙の正則化)。この崩壊は、複数の層を持つネットワークでのみ発生します。 この理論に触発されて、この記事では、トレーニング可能な投影に依存せずにエンコーダー (つまり、表現空間) を直接最適化する新しい対照学習方法 DirectCLR を提案しています。DirectCLR は ImageNet 上で線形トレーニング可能な投影を備えており、SimCLR よりも優れたパフォーマンスを発揮します。 経験的に、プロジェクターを追加すると、学習した表現と下流の表現のパフォーマンスが大幅に向上します。表現層のスペクトルを調べると、プロジェクターの有無の違いも明らかになります。研究者らは、プロジェクターありとプロジェクターなしの 2 つの SimCLR モデルをトレーニングしました。プロジェクターなしでモデルをトレーニングすると、SimCLR は表現空間で次元の崩壊に悩まされました。 対照学習におけるプロジェクターは、表現空間における次元の崩壊を防ぐために重要です。この理論に基づいて、研究者は次のことを提案しました。
著者らは、表現ベクトルのサブベクトルを損失関数に直接送信することで、対照学習におけるプロジェクターを削除することを提案しています。この操作は DirectCLR とも呼ばれます。最近のすべての自己教師学習法とは対照的に、このアプローチは表現空間を直接最適化することができます。 次に研究者らは、ResNet50 バックボーン エンコーディング ネットワークを使用して、ImageNet 上の DirectCLR 用の標準 Sim-CLR を 100 エポックにわたってトレーニングしました。 DirectCLR は、ImageNet でトレーニング可能な線形プロジェクターを使用すると、SimCLR よりも優れたパフォーマンスを示します。 DirectCLR は、表現空間における次元の崩壊を防ぐために、SimCLR のトレーニング可能なプロジェクターと同様の機能を実装することもできます。 DirectCLR のコントラスト損失では、表現ベクトル r[d0:] の残りの部分に勾配が適用されないと思われるかもしれませんが、実際には表現ベクトル r 全体がトレーニングされ、有用な情報が含まれています。表現ベクトルの残りは、残差接続を介して最後の残差ブロックの前のレイヤーからコピーされます。表現のこの部分は損失関数からの勾配を直接経験しませんが、畳み込みブロックを通る勾配によって更新され、残差接続は最後の畳み込みブロックのフルランク勾配を通過します。 研究者らは、3つのアブレーション実験も実施した。
論文が正常に再現できることを保証するために、各補題と定理の詳細な証明、コード、およびパラメータが論文の付録に提供されています。 |
<<: AIは依然として人気、テクノロジー企業の人材育成の道筋を見てみよう
>>: Ruilai Wisdom、安全なAIインフラの構築に注力するためシリーズAで3億人民元超の資金調達を完了
著者: Qianshan校正:ウー・ムーテクノロジーの進歩により、AIは大きな発展の可能性を示してい...
「決して単純な切り抜きではありません。」 ControlNet の著者による最近の研究は大きな注目を...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
DevOps は、コードの品質を損なうことなく、ソフトウェア開発プロセスを加速し、顧客に価値をより...
11月4日、北京青年報などのメディアの報道によると、国内初となる省レベルのヒューマノイドロボットイ...
写真しかない場合、どのようにして人物のリアルなデジタルアバターを作成するのでしょうか? 2020年の...
人工知能が徐々に社会経済の発展を促進する新たな原動力となるにつれ、あらゆる階層の人々が産業知能のアッ...
2019年の人工知能の給与水準、まずは全体の給与水準の2つの分析グラフを見てみましょう! ***は...
GPT-4 は素晴らしいと大いに宣伝されており、視覚機能を備えた GPT-4 のバージョンである G...
フランスのリヨンに住む麻痺した男性、ティボーさんは、頭部に埋め込まれた2つのセンサーを頼りに、歩行を...
顔認識は、効率、利便性、正確性、非接触という特徴により、セキュリティ、支払い、交通、オフィスなどのシ...
信じられますか?人工知能は最近、あなたの声からわずか6秒で性別、年齢、人種を判別し、さらにはあなたの...
まとめ: EdgeBoard は Baidu が開発した FPGA ベースの組み込み AI ソリュー...