TransformerがCNNバックボーンネットワークを活性化、HKUとTencentの視覚的自己教師あり表現学習CARE

自己教師あり表現学習は、過去 2 年間で非常に人気が高まっています。機械学習分野のリーダーであるジェフロワ・ヒントン、ヤン・ルカン、ヨシュア・ベンジオの 3 人は、自己教師あり学習によって AI が人間のような推論能力を開発できるようになると期待されていることに同意しています。ヒントンとルカンは、過去 2 年間に ICML/NeurIPS で自己教師あり表現学習に関する研究成果も発表しています。

機械学習のトップカンファレンスで自己教師あり表現学習に関する論文を発表することは、私たちが Hinton 氏や Lecun 氏と同じ道を歩んでいることを意味すると言えます。今年の NeurIPS 2021 で、Lecun 氏は、自分ともう一人の CV マスター Jean Ponce 氏の自己教師あり学習の提出物 VICReg が拒否されたとツイートしたばかりですが、これは機械学習の分野における自己教師あり学習の競争がいかに熾烈であるかを示しています。一方、最近人気のTransformerは、コンピュータービジョンアルゴリズムに包括的なアップグレードをもたらしました。では、Transformer を自己教師あり表現学習と組み合わせると、どのような成果が得られるのでしょうか?

香港大学、テンセント AI ラボ、オックスフォード大学の学者が NeurIPS 2021 で発表した記事が、刺激的な答えを提供します。

この研究は、既存の自己教師あり表現学習アーキテクチャ BYOL に着想を得て、最先端の Transformer と組み合わせ、Transformer を使用して CNN 注意を向上させる自己教師あり表現学習アルゴリズムを提案しました。本稿では、既存のアーキテクチャを C-stream として分類し、T-stream を提案します。 CNN バックボーンネットワークの出力は、T ストリームに並列に接続されます。 Transformer を T ストリームに配置することで CNN 出力の注目度が向上し、この結果を使用して CNN 自体の出力を監視することで、CNN バックボーンネットワークの注目度を向上させる効果が得られます。既存の標準データセットでは、さまざまな下流認識タスクにおける CNN バックボーンネットワークのパフォーマンスがさらに向上しました。

論文アドレス: https://arxiv.org/pdf/2110.05340.pdf
Githubアドレス: https://github.com/ChongjianGE/CARE

背景と意味:自己教師あり表現学習とサンプル比較

画像コンテンツに基づく自己教師あり表現学習の目標は、汎用的な視覚特徴エンコーダーバックボーンをトレーニングすることです。ニューラルネットワークアーキテクチャ (VGG、ResNet など) があれば、データ注釈への依存をなくして自己教師ありプロセスを構築し、初期化トレーニング (事前テキストトレーニング) を最初から実行できます。トレーニングされたネットワークは、ImageNet 注釈付きデータを使用した事前トレーニングの結果に類似していると見なされ、その後、画像分類、オブジェクト検出、セグメンテーションなどの一連の下流認識タスク (下流の微調整) に移行されます。データラベルは初期トレーニングでは制約として使用されないため、事前トレーニング済みのネットワーク表現は特定の下流の認識タスクを対象としておらず、したがって普遍的な視覚表現機能を備えています。その潜在的な応用は、膨大な量のインターネットデータを活用し、適応学習ニューラルネットワークに依存する手動でラベル付けされた視覚表現機能を排除し、それによってさまざまな下流の認識タスクから利益を得ることにあります。自己教師あり学習は、下流の認識タスクにおける教師あり学習に匹敵します。

自己教師あり表現学習の研究では、対照学習が一般的に使用される方法です。ラベル付けされていないデータのバッチが与えられた場合、現在のデータは正のサンプルとして取得され、残りのデータは負のサンプルになります。このように、対照学習では、正と負のサンプルとその拡張データを構築して損失関数を決定し、ネットワークをトレーニングします。入力データの 1 つは 2 つのネットワークを通過し、その後のサンプル比較のために 2 つの異なるビューを形成します。膨大なデータを処理する過程で、データからサンプルを効果的に構築し、モデルの崩壊を防ぐことが注目される研究方向となっています。 MoCo[a]のキュー設計とネットワーク運動量更新から始まり、一連の研究が生まれました。以下に代表的な研究をいくつか挙げます。簡潔にするため、アルゴリズムフレームワーク図ではプロジェクターは描かれていません。

シムCLR

上図は、Hinton チームの SimCLR[b] アルゴリズムフレームワークを示しています。大規模なバッチ設計を採用し、キューストレージへの依存を排除し、正のサンプルと負のサンプルを直接比較して損失を構築し、ネットワークを更新します。

持ち込み

上の図は、DeepMind チームの BYOL[c] アルゴリズムフレームワークを示しています。このフレームワークでは、現在のサンプルを使用して、比較のために独自の複数のデータ拡張を実行します。同時に、ネットワーク上の上流および下流のタスクの影響を取り除くためにプロジェクターが導入されています。ネットワークを更新する際には、モデルの崩壊を防ぐために運動量更新も使用されます。

モコV3

上の写真はKaiming He氏のチームのMoCo V3[d]です。これは学習エンコーダーのバックボーンとしてTransformerを使用し、サンプル比較学習に既存の自己教師学習フレームワークを利用しています。これは、ビジョントランスフォーマー（ViT[e]）をエンコーダーとして自己教師学習に導入した研究の1つでもあります。

方法

MoCo V3 の出発点とは異なり、この論文では、トランスフォーマーの自己注意メカニズムを使用して CNN エンコーダーのパフォーマンスを向上させることを目的としています。本来のCNNフレームワークはCストリームに分類され、その後Transformerを組み込んだTストリームが提案されています。両方のストリームは CNN エンコーダーの出力を同時に受信し、T ストリームが C ストリームを監視します。共分散行列を使用して2つのビューの冗長性を測定するYann LecunチームのBarlow Twins[f]と比較して、この論文では、さまざまなネットワークトレーニング状態で注意支援を適応的に提供できる学習可能なトランスフォーマーを導入し、CNNエンコーダーの視覚表現能力をより効果的に向上させます。

私たちの方法: CARE (CNN Attention REvitalization)

提案されたパイプライン

本論文で提案したアルゴリズムのフローチャートを上に示します。まず、入力画像 x を 2 回前処理して、2 つの正のサンプル x_1 と x_2 を取得します。次に、C-stream の 2 つの CNN エンコーダーを使用して、それぞれ x_1 と x_2 の特徴を抽出します。1 つの CNN によって抽出された特徴は、マッパー projector1 と予測子 predictor1 に入力され、高次元の特徴 f_1(x) を取得します。一方、もう 1 つの CNN によって抽出された特徴は、モメンタム更新マッパー (momentum projector1) にのみ入力され、高次元の特徴 f_2(x) を取得します。さらに、デュアルパス CNN によって抽出された 2 セットの特徴も同時に T ストリームに入力されます。 1つのパスのTransformer1は空間的注意で特徴を抽出し、この特徴をマッパーprojector2と予測子predictor2に入力して高次元の特徴f_3(x)を取得します。もう1つの運動量更新TransformerもCNNの特徴を抽出し、運動量更新マッパーMomentum Projector2に入力して高次元の特徴f_4(x)を取得します。

この時点で、アルゴリズムフレームワークのフォワードプロセスが設計されました。続いて、f_1(x)、f_2(x)、f_3(x)、f_4(x)のターゲット損失関数を設計してバックプロパゲーション学習を実行します。バックプロパゲーションプロセス中、このアルゴリズムは C ストリームと T ストリームのいずれか 1 つだけを更新し、他の対応するストリームは運動量更新によって更新されます。具体的な形式については後ほど紹介します。

ネットワークアーキテクチャ設計: このアルゴリズムは、自己教師学習フレームワークを構築し、カスタマイズされた補助タスクを使用して、画像の特徴を効果的に抽出できる CNN エンコーダーを学習することを目的としています。このアルゴリズムはどの CNN エンコーダーにも適用できるため、CNN エンコーダーの選択において優れた柔軟性を備えています。たとえば、ResNet50、ResNet101、ResNet152 はすべて、このアルゴリズムの CNN エンコーダーとして使用できます。 Transformer の構造を下図に示します。

変圧器構造図

Transformer は CNN エンコーダーの出力を入力として受け取り、より空間的に焦点を絞った特徴 f_1(x)、f_2(x)、f_3(x)、f_4(x) を出力します。このアルゴリズム用に設計されたトランスフォーマーには、主に 4 つのシリアルモジュールが含まれており、そのうちの 1 つのモジュールが上の図に示されています。単一のモジュールは、主に1x1畳み込み層、マルチヘッド自己注意層（MHSA）[g]、および追加の1x1畳み込み層で構成されます。 MHSA レイヤーは、空間フォーカス特性を持つ特徴を適切に学習できます。また、プロジェクターと予測器の主な構造は多層パーセプトロンです。どちらにも、2 つの完全接続レイヤー、アクティベーションレイヤー、およびバッチ正規化レイヤーが含まれています。

この論文で設計された損失関数は、プロセスフレームワークの 4 つの出力 f_1(x)、f_2(x)、f_3(x)、f_4(x) に基づいています。この記事では

Cストリームの損失項を表し、

T ストリームの損失項を表します。具体的な形式は以下のとおりです。

さらに、本論文では、T-stream の出力を使用して C-stream の出力を監視します。この制約は

具体的な形式は以下のとおりです。

この制約は、自己教師学習において、C-stream の出力が T-stream の出力に可能な限り類似する必要があることを規定しています。したがって、最終的な全体的な損失関数は次のように表すことができます。

このアルゴリズムは、全体的な損失を計算した後、勾配を逆伝播して、C ストリームと T ストリームの上部ブランチを更新するだけです。下位ブランチは主に運動量更新によってパラメータを更新します。いわゆるモメンタム更新とは、主に、現在の C-Stream および T-Stream 上流ブランチのパラメータと、以前の瞬間のパラメータ情報を使用して、下流ブランチのネットワークパラメータをモメンタム更新することを指します。ネットワークのトレーニングが完了すると、CNN エンコーダー 1 のみがターゲットエンコーダーとして保持されます。エンコーダーは、下流の認識タスクのバックボーンネットワークとして使用されます。

視覚分析: CNN エンコーダーの注目表示

本論文では、自己教師あり学習が完了した後、CNN エンコーダーの特徴応答を視覚化し、学習後のエンコーダーの視覚コンテンツへの注目の変化を観察します。この論文では、同じエンコーダーに対して 2 つの自己監督戦略を使用します。1 つはトレーニングに C ストリーム構造のみを使用する戦略であり、もう 1 つはトレーニングに構造全体を使用する戦略です。この記事では、次の図に示すように、これら 2 つのトレーニング戦略で同じエンコーダーを視覚化します。

CNNエンコーダの注目度の可視化

図からわかるように、1行目は入力画像、2行目は単純にCストリーム構造を使用してトレーニングされたエンコーダのアテンション、3行目は本論文で提案されたCARE構造を使用してトレーニングされたエンコーダのアテンションです。画像上の注意の分布と強度を観察すると、本論文で提案されたCAREアルゴリズムによってトレーニングされたエンコーダーは、画像内のオブジェクトに対してより敏感であり、より多くの注意を払っていることがわかります。

実験結果

本論文では、実験を通じて、提案されたアルゴリズムの有効性をさまざまな側面から検証します。これには、線形分類問題における上流のトレーニング済みモデルのパフォーマンス、半教師ありデータにおけるその効果、下流のオブジェクト検出およびセグメンテーションタスクにおけるそのパフォーマンスが含まれます。バックボーンネットワークモデルの選択に関しては、本稿ではCNNで一般的に使用されているResNetシリーズモデルをトレーニングに選択しています。比較モデルは、ResNet シリーズと Transformer 構造です。検証方法は、異なる自己教師学習アルゴリズムを使用して、複数のモデルで異なるトレーニング段階のさまざまなタスクのパフォーマンス検証を実行することです。この記事のアルゴリズムのトレーニングプロセスでは、8 枚の V100 カードの計算能力を使用してモデルトレーニングの収束を達成できます。これは、現在の大規模な計算集約型の視覚的自己教師表現学習タスクにとって、比較的計算しやすいものです。

線形分類の上流タスクの比較。 ResNet-50 をバックボーンネットワークとして固定し、さまざまな自己教師学習アルゴリズムをトレーニングして、さまざまなトレーニング段階で線形分類効果を実証します。下図に示すように、本論文で提案するCARE（CNN注意活性化）法は優れた性能を発揮します。

さらに、この論文では、次の図に示すように、異なるバックボーンネットワークと ResNet の異なるトレーニングステージにおける BYOL 方式のパフォーマンスも比較しています。この論文の CARE メソッドは、さまざまなバックボーンネットワークでより優れたパフォーマンスを発揮します。

上記は、同じバックボーンネットワークと異なる学習アルゴリズムの比較です。この記事では、Transformer バックボーンネットワークと既存の学習アルゴリズムも比較します。効果は下の図に示されています。Transformer 構造と比較すると、この記事では ResNet ネットワークを使用しており、同様のパラメータでより良い結果が得られています。

さらなる実験的比較と CARE アルゴリズムのアブレーション研究については、記事の実験セクションを参照してください。

要約する

要約すると、本論文では、Transformer 構造を使用して CNN ネットワークのトレーニングを支援する視覚的な自己教師あり表現学習フレームワークを提案します。その主な貢献は、ネットワーク構造の特性（つまり、Transformer の注目度を高める特性）を利用して、トレーニング中にターゲットネットワーク（つまり、CNN バックボーンネットワーク）を監視し、ネットワーク特性を転送してターゲットネットワークのパフォーマンスを向上させることです。さまざまな視覚認識タスクでも十分に検証されています。この論文のフレームワークは、自己教師あり表現学習に強い影響を与えます。既存のネットワーク構造には、さまざまな設計と機能があります。これらのネットワークの固有の特性を利用して 1 つのネットワークに統合し、シームレスな統合という目標を達成する方法も、その後の自己教師あり表現学習で探求できる重要な方向性です。

<<: マルチラベル分類とは何ですか?ここにいくつかの実用的な古典的な方法があります

>>: HuggingFace は、大規模モデルの製造パフォーマンスを効率的にリリースするための Transformer 拡張および最適化ライブラリをオープンソース化しました。