過去 2 年間で、コンピューター ビジョンの分野では 2 つの大きな変革が起こりました。1 つ目は、MoCo (Momentum Contrast) が先駆けて開発した自己教師あり視覚表現学習です。この学習済みモデルは、微調整後にさまざまなタスクに移行できます。2 つ目は、Transformer バックボーン アーキテクチャに基づいています。近年、自然言語処理で大きな成功を収めている Transformer は、コンピューター ビジョンの分野でも研究され、CNN から Transformer へのモデリングの移行をもたらしました。 少し前に、Microsoft Research Asia の研究者は、シフトウィンドウを通じて計算される階層型ビジュアル Swin Transformer を提案しました。これは、コンピューター ビジョンの一般的なバックボーン ネットワークとして使用できます。さまざまな回帰タスク、画像分類、オブジェクト検出、セマンティックセグメンテーションなどで非常に優れたパフォーマンスを発揮します。 最近、清華大学、西安交通大学、マイクロソフトリサーチアジアの研究者もコンピュータービジョンの分野で努力し、MoBYと呼ばれる自己教師あり学習法を提案しました。彼らは、Vision Transformersをバックボーンアーキテクチャとして使用し、MoCo v2とBYOLを組み合わせ、ImageNet-1K線形評価で非常に高い精度を達成しました。300エポックのトレーニング後、DeiT-SとSwin-Tでそれぞれ72.8%と75.0%のトップ1精度を達成しました。 DeiT をバックボーンとして使用する MoCo v3 および DINO と比較すると、パフォーマンスはわずかに優れていますが、トリックははるかに軽量です。 さらに重要なのは、Swin Transformer をバックボーン アーキテクチャとして使用すると、ImageNet-1K で線形評価結果のみを報告する最近の ViT/DeiT 手法とは対照的に、下流のタスク (オブジェクト検出やセマンティック セグメンテーションなど) で学習した表現を評価することも可能になることです。これは、ViT/DeiT がこれらの高密度予測タスクには適していないため、ImageNet-1K で線形評価結果のみを報告する最近の ViT/DeiT 手法とは対照的です。研究者たちは、この結果が、Transformer アーキテクチャ設計における自己教師学習法のより包括的な評価を促進することを期待しています。
方法の紹介自己教師学習法 MoBY は、MoCo v2 と BYOL という 2 つの一般的な自己教師学習法で構成されています。MoBY という名前は、MoCo v2 と BYOL の最初の 2 文字に由来しています。 MoBY は、MoCo v2 からモメンタム設計、キー キュー、コントラスト損失を継承します。さらに、MoBY は BYOL から非対称エンコーダー、非対称データ拡張、モメンタム スケジューラも継承します。 MoBY アーキテクチャ図を以下の図 1 に示します。 MoBY は、オンライン エンコーダーとターゲット エンコーダーの 2 つのエンコーダーで構成されています。両方のエンコーダーはバックボーンおよびプロジェクター ヘッド (2 層 MLP) で構成され、オンライン エンコーダーは追加の予測ヘッド (2 層 MLP) を導入し、2 つのエンコーダーを非対称にします。オンライン エンコーダーは勾配を使用して更新され、ターゲット エンコーダーは各トレーニング反復で運動量によって更新されるオンライン エンコーダーの移動平均です。ターゲット エンコーダーには、徐々に増加する運動量更新戦略が採用されています。トレーニング プロセス中、運動量項の値はデフォルトで開始値 0.99 に設定され、徐々に 1 まで増加します。 学習表現ではコントラスト損失を採用しています。具体的には、オンラインビューqの場合、コントラスト損失の計算式は次のようになります。 ここで、κ_+ は同じ画像の別のビューのターゲット フィーチャ、κ_i はキー キュー内のターゲット フィーチャ、τ は温度項、Κ はキー キューのサイズ (デフォルトでは 4096) です。 トレーニング中、ほとんどのTransformerベースの方法と同様に、研究者はAdamWオプティマイザーも使用しました。 MoBY 疑似コードは次のとおりです。 実験ImageNet-1K の線形評価 ImageNet-1K データセットでの線形評価は、学習された表現の品質を評価する一般的な方法です。このアプローチでは、線形分類器がバックボーンとして使用され、バックボーンの重みは固定され、線形分類器のみがトレーニングされます。線形分類器をトレーニングした後、検証セットでトップ 1 の精度を達成するためにセンター クロップを使用しました。 表 1 は、さまざまな自己教師学習方法とバックボーン ネットワーク アーキテクチャを使用した事前トレーニング済みモデルの主なパフォーマンス結果を示しています。 1. Transformerアーキテクチャを使用した他のSSLアプローチとの比較 MoCo v3 や DINO などの方法では、ViT/DeiT をバックボーン ネットワーク アーキテクチャとして使用します。この研究では、まず DeiT-S を使用した MoBY のパフォーマンス結果を示し、この研究で紹介した方法と合理的に比較します。 300 エポックのトレーニング後、MoBY は 72.8% のトップ 1 精度を達成しました。これは、MoCo v3 および DINO (マルチクロップなし) よりもわずかに優れています。結果を表 1 に示します。 2.Swin-T VS DeiT-S 研究者らは、自己教師学習におけるさまざまなTransformerアーキテクチャの使用も比較しました。表 1 に示すように、Swin-T は 75.0% のトップ 1 精度を達成しており、これは DeiT-S よりも 2.2% 高い値です。このパフォーマンス ギャップは、教師あり学習を使用する場合よりも大きい (+1.5%) ことは注目に値します。 この研究で実施された予備調査では、固定パッチ埋め込みは MoBY には役に立たないことが示されており、MLP ブロックの前のレイヤー正規化レイヤーをバッチ正規化に置き換えると、トップ 1 精度が 1.1% 向上します (トレーニング エポックは 100) (表 2 を参照)。 下流タスクへのパフォーマンスの転送研究者らは、COCO オブジェクト検出/インスタンス セグメンテーションと ADE20K セマンティック セグメンテーションの下流タスクで学習した表現の転送パフォーマンスを評価しました。 1. COCOオブジェクト検出とインスタンスセグメンテーション 評価には、Mask R-CNN と Cascade Mask R-CNN の 2 つの検出器が使用されます。表3は、1倍および3倍の設定でMoBYと事前トレーニング済みの監督方法によって学習された表現の比較結果を示しています。 2. ADE20Kセマンティックセグメンテーション 研究者らは評価にUPerNet法とADE20Kデータセットを使用しました。表 4 は、教師あり学習済みモデルと自己教師あり学習済みモデルの比較結果を示しています。これは、MoBY のパフォーマンスが教師あり学習法よりもわずかに劣ることを示しており、Transformer アーキテクチャを使用した自己教師あり学習には改善の余地があることを意味します。 アブレーション実験研究者らはさらに、Swin-T をバックボーン ネットワーク アーキテクチャとして使用し、ImageNet-1K 線形評価を使用してアブレーション実験を実施しました。 1. 非対称ドロップパスレートは有益である ドロップ パスは、画像分類タスクと Transformer アーキテクチャを使用した教師あり表現学習のための効果的な正規化方法です。研究者らは、アブレーション実験を通じてこの正規化方法の影響を調査しました。実験結果を以下の表 5 に示します。 2. その他のハイパーパラメータ 最初の一連のアブレーション実験では、1024から16384の範囲のキーキューサイズKの影響を調査しました。実験結果を表6(a)に示します。この方法は、さまざまな K (1024 から 16384) で安定して実行できますが、デフォルト値として 4096 が採用されています。 2番目のアブレーション実験では、温度τの影響を調査しました。実験結果を表6(b)に示します。 τ が 0.2 の場合に最高のパフォーマンスが得られます。これはデフォルト値でもあります。 3番目のアブレーション実験では、ターゲットエンコーダの初期運動量値の影響を調査しました。実験結果を表6(c)に示します。値 0.99 は最高のパフォーマンスをもたらし、デフォルト値として設定されています。 |
<<: 0 コーパスで「ラベル付け」してより良い多言語翻訳結果を得る方法
>>: ヤン・ルカン:私は畳み込みニューラルネットワークの父ですが、その特許にも縛られてきました
今日のビジネスは急速に変化しています。意思決定をするのに人間の知恵だけに頼るだけでは不十分です。その...
対称暗号化アルゴリズムはどのようにして ASP.NET データ暗号化を実装するのでしょうか?それでは...
[[244632]]今後 30 年間で、人工知能は、現在人間が理解していない多くの社会現象を引き起こ...
[[128752]]アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hall...
実際、人工知能の概念は 1950 年代にはすでに登場していました。科学者が最初のニューラル ネットワ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
先日終了したCESで、ドイツのコンチネンタルAGは、新しい物流ロボット、荷物配達ロボット犬「ANYM...
序文GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、Open...