トランスフォーマーは新たな覇者となったのか？ FAIRらは純粋な畳み込みConvNetを再設計し、より良いパフォーマンスを達成した。

視覚認識の急速な発展は、Vision Transformer (ViT) の導入から始まりました。ViT は、従来の畳み込みニューラルネットワーク (ConvNet) に急速に取って代わり、最も先進的な画像分類モデルとなりました。一方、ViT モデルは、物体検出やセマンティックセグメンテーションなどの一連のコンピュータービジョンタスクにおいて多くの課題に直面しています。そのため、一部の研究者は、ConvNet 事前分布を再導入した階層型 Transformer (Swin Transformer など) を提案し、Transformer を汎用的な視覚バックボーンとして実用的なものにし、さまざまな視覚タスクで優れたパフォーマンスを発揮しました。

ただし、このハイブリッドアプローチの有効性は、畳み込みの固有の誘導バイアスではなく、Transformer の固有の利点によるところが大きいです。この研究では、FAIR とカリフォルニア大学バークレー校の研究者が設計空間を再検討し、純粋な ConvNet が達成できる限界をテストしました。研究者たちは、標準的な ResNet をビジュアル Transformer 設計に徐々に「近代化」し、その過程でパフォーマンスの違いにつながるいくつかの重要なコンポーネントを発見しました。

論文アドレス: https://arxiv.org/pdf/2201.03545.pdf
コードアドレス: https://github.com/facebookresearch/ConvNeXt

研究者たちは、この一連の純粋な ConvNet モデルを ConvNeXt と名付けました。 ConvNeXt は、標準の ConvNet モジュールのみで構築されています。ConvNeXt は、精度とスケーラビリティの点で Transformer と競合する結果を達成し、ImageNet トップ 1 精度の 87.8% に達し、COCO 検出と ADE20K セグメンテーションで Swin Transformer を上回りながら、標準の ConvNet のシンプルさと有効性を維持しています。

この論文の第一著者は、有名な DenseNet の共著者である Zhuang Liu 氏であることは特筆に値します。彼は論文「Densely Connected Convolutional Networks」で CVPR 2017 最優秀論文賞を受賞しました。著者 Xie Saining は ResNeXt の著者の一人です。

畳み込みニューラルネットワークのアップグレード

この研究では、ResNet から Transformer に似た畳み込みニューラルネットワークへの発展の軌跡を整理しました。この研究では、FLOP に基づいて 2 つのモデルサイズを検討しました。1 つは FLOP が約 4.5×10^9 の ResNet-50/Swin-T メカニズム、もう 1 つは FLOP が約 15.0×10^9 の ResNet-200/Swin-B メカニズムです。簡潔にするために、この研究では ResNet-50/Swin-T 複雑性モデルを使用して実験結果を示します。

Swin Transformer の設計と標準的な畳み込みニューラルネットワークのシンプルさを探るため、この研究では ResNet-50 モデルから開始し、最初にビジュアル Transformer のトレーニングに使用したのと同様のトレーニング方法を使用してトレーニングしました。元の ResNet-50 と比較した結果、パフォーマンスが大幅に向上したことが示され、改善された結果がベースラインとして使用されました。

その後、この研究では、1) マクロ設計、2) ResNeXt、3) 反転ボトルネック、4) 畳み込みカーネルのサイズ、および 5) さまざまなレイヤーごとのマイクロ設計として要約される一連の設計上の決定が行われました。下の図 2 は、「ネットワークのアップグレード」の各ステップの実装プロセスと結果を示しています。すべてのモデルは ImageNet-1K でトレーニングおよび評価されています。ネットワークの複雑さは最終的なパフォーマンスに密接に関係するため、この研究では探索プロセス中に FLOP を大まかに制御しました。

トレーニング方法

ネットワークアーキテクチャの設計に加えて、トレーニングプロセスも最終的なパフォーマンスに影響します。 Vision Transformer は、いくつかの新しいアーキテクチャ設計の決定とモジュールを導入するだけでなく、ビジョンフィールドの複数のトレーニング方法 (AdamW オプティマイザーなど) も導入します。これは主に最適化戦略と関連するハイパーパラメータ設定に関係します。

したがって、この研究の最初のステップは、視覚的なTransformerトレーニング手順を使用してベースラインモデル（ResNet50/200）をトレーニングすることでした。 2021 年、Ross Wightman らによる論文「An improved training procedure in timm」では、ResNet-50 モデルのパフォーマンスを大幅に向上させる一連のトレーニング方法が実証されました。この論文では、研究者らは DeiT や Swin Transformer に似たトレーニング方法を使用しました。トレーニングは、ResNet の元の 90 エポックから 300 エポックに拡張されました。

この研究では、AdamW オプティマイザー、Mixup、Cutmix、RandAugment、Random Erasing などのデータ拡張技術と、Random Depth や Label Smoothing などの正規化スキームを使用しました。この改善されたトレーニングスキームにより、ResNet-50 モデルのパフォーマンスが 76.1% から 78.8% (+2.7%) に向上します。これは、従来の ConvNet とビジュアル Transformer のパフォーマンスの違いの大部分がトレーニング手法によるものである可能性があることを意味します。

マクロデザイン

この研究の第 2 ステップでは、Swin Transformer の現在のマクロネットワーク設計を分析しました。 Swin Transformer は、畳み込みニューラルネットワークに似たマルチステージ設計を使用しており、各ステージには異なる特徴マップ解像度があります。設計上の重要な考慮事項は、ステージ対計算比率とバックボーンアーキテクチャの 2 つです。

一方、ResNet の各ステージにわたる計算の分散に関する当初の設計は、実験によって大きく影響されていました。一方、Swin-T は同じ原理に従いますが、位相計算比率がわずかに異なります。この研究では、各ステージのブロック数をResNet-50の(3, 4, 6, 3)から(3, 3, 9, s3)に調整し、FLOPをSwin-Tに合わせます。これにより、モデルの精度は 78.8% から 79.4% に向上しました。

通常、バックボーンアーキテクチャは、ネットワークが入力画像を処理する方法に重点を置いています。自然画像には固有の冗長性があるため、標準的な ConvNet やビジュアルトランスフォーマーの一般的なアーキテクチャでは、入力画像を適切な特徴マップサイズに積極的にダウンサンプリングします。標準 ResNet には、ストライドが 2 の 7×7 畳み込み層と、入力画像を 4 倍にダウンサンプリングできる最大プーリング層が含まれています。ビジュアル Transformer は「パッチ化」戦略を使用します。Swin Transformer は同様の「パッチ化」レイヤーを使用しますが、アーキテクチャのマルチステージ設計に適応するために、より小さなパッチサイズを使用します。この研究では、ResNet バックボーンアーキテクチャを、ストライド 4 の 4×4 畳み込み層を使用して実装された patchify 層に置き換え、精度を 79.4% から 79.5% に向上させました。これは、ResNet のバックボーンアーキテクチャをより単純な patchify レイヤーに置き換えることができることを示唆しています。

ResNeXt化

3番目のステップでは、本研究では、通常のResNetよりも優れたFLOP/精度のトレードオフを持つResNeXt [82]のアイデアを採用しようと試みます。コアコンポーネントはグループ化畳み込みであり、畳み込みフィルターは異なるグループに分割されます。 ResNeXt の基本原則は、「より多くのグループを使用し、幅を広げる」ことです。より正確には、ResNeXt はボトルネックブロックの 3×3 畳み込み層にグループ化された畳み込みを採用しています。これにより、ネットワーク幅が拡大し、FLOP の大幅な減少による容量損失を補うことができます。

この研究では、グループ畳み込みの特殊なケースである深さ方向畳み込みを使用しました。この場合、グループ数はチャネル数に等しくなります。深さ方向畳み込みはMobileNet[32]やXception[9]で使用されている。研究者らは、深層畳み込みは、チャネルごとに動作し、空間次元でのみ情報を混合する、自己注意における加重合計演算に似ていると指摘している。深さ方向の畳み込みを使用すると、ネットワークの FLOP が効果的に削減されます。 ResNeXt で提案された戦略に従って、この研究ではネットワーク幅を Swin-T と同じチャネル数 (64 から 96) に増やしました。 FLOP（5.3G）の増加により、ネットワークパフォーマンスは80.5％に達します。

逆転ボトルネック

Transformer の重要な設計は、逆ボトルネックを作成することです。つまり、MLP ブロックの隠し次元は、下の図 4 に示すように、入力次元の 4 倍広くなります。興味深いことに、このトランスフォーマーの設計は、畳み込みニューラルネットワークで使用される拡張比 4 の逆ボトルネック設計に関連しています。

したがって、この研究の第 4 ステップでは、逆ボトルネックの設計を検討しました。下の図3に示すように、ディープ畳み込み層のFLOPは増加しましたが、ダウンサンプリング残差ブロックのショートカット1×1畳み込み層のFLOPは大幅に減少し、ネットワーク全体のFLOPは4.6Gに減少しました。興味深いことに、これによりパフォーマンスが 80.5% から 80.6% にわずかに向上します。 ResNet-200 / Swin-B ソリューションでは、このステップによりパフォーマンスがさらに向上し (81.9% から 82.6% に)、同時に FLOP も削減されます。

畳み込みカーネルのサイズ

ステップ 5 この研究では、大きな畳み込みカーネルの役割を調査しました。ビジュアルトランスフォーマーの最も注目すべき機能は、各レイヤーがグローバル受容フィールドを持つ非ローカル自己注意です。大きな畳み込みカーネルを使用する既存の畳み込みニューラルネットワークもありますが、ゴールドスタンダード（VGGNet [62]）は、小さな畳み込みカーネル（3×3）を持つ畳み込み層のスタックです。 Swin Transformer はローカルウィンドウを自己注意ブロックに再導入しますが、ウィンドウサイズは少なくとも 7×7 であり、3×3 ResNe(X)t 畳み込みカーネルサイズよりも大幅に大きくなります。したがって、本研究では、畳み込みニューラルネットワークで大規模な畳み込みカーネルを使用することの役割を再検討します。

深さ方向の畳み込み層を上に移動します。大きな畳み込みカーネルを探索するには、深さ方向の畳み込み層の位置を上に移動することが前提条件です (図 3(c) を参照)。同様に、Transformer では MSA ブロックが MLP レイヤーの前に配置されます。逆ボトルネックブロックがすでに配置されているため、複雑で非効率的なモジュール (MSA、大きな畳み込みカーネル) のチャネル数は少なくなり、効率的で高密度の 1×1 レイヤーが重い作業を実行します。したがって、この中間ステップにより FLOP が 4.1G に減少し、パフォーマンスが一時的に 79.9% に低下します。

畳み込みカーネルを増やします。上記の準備の後、より大きな畳み込みカーネルを使用すると大きな利点が得られます。この研究では、3、5、7、9、11 といういくつかの畳み込みカーネルサイズを試しました。ネットワークのパフォーマンスは 79.9% (3×3) から 80.6% (7×7) に向上しましたが、ネットワークの FLOP はほぼ同じままです。

さらに、研究者らは、より大きな畳み込みカーネルの利点が 7×7 で飽和点に達することを観察し、この動作を大容量モデルで検証しました。畳み込みカーネルのサイズが 7×7 を超えると、ResNet-200 メカニズムモデルではそれ以上の利点は見られません。そのため、本研究では各ブロックで7×7の深さ方向畳み込みを使用しました。

この時点で、マクロ規模のネットワークアーキテクチャのアップグレードと調整は完了です。

マイクロデザイン

次のステップは、マイクロスケールのアーキテクチャの違いのいくつかを調査することです。ここでの調査のほとんどはレイヤーレベルで行われ、アクティベーション関数と正規化レイヤーの特定の選択に焦点を当てています。

ReLU の代わりに GELU を使用します。これまで多くの活性化関数が開発されてきましたが、ReLU はシンプルさと有効性から、ConvNet で今でも広く使用されています。 ReLU は、オリジナルの Transformer でも活性化関数として使用されます。 GELU は ReLU のより滑らかな変種として考えられ、Google の BERT や OpenAI の GPT-2、ViT などの最先端のトランスフォーマーで使用されています。研究では、ConvNet では ReLU を GELU に置き換えることもでき、精度は変わらない (80.6%) ことがわかりました。

活性化関数が少なくなります。 Transformer ブロックと ResNet ブロックの小さな違いは、Transformer には活性化関数が少ないことです。図 4 に示すように、この研究では、Transformer ブロックのスタイルを複製する 2 つの 1×1 レイヤー間の GELU レイヤーを除き、残差ブロックからすべての GELU レイヤーを削除します。このプロセスにより、結果が 0.7% 向上して 81.3% となり、これは実際に Swin-T のパフォーマンスに匹敵します。

正規化レイヤーが少なくなります。 Transformer ブロックには通常、正規化レイヤーが少なくなります。ここでは、2 つの BatchNorm (BN) レイヤーを削除し、conv 1 × 1 レイヤーの前に 1 つの BN レイヤーのみを残しました。これにより、パフォーマンスはさらに 81.4% に向上し、すでに Swin-T の結果を上回ります。この研究における各ブロックには、Transformer よりもさらに少ない正規化レイヤーがあり、研究者は、ブロックの先頭に余分な BN レイヤーを追加してもパフォーマンスは向上しないことを発見したことに注意してください。

BN を LN に置き換えます。 BatchNorm (BN) は、収束を改善し、過剰適合を減らすため、ConvNet の重要なコンポーネントです。ただし、BN にはモデルのパフォーマンスに悪影響を与える可能性のある複雑な点も数多くあります。代替手段を開発する試みは数多く行われてきましたが、BN は依然としてほとんどの視覚タスクで選択される方法です。元の ResNet で BN を LN に直接置き換えると、パフォーマンスが低下します。ネットワークアーキテクチャとトレーニング手法が改善されたため、この研究では BN の代わりに LN を使用することの影響を再検討し、ConvNet モデルでは LN を使用したトレーニングに問題はないと結論付けました。実際、パフォーマンスはわずかに向上し、81.5% の精度を達成しました。

ダウンサンプリングレイヤーを分離します。 ResNet では、ストライド = 2 の 3×3 畳み込みを使用して、各ステージの開始時に残差ブロックを介して空間ダウンサンプリングが実現されます。 Swin Transformer では、各ステージ間に個別のダウンサンプリングレイヤーが追加されます。この研究では同様の戦略を検討し、研究者は空間ダウンサンプリングにストライド = 2 の 2×2 畳み込み層を使用しました。驚いたことに、この変更によりトレーニング結果が異なりました。さらに調査を進めたところ、空間解像度が変化する場所に正規化レイヤーを追加すると、トレーニングが安定することがわかりました。この研究により、精度率は 82.0% まで向上し、Swin-T の 81.3% を大幅に上回ります。この研究では、最終モデル ConvNeXt を取得するために個別のダウンサンプリングレイヤーを使用しました。 ResNet、Swin、ConvNeXt のブロック構造の比較を図 4 に示します。

ResNet-50、Swin-T、ConvNeXt-Tの詳細なアーキテクチャ仕様の比較を表9に示します。

実験

ImageNet 実験評価

この研究では、Swin-T/S/B/L と同様の複雑性を持ち、ベンチマーク実験で評価できる、異なる ConvNeXt バリアントである ConvNeXtT/S/B/L を構築しました。さらに、この研究では、ConvNeXt のスケーラビリティをさらにテストするために、より大規模な ConvNeXt-XL も構築しました。異なるバリアントモデル間の違いは、チャネルとモジュールの数にあります。詳細は次のとおりです。

結果 ImageNet-1K: 次の表は、ConvNeXt と Transformer バリアント DeiT、Swin Transformer、RegNets、EfficientNets の結果を比較したものです。

結果は次のことを示しています: ConvNeXt は、精度と計算のトレードオフおよび推論スループットの点で ConvNet ベースライン (RegNet および EfficientNet) と競争力のある結果を達成しています。ConvNeXt のパフォーマンスは、同様の複雑さを持つ Swin Transformer よりも優れています。Swin Transformer と比較して、ConvNeXt はシフトウィンドウや相対位置バイアスなどの特殊なモジュールなしでもスループットが高くなります。

ImageNet-22K: 次の表 (ヘッダーは上記の表を参照) は、ImageNet-22K の事前トレーニングからモデルを微調整した結果を示しています。これらの実験が重要なのは、視覚的トランスフォーマーは誘導バイアスが少ないため、大規模に事前トレーニングすると ConvNet よりも優れたパフォーマンスを発揮できると広く信じられているためです。この調査では、適切に設計された ConvNet は、大規模なデータセットで事前トレーニングされた場合、ビジュアルトランスフォーマーより劣らないことが示されています。ConvNeXt は、わずかに高いスループットで、同様のサイズの Swin トランスフォーマーと同等かそれ以上のパフォーマンスを発揮します。さらに、本研究で提案された ConvNeXt-XL モデルは 87.8% の精度を達成しました。これは、384^2 の ConvNeXt-L に比べて大幅に改善されており、ConvNeXt がスケーラブルなアーキテクチャであることを証明しています。

等方性 ConvNeXt と ViT の比較: アブレーション実験では、研究者らは ViT-S/B/L (384/768/1024) と同じ特徴サイズを使用して等方性 ConvNeXt-S/B/L を構築しました。パラメータ数とFLOP数に合わせて深さを18/18/36に設定し、ブロック構造は変更しません（図4）。 224^2解像度でのImageNet-1Kの結果を表2に示します。結果は、ConvNeXt のパフォーマンスが ViT のパフォーマンスに匹敵することを示しており、これは、ConvNeXt ブロック設計が非階層モデルで使用される場合でも依然として競争力があることを示しています。

下流タスクの評価

COCO でのオブジェクト検出とセグメンテーションの研究: この研究では、ConvNeXt をバックボーンとして使用し、COCO データセットで Mask R-CNN と Cascade Mask R-CNN を微調整します。表 3 は、Swin Transformer、ConvNeXt、従来の ConvNet (ResNeXt など) のオブジェクト検出とインスタンス分割の結果を比較しています。結果は、ConvNeXt がさまざまなモデルの複雑さにわたって Swin Transformer と同等かそれ以上のパフォーマンスを発揮することを示しています。

ADE20K に基づくセマンティックセグメンテーション: 表 4 では、この研究はマルチスケールテストによる検証 mIoU を報告しています。 ConvNeXt モデルは、さまざまなモデル容量で競争力のあるパフォーマンスを実現できるため、ConvNeXt 設計の有効性がさらに検証されます。

<<: コード不要で再利用可能な AI が AI の溝を埋める方法

>>: AIはオミクロン変異体の構造を1時間で予測、誤差は原子直径の半分のみ