改良された ResNet が Transformer を上回り、アーキテクチャの戦いが再燃します。著者は「革新はない」と述べた

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

トランスフォーマーは過去1年間、視覚分野に頻繁に進出し、CNNの仕事を奪う兆しを見せている。

まず、Google ViT によって画像分類が実現され、次に Microsoft Swin Transformer によってオブジェクト検出と画像セグメンテーションが実現されました。

ビジュアル Transformer の研究に専念する学者が増えるにつれて、3 つの主要タスクリストの上位はすべて Transformer または 2 つのアーキテクチャを組み合わせたモデルで占められるようになりました。

しかしこの頃、「2020年代の畳み込みネットワーク」という論文が発表され、新たな純粋畳み込みモデルConvNeXtが登場し、一気に活気を取り戻した――

世界の CV コミュニティは再びモデルアーキテクチャに関する議論の真っ只中にあり、LeCun 氏のような一流の学者がこのテーマについてコメントしています。

この論文では、ConvNeXt のパフォーマンスが同サイズの Swin Transformer を上回り、ImageNet-1k では後者を 0.7% 上回っていると指摘しています。

COCO と ADE20K でも、ConvNeXt は同じ規模でより良い、または同等の結果を達成しました。

Facebookとカリフォルニア大学バークレー校が共同で作成したこの論文を受けて、ディープラーニングの三大巨頭の一人であるルカン氏は次のように述べた。

畳み込みモデルとビジュアルトランスフォーマーの間の議論はますます激しくなってきています。

GitHub では、ConvNeXt が何日も連続してトレンドリストの 1 位にランクされました。

国内では、このような縦割りの学術問題がかつて知乎ホットリストのトップに上がったこともあった。

海外では、多くの大学の学者や、GoogleやArmなどの大企業のエンジニアが議論に参加し、古典的な論文の著者も登場しました。

ViTとEfficientNet シリーズの著者たちは全員、互いに競い合いながら、最新の研究成果を披露するためにやって来ました。

△ViT論文の第二著者は、トレーニング方法を改善した後、結果を補足した。

△EfficientNetシリーズの作者が最新のv2バージョンの結果を追加しました

LeCun 氏に戻ると、今回は彼自身の業績を宣伝するために来たのではなく、モデルアーキテクチャ間の相互学習が将来の方向性であると提案しました。

次に「Conv があれば十分です」と言うと思いましたか?いいえ！

LeCun 氏自身のお気に入りのアーキテクチャは、最初のレイヤーが畳み込みで、その後に Transformer スタイルのレイヤーが組み合わされる DETR に似ていることが判明しました。

この ConvNeXt は彼が言ったようなものではないが、Transformer から多くの技術を借用している。LeCun 氏はこれがその成功の理由だと考えている。

この論文の責任著者である謝彩寧氏もこれらの議論に応答した。

これは正確さを競ってトップを目指す論文ではなく、畳み込みモデルの設計空間を探求することが目的であると彼は語った。

設計プロセス中、チームは非常に抑制され、モデルをシンプルに保つよう努めました。

私の意見では、すべてのモデルアーキテクチャは友好関係にあるべきであり、過度の複雑さだけが共通の敵です (オッカムの剃刀の原則に同意する場合)。

どのアーキテクチャが最も強力であるかに関係なく、議論に参加したすべての専門家は、この論文について共通の感想を持っていました。

図表は美しく、構造は明確で、実験は十分です。読む価値があります!

特に、本文全体のエッセンスともいえる美しい挿絵があり、著者自らが手がけた「一目でわかる」挿絵でもあります。

この図は、ResNet-50 の精度を 78.8% から 82.0% に向上させるために使用された手順と方法を明確に示しています。

まずこの論文を紹介し、ConvNeXt で使用されている方法と背景を理解しましょう。

後でまた建築論争を見てみますが、また違った視点があると思いますよ〜

CNNにトランスフォーマーの皮を被せる

まず要約を見ると、この論文の研究意図を説明する重要な文章があります。

…この論文の目的は、CNN の設計空間を再検討し、最新の方法を使用して ResNet を最適化し、純粋な畳み込みモデルのパフォーマンス限界をテストすることです…

チームは、Transformer が視覚分野で大きな成功を収めているものの、グローバルアテンションメカニズムの複雑さは入力画像サイズの 2 乗に比例すると考えています。

224×224 および 384×384 の解像度は ImageNet 画像分類タスクには適していますが、高解像度の画像を必要とする実際のアプリケーションシナリオには適していません。

Swin Transformer は、畳み込みネットワークのスライディングウィンドウなどの多くの機能を再導入することでこの問題を補いますが、これによりTransformer は CNN に似たものになります。

Swin Transformer の成功により、畳み込みの重要性が再認識されました。

これを踏まえて、本論文の研究理念は以下のとおりです。

畳み込みモデルが Transformer アーキテクチャからさまざまな方法を借用し、注意モジュールを導入しない場合、どのような結果が得られますか?

論文の最後には、標準の ResNet を徐々に Transformer に似たものに変換するためのロードマップが示されています。

それが、上で述べた高く評価された写真です。

棒グラフの色部分は、さまざまな条件下での Swint-T と ResNet-50 のモデル精度の比較を表しています。

灰色の部分はより大規模なSwin-BとResNet-200の比較であり、網掛け部分は最終的にこの手法が採用されなかったことを示しています。

公平な比較のために言うと、モデルの計算の複雑さは、プロセス全体を通じて Swin Transformer の計算の複雑さとほぼ同じままです。

研究チームは、変化を次の 5 つの部分にまとめました。

マクロ設計、ResNeXtの導入、ボトルネック層の反転、畳み込みカーネルの拡大、マイクロ設計

ただし、各部分を詳しく説明する前に、まずはトレーニング方法の改善点を紹介する必要があります。

0. トレーニング方法

Visual Transformer は、新しいモジュールとアーキテクチャ設計のセットを導入するだけでなく、従来の CNN とは異なるトレーニング方法も採用しています。

この論文では、DeiT や Swin Transformer に似たトレーニング方法が使用されています。

まず、ResNet のエポックを 90 から 300 に増やし、 AdamW オプティマイザーに切り替えます。

データ強化に関しては、Mixup、Cutmix、RandAugment、Random Erasing が導入されました。

正規化には、確率的深度とラベルスムージングが使用されます。

これらの方法を採用した後、ResNet-50のtorchvisionバージョンのパフォーマンスは76.1%から78.8%に2.7 %向上しました。

(ImageNet-1k の 224x244 解像度の画像を使用してトレーニングされた上位 1 つの精度、以下同じ)

この結果は、従来の畳み込みモデルとビジュアル Transformer のパフォーマンスの違いの一部もトレーニング方法に起因することを証明しています。

次に、モデル自体の5つの大きな変更点について詳しく紹介します。

1. マクロ設計

この部分には 2 つの主な変更点があり、これも Swin Transformer に基づいています。

1つ目はブロック数の比例配分です。オリジナルのResNet-50は4段階で(3, 4, 6, 3)に従って配分されています。

Swin Transformer は、各ステージで異なる解像度で y を出力するという多段のアイデアを借用していますが、比率が 1:1:3:1 に変更されています。

ConvNeXtはこの比率に従い、(3, 3, 9, 3)に分配します。その結果、モデルの精度は0.6%向上して79.4%になります。

しかし、Facebook チームによる過去の 2 つの研究に基づいて、チームはより良い比率が存在する可能性があり、さらなる調査が必要であると考えています。

このセクションの 2 番目の変化は幹層にあります。

従来の ResNet-50 アプローチは、ストライド 2 の 7x7 畳み込みに最大プーリングを加えたもので、これは入力画像を 4 倍にダウンサンプリングすることと同等です。

ViT から、入力画像はパッチに分割され、各パッチでの操作は重複しなくなります。

Swin Transformer のパッチサイズは 4x4 なので、ConvNeXt もストライド 4 の 4x4 非重複畳み込みに設定されます。

この変更により、モデルの精度がさらに0.1%向上し、現在は79.5%に達しています。

2. ResNeXtの紹介

ResNeXt は、本論文の責任著者である Xie Saining が Facebook の He Kaiming のグループでインターンをしていたときに執筆し、CVPR 2017 に掲載された論文です。

オリジナルの ResNet と比較すると、ResNeXt は精度と計算の複雑さのバランスをよりうまく取っているため、ConvNeXt はこの利点を継承する予定です。

ResNeXt の中心的なアイデアはグループ畳み込みであり、ネットワーク幅を広げることでモデル容量の損失を補います。

今回は、ConvNeXt はグループ数を入力チャンネル数と同じ数、つまり 96 に設定します。

このようにして、各畳み込みカーネルは 1 つのチャネルを処理し、空間次元の情報のみを混合し、自己注意メカニズムと同様の効果を実現します。

この変更により、モデルの精度がさらに1%向上し、 80.5%になりました。

3. ボトルネック層を反転する

この方法はMobileNetV2で最初に提案され、その後、より軽量な CNN モデルで普及しました。

興味深いことに、Transformer でも同様の設計が使用されているため、ConvNeXt でも試してみました。

この反転後、深さ方向畳み込み層の FLOP は増加しますが、ダウンサンプリング残差ブロックによりネットワーク全体の FLOP は減少します。

モデルの精度もわずかに0.1%向上して80.6%になりました。

さらに、ResNet-200 をベースにしたより大規模なモデルでは、改善はさらに顕著で、81.9% から 82.6% に増加しています。

4. 畳み込みカーネルを増やす

VGGから始まり、3x3 畳み込みカーネルがゴールドスタンダードとなり、小さな畳み込みカーネルもハードウェアに完全に適応されました。

Swin Transformer は畳み込みカーネルに似たローカルウィンドウメカニズムを導入しますが、サイズは少なくとも 7x7 です。

これに基づいて、ConvNeXt はさまざまな畳み込みカーネルサイズの効果を再調査する予定です。

ただし、ボトルネック層を反転すると畳み込み層の次元が拡大し、畳み込みカーネルを直接増やすとパラメータの数が大幅に増加します。

そのため、その前にもう 1 つのステップを実行する必要があります。それは、反転されたボトルネック層に基づいて、深さ方向の畳み込み層を (b から c に) 進めることです。

このステップにより、モデルの精度は一時的に79.9%に低下します。

その後、畳み込みカーネルのサイズを 3x3 から 11x11 まで試したところ、モデル精度は 7x7 で80.6%に戻りました。

さらに増やした場合の効果は明らかではありませんが、ResNet-200 でも同様です。最終的に、畳み込みカーネルのサイズは 7x7 に設定されています。

5. マイクロデザイン

次に、活性化関数と正規化に重点を置いたレイヤーレベルでのマイクロデザインを行います。

活性化関数に関しては、畳み込みモデルは主にシンプルで効率的な ReLU を使用します。

GELU は ReLU よりも滑らかで、BERT、GPT-3、ViT などの NLP モデルに採用されています。

ConvNeXt の調査では、GELU の使用によってモデルの精度は向上しませんでしたが、これも実行可能なソリューションです。

活性化関数の数に関して言えば、各 Tranformer ブロックには MLP ブロック内の活性化関数のみが存在します。

CNN の一般的な方法は、各畳み込み層の後に活性化関数を接続することです。

ConvNeXt は、Transformer アプローチと一致して、2 つの 1x1 レイヤー間の GELU アクティベーション関数のみを保持しようとします。

この方法により、モデルの精度は 0.7% 向上し、最終的には Swin-T と同じレベルの 81.3% に達しました。

正規化層の数も削減され、精度はさらに0.1%向上して81.4%となり、Swin-Tを上回りました。

次のステップは、BN (バッチ正規化) を LN (レイヤー正規化) に置き換えることです。これにより、元の ResNet の精度が低下します。

しかし、上記の変更をベースとして、ConvNeXt でのこの操作によりモデルの精度が 0.1% 向上し、現在は 81.5% に達しています。

最後のステップは、ダウンサンプリングレイヤーを分離することです。

ResNet では、ダウンサンプリングは残差ブロックによって実行されますが、Swin Transformer では別のダウンサンプリングレイヤーが使用されます。

ConvNeXt も同様の戦略を試み、ストライド 2 の 2x2 畳み込みを使用してダウンサンプリングを実行します。

その結果、トレーニングが不安定になりました。

幸いなことに、後で解決策が見つかりました。LN は、各ダウンサンプリングレイヤーの前、ステムの前、および最終的なグローバル平均プーリングの前に追加されました。

上記の変更をすべて考慮すると、ConvNeXt の単一ブロックの構造が最終的に完成します。

最終的な ConvNeXt-T 小型モデルの精度は82.0%で、Swin-T の 81.3% よりも優れています。

ConvNeXt も大型モデルと比べるとわずかに高くなりますが、その利点は小さくなります。

興味深いことに、チームは次のように結論付けました。

これらの方法はいずれもこの論文独自のものではなく、過去 10 年間にわたる複数の研究にまたがって実施されています。

ConvNeXt は、研究のためにこれらすべての手法を単純に統合し、最終的に ImageNet-1k で Transformer を上回る純粋な畳み込みモデルを発見します。

FLOP、パラメータ数、スループット、メモリ使用量の点では、ConvNeXt の各サイズは Swin Transformer とほぼ同等です。

ConvNeXt の利点は、移動ウィンドウアテンションや相対位置バイアスなどの追加の特別な構造を必要としないことです。

モデルをシンプルに保つことは、展開も容易になることも意味します。

最終的に、研究チームは、この論文が、最も広く受け入れられている暗黙の見解のいくつかに異議を唱えるものとなることを期待しています。

また、研究者にコンピュータービジョンにおける畳み込みの重要性を再考するよう促すことも目的です。

ConvNeXt によって再燃したビジュアルモデルアーキテクチャに関する議論に関しては、学界や産業界のより多くの人々がさまざまな意見を表明しています。

建築論争に戻る

カリフォルニア大学バークレー校の馬毅教授は、この表面的な競争には同意できないと語った。

馬怡教授は、次回のWeibo投稿で、理論的根拠に皆がもっと注目してくれることを期待している。

Zhihuの匿名のネットユーザーは、この記事は業界にとってより価値があると示唆した。

Transformerは効果は良いものの、実際に導入するのは困難です。畳み込み法の究極の威力を見るのが皆の楽しみでした。

実際、これがまさに ConvNeXt 研究の本来の目的です。

論文著者の謝彩寧氏が別の議論に対して返答したことから、研究チームはImageNetの結果が焦点ではないと考えていることがわかります。

彼らが強調し、皆の注目を集めたいのは、ターゲット検出などの下流タスクにおける畳み込みモデルのパフォーマンスです。

ダウンストリームタスクについては、ConvNeXt は COCO および ADE20K で検証されており、そのパフォーマンスは SwinTransformer と同等かそれ以上です。

その後の議論の中で興味深いことが起こりました。

誰かが LeCun に尋ねました。「あなたの部署は会社に合わせて Meta に改名すべきではないですか? 書類にはまだ FAIR の署名が残っているのはなぜですか?」

ルカンはちょっとしたジョークを飛ばして、これは基礎AI研究の略だと言った。

とても面白いですね〜

著者チーム

前述の謝彩寧氏は FAIR 研究者です。上海交通大学で ACM クラスを専攻して学士号を取得し、カリフォルニア大学サンディエゴ校で博士号を取得しました。

Xie Saining は博士課程在学中に FAIR でインターンシップを行い、その間に He Kaiming と共同で ResNeXt を完成させ、論文の第一著者となりました。

彼はまた、少し前に大きな注目を集めた第一著者の何開明によるMAE論文にも参加しました。

彼はこの ConvNeXt の記事の責任著者です。偶然にも、今回の第一著者も博士課程在学中にインターンシップでここに来ました。

第一著者のLiu Zhuang氏はカリフォルニア大学バークレー校で博士号を取得し、清華大学のYaoクラスを卒業しています。

DenseNet の著者は、CVPR 2017 最優秀論文賞を受賞しました。

紙の住所
https://arxiv.org/abs/2201.03545

Githubアドレス:
https://github.com/facebookresearch/ConvNeXt

<<: たった5秒でNeRFをトレーニング？！ Nvidia の新技術は Google の研究者の手に負えない | オープンソース

>>: ついに誰かがROSロボットオペレーティングシステムをわかりやすく説明しました

優れたプレーンテキストモデル? GPT-4は準備完了

ブログ

ブログ

改良された ResNet が Transformer を上回り、アーキテクチャの戦いが再燃します。著者は「革新はない」と述べた

CNNにトランスフォーマーの皮を被せる

0. トレーニング方法

1. マクロ設計

2. ResNeXtの紹介

3. ボトルネック層を反転する

4. 畳み込みカーネルを増やす

5. マイクロデザイン

建築論争に戻る

著者チーム

優れたプレーンテキストモデル? GPT-4は準備完了

AIの奇妙な使い方：マクドナルドはゴミ箱の監視にAIを活用

中国人はアルゴリズムと戦い始めている：ログインなし、いいねなし、フォローなし、コメントなし

Gonex CEO ウェン・メンフェイ氏との独占インタビュー: アプリケーションの分野では、モデル自体よりも意図の認識の方が重要です。

GPT-4より18倍高速、世界最速の大型モデルGroqが登場！毎秒500トークンが記録を破る、自社開発LPUはNVIDIA GPUの10倍

2021 年のトップ 12 AI ツールとフレームワーク

推薦する

JavaScript ChatGPT プラグインの構築、学習しましたか?

Cheetah MobileがロボットプラットフォームOrion OSと5つのロボット製品をリリース

オープンソースプロジェクト AutoXGB を使用して AutoML 開発を支援し、わずか数行のコードでアプリケーション API を構築します。

マルチモーダル大規模モデル機能評価: Bard は必要なものですか?

ソフトウェア配信における機械学習の活用方法

インタラクティブ知覚とは何ですか?自動運転における社会的相互作用の動的モデルと意思決定の最前線に関する包括的なレビュー。

可用性の高い Java 分散システムの構築: システムの安定性と信頼性の確保

ドローンは電力網を守り、点検や障害物の除去も可能！

数百万の量子ビットを実現するにはどうすればよいでしょうか?量子コンピューティング企業がユニバーサル量子コンピューティングソリューションを拡大

北京冬季オリンピックと人工知能が出会うと、どんな火花が散るのでしょうか？