DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

ディープラーニングの初期の成功は、畳み込みニューラルネットワーク (ConvNet) の開発によるものです。ほぼ 10 年にわたって、ConvNet はコンピュータービジョンのベンチマークを支配してきました。しかし、近年ではViT（ビジョントランスフォーマー）に置き換えられるケースが増えています。

多くの人は、ConvNet は小規模または中規模のデータセットでは優れたパフォーマンスを発揮しますが、ネットワークサイズが大きいデータセットでは ViT に匹敵できないと考えています。

同時に、CV コミュニティは、ImageNet などの特定のデータセットでランダムに初期化されたネットワークのパフォーマンスを評価することから、Web から収集された大規模な一般データセットで事前トレーニングされたネットワークのパフォーマンスを評価することに移行しました。これにより、重要な疑問が生じます。Vision Transformers は、同様の計算予算で、事前トレーニング済みの ConvNets アーキテクチャよりも優れたパフォーマンスを発揮するのでしょうか?

この論文では、Google DeepMind の研究者がこの問題を調査しました。研究者らは、さまざまなスケールの JFT-4B データセット (基本モデルのトレーニングに使用される大規模なラベル付き画像データセット) で複数の NFNet モデルを事前トレーニングし、ImageNet で ViTs と同様のパフォーマンスを達成しました。

論文アドレス: https://arxiv.org/pdf/2310.16764.pdf

0.4k から 110k TPU-v4 コア時間の範囲のコンピューティングバジェットで事前トレーニングを検討し、NFNet モデルファミリの深さと幅を増やすことでさまざまなネットワークをトレーニングします。この論文では、保留損失と計算予算の間には対数対数スケーリング則があることが観察されています。

たとえば、この論文では、JFT-4B で事前トレーニングされた NFNet を 0.4k から 110k TPU-v4 コア時間に拡張しています。微調整後、最大のモデルは 90.4% の ImageNet Top-1 を達成し、同様の計算予算で事前トレーニング済みの ViT と競合できるようになりました。

おそらく、この論文は、スケールアップされた NFNet を評価することによって、大規模なデータセットでは ConvNet のパフォーマンスが ViT よりも劣るという見解に異議を唱えています。さらに、十分なデータとコンピューティングがあれば、ConvNet は競争力を維持し、モデル設計とリソースがアーキテクチャよりも重要になります。

この研究を見たチューリング賞受賞者のヤン・ルカン氏は次のように語っています。「必要なのは計算であり、ViT と ConvNet は計算量が一定であれば同等です。コンピュータービジョンにおける ViT の成功は印象的ですが、公平に評価した場合、事前トレーニング済みの ViT が事前トレーニング済みの ConvNet よりも優れているという確固たる証拠は、私の意見では存在しません。」

しかし、あるネットユーザーは、マルチモーダルモデルでのViTの使用は研究において依然として有利になる可能性があるとLeCunにコメントした。

Google DeepMind の研究者は、ConvNet が消滅することは決してないと述べています。

次に、論文の具体的な内容を見ていきましょう。

事前学習されたNFNetはスケーリング則に従う

この論文では、JFT-4B 上でさまざまな深さと幅を持つ一連の NFNet モデルをトレーニングします。

下の図 2 に示すように、検証損失はモデルのトレーニングの計算予算と線形であり、これは言語モデリングにトランスフォーマーを使用した場合に観察される log-log スケーリング則と一致します (Brown ら、2020 年、Hoffmann ら、2022 年)。最適なモデルサイズと最適なエポックバジェット (検証損失が最小になる) は、コンピューティングバジェットの増加とともに増加します。

下の図 3 は、さまざまなエポックバジェットにわたって 3 つのモデルで観測された最良の学習率 (検証損失を最小化) をプロットしたものです。研究チームは、より低いエポックバジェットの場合、NFNet シリーズのモデルはすべて同様の最適学習率 𝛼 ≈ 1.6 を示すことを発見しました。ただし、エポックバジェットが増加すると、最適な学習率は低下し、大規模なモデルでは、最適な学習率はより速く低下します。研究チームは、モデルのサイズとエポック予算の増加に伴って最適な学習率がゆっくりと単調に減少すると仮定し、2回の試行内で学習率を効果的に調整できると述べています。

図 2 の事前トレーニング済みモデルの一部は期待どおりに動作しないことに注目する価値があります。研究チームは、トレーニング実行がプリエンプト/再開された場合、データ読み込みパイプラインは各トレーニングサンプルが各エポックで 1 回サンプリングされることを保証できないため、この問題が発生すると考えています。トレーニング実行が複数回再開された場合、一部のトレーニングサンプルが十分な回数サンプリングされない可能性があります。

NFNet 対 ViT

ImageNet での実験では、微調整された NFNet が Vision Transformer と同等のパフォーマンスを発揮することが示されました。

具体的には、この研究では、ImageNet 上で事前トレーニング済みの NFNet を微調整し、上記の図 1 に示すように、事前トレーニングの計算と Top-1 エラーの関係をプロットしました。

ImageNet Top-1 の精度は、計算予算が増加するにつれて向上し続けます。最も高価な事前トレーニング済みモデルは NFNet-F7+ です。これは 8 エポックの事前トレーニング済みで、ImageNet Top-1 精度の 90.3% を達成しており、事前トレーニングには約 110k TPU-v4 コア時間、微調整には 1.6k TPU-v4 コア時間が必要です。さらに、微調整中に繰り返し拡張を追加導入すると、Top-1 精度 90.4% を達成できます。 NFNet は大規模な事前トレーニングから大きな恩恵を受けます。

2 つのモデルアーキテクチャには大きな違いがあるにもかかわらず、事前トレーニング済みの NFNet と事前トレーニング済みの ViT のパフォーマンスは同等です。たとえば、ViT-g/14 は、JFT-3B で 210k TPU-v3 コア時間の事前トレーニングを行った後、ImageNet で 90.2% の Top-1 精度を達成し、ViT-G/14 は、JFT-3B で 500k TPU-v3 コア時間以上の事前トレーニングを行った後、90.45% の Top-1 精度を達成します。

この論文では、TPU-v4 上でのこれらのモデルの事前トレーニング速度を評価し、事前トレーニングには ViT-g/14 では 12 万 TPU-v4 コア時間、ViTG/14 では 28 万 TPU-v4 コア時間、SoViT-400m/14 では 13 万 TPU-v4 コア時間が必要であると推定しています。これらの推定値を使用して、図 1 で ViT と NFNet の事前トレーニング効率を比較します。調査では、NFNet は TPU-v4 向けに最適化されており、他のデバイスで評価するとパフォーマンスが悪かったことが指摘されています。

最後に、事前トレーニング済みのチェックポイントは JFT-4B で検証損失が最も低くなりますが、微調整によって ImageNet で最高の Top-1 精度が常に達成されるわけではないことに注意してください。特に、事前トレーニングの計算予算が固定されている場合、微調整メカニズムは一貫してわずかに大きいモデルとわずかに小さいエポック予算を優先することがわかります。直感的に言えば、モデルが大きいほど容量が大きくなり、新しいタスクに適応しやすくなります。場合によっては、学習率を少し高くすると（事前トレーニング中）、微調整後のパフォーマンスが向上することもあります。

<<:

>>: ソフトウェアテストが再び進化、Testinクラウドテストリモート実機サービスには明らかな利点がある