DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

ディープラーニングの初期の成功は、畳み込みニューラル ネットワーク (ConvNet) の開発によるものです。ほぼ 10 年にわたって、ConvNet はコンピューター ビジョンのベンチマークを支配してきました。しかし、近年ではViT(ビジョントランスフォーマー)に置き換えられるケースが増えています。

多くの人は、ConvNet は小規模または中規模のデータセットでは優れたパフォーマンスを発揮しますが、ネットワーク サイズが大きいデータセットでは ViT に匹敵できないと考えています。

同時に、CV コミュニティは、ImageNet などの特定のデータセットでランダムに初期化されたネットワークのパフォーマンスを評価することから、Web から収集された大規模な一般データセットで事前トレーニングされたネットワークのパフォーマンスを評価することに移行しました。これにより、重要な疑問が生じます。Vision Transformers は、同様の計算予算で、事前トレーニング済みの ConvNets アーキテクチャよりも優れたパフォーマンスを発揮するのでしょうか?

この論文では、Google DeepMind の研究者がこの問題を調査しました。研究者らは、さまざまなスケールの JFT-4B データセット (基本モデルのトレーニングに使用される大規模なラベル付き画像データセット) で複数の NFNet モデルを事前トレーニングし、ImageNet で ViTs と同様のパフォーマンスを達成しました。

論文アドレス: https://arxiv.org/pdf/2310.16764.pdf

0.4k から 110k TPU-v4 コア時間の範囲のコンピューティング バジェットで事前トレーニングを検討し、NFNet モデル ファミリの深さと幅を増やすことでさまざまなネットワークをトレーニングします。この論文では、保留損失と計算予算の間には対数対数スケーリング則があることが観察されています。

たとえば、この論文では、JFT-4B で事前トレーニングされた NFNet を 0.4k から 110k TPU-v4 コア時間に拡張しています。微調整後、最大のモデルは 90.4% の ImageNet Top-1 を達成し、同様の計算予算で事前トレーニング済みの ViT と競合できるようになりました。

おそらく、この論文は、スケールアップされた NFNet を評価することによって、大規模なデータセットでは ConvNet のパフォーマンスが ViT よりも劣るという見解に異議を唱えています。さらに、十分なデータとコンピューティングがあれば、ConvNet は競争力を維持し、モデル設計とリソースがアーキテクチャよりも重要になります。

この研究を見たチューリング賞受賞者のヤン・ルカン氏は次のように語っています。「必要なのは計算であり、ViT と ConvNet は計算量が一定であれば同等です。コンピューター ビジョンにおける ViT の成功は印象的ですが、公平に評価した場合、事前トレーニング済みの ViT が事前トレーニング済みの ConvNet よりも優れているという確固たる証拠は、私の意見では存在しません。」

しかし、あるネットユーザーは、マルチモーダルモデルでのViTの使用は研究において依然として有利になる可能性があるとLeCunにコメントした。

Google DeepMind の研究者は、ConvNet が消滅することは決してないと述べています。

次に、論文の具体的な内容を見ていきましょう。

事前学習されたNFNetはスケーリング則に従う

この論文では、JFT-4B 上でさまざまな深さと幅を持つ一連の NFNet モデルをトレーニングします。

下の図 2 に示すように、検証損失はモデルのトレーニングの計算予算と線形であり、これは言語モデリングにトランスフォーマーを使用した場合に観察される log-log スケーリング則と一致します (Brown ら、2020 年、Hoffmann ら、2022 年)。最適なモデル サイズと最適なエポック バジェット (検証損失が最小になる) は、コンピューティング バジェットの増加とともに増加します。

下の図 3 は、さまざまなエポック バジェットにわたって 3 つのモデルで観測された最良の学習率 (検証損失を最小化) をプロットしたものです。研究チームは、より低いエポック バジェットの場合、NFNet シリーズのモデルはすべて同様の最適学習率 𝛼 ≈ 1.6 を示すことを発見しました。ただし、エポック バジェットが増加すると、最適な学習率は低下し、大規模なモデルでは、最適な学習率はより速く低下します。研究チームは、モデルのサイズとエポック予算の増加に伴って最適な学習率がゆっくりと単調に減少すると仮定し、2回の試行内で学習率を効果的に調整できると述べています。

図 2 の事前トレーニング済みモデルの一部は期待どおりに動作しないことに注目する価値があります。研究チームは、トレーニング実行がプリエンプト/再開された場合、データ読み込みパイプラインは各トレーニング サンプルが各エポックで 1 回サンプリングされることを保証できないため、この問題が発生すると考えています。トレーニング実行が複数回再開された場合、一部のトレーニング サンプルが十分な回数サンプリングされない可能性があります。

NFNet 対 ViT

ImageNet での実験では、微調整された NFNet が Vision Transformer と同等のパフォーマンスを発揮することが示されました。

具体的には、この研究では、ImageNet 上で事前トレーニング済みの NFNet を微調整し、上記の図 1 に示すように、事前トレーニングの計算と Top-1 エラーの関係をプロットしました。

ImageNet Top-1 の精度は、計算予算が増加するにつれて向上し続けます。最も高価な事前トレーニング済みモデルは NFNet-F7+ です。これは 8 エポックの事前トレーニング済みで、ImageNet Top-1 精度の 90.3% を達成しており、事前トレーニングには約 110k TPU-v4 コア時間、微調整には 1.6k TPU-v4 コア時間が必要です。さらに、微調整中に繰り返し拡張を追加導入すると、Top-1 精度 90.4% を達成できます。 NFNet は大規模な事前トレーニングから大きな恩恵を受けます。

2 つのモデル アーキテクチャには大きな違いがあるにもかかわらず、事前トレーニング済みの NFNet と事前トレーニング済みの ViT のパフォーマンスは同等です。たとえば、ViT-g/14 は、JFT-3B で 210k TPU-v3 コア時間の事前トレーニングを行った後、ImageNet で 90.2% の Top-1 精度を達成し、ViT-G/14 は、JFT-3B で 500k TPU-v3 コア時間以上の事前トレーニングを行った後、90.45% の Top-1 精度を達成します。

この論文では、TPU-v4 上でのこれらのモデルの事前トレーニング速度を評価し、事前トレーニングには ViT-g/14 では 12 万 TPU-v4 コア時間、ViTG/14 では 28 万 TPU-v4 コア時間、SoViT-400m/14 では 13 万 TPU-v4 コア時間が必要であると推定しています。これらの推定値を使用して、図 1 で ViT と NFNet の事前トレーニング効率を比較します。調査では、NFNet は TPU-v4 向けに最適化されており、他のデバイスで評価するとパフォーマンスが悪かったことが指摘されています。

最後に、事前トレーニング済みのチェックポイントは JFT-4B で検証損失が最も低くなりますが、微調整によって ImageNet で最高の Top-1 精度が常に達成されるわけではないことに注意してください。特に、事前トレーニングの計算予算が固定されている場合、微調整メカニズムは一貫してわずかに大きいモデルとわずかに小さいエポック予算を優先することがわかります。直感的に言えば、モデルが大きいほど容量が大きくなり、新しいタスクに適応しやすくなります。場合によっては、学習率を少し高くすると(事前トレーニング中)、微調整後のパフォーマンスが向上することもあります。

<<: 

>>:  ソフトウェアテストが再び進化、Testinクラウドテストリモート実機サービスには明らかな利点がある

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

海外メディア:人間はますます余暇を持ち、AIは資本主義を排除する

ベストセラー作家のバーナード・マー氏はフォーブス誌に「人工知能はいかにして資本主義を殺すか」と題する...

時速22キロのスピードと50キロの荷重で、四足の車輪付きロボット「スイスマイル」は変形することを学んだ。

テスラと「レース」を敢行する四輪ロボットを見たことがありますか?以下に示すように、かなり高速であるよ...

勉強!機械学習アルゴリズムの長所と短所の概要

目次正規化アルゴリズムアンサンブルアルゴリズム決定木アルゴリズム回帰人工ニューラルネットワークディー...

無人タクシーが登場します。準備はできていますか?

[[243616]]地図: 小魚クラウド コンピューティングやビッグ データなどのアプリケーション...

アメリカ心理学会:AIと頻繁に接触する従業員は孤独になりやすく、病気のリスクも高まる

アメリカ心理学会は6月14日、「AIと頻繁に接触する従業員は孤独になりやすく、病気のリスクも高まる」...

機械学習の参入障壁が下がり、機械学習エンジニアのポジションがなくなる可能性も

機械学習エンジニアチームの責任者であり、Looker の最高製品責任者でもある彼は、10 年を超える...

...

...

ヘルスケアにおける人工知能の機会とリスク

人工知能 (AI) が医療分野において大きなチャンスと潜在的なリスクを抱えていることはよく知られてい...

ChatGPT を使用すると、わずか 3 時間で高品質の論文を書くことができます。

1. 論文のテーマと研究の方向性を決定するディスカッションと詳細化: ChatGPT で論文のトピ...

アルゴリズムの旅について話しましょう:スタック

[[379190]]スタックの本質は、特殊なデータ構造です。その特殊な構造は、データのエントリと終了...

...

...

MIT、指の爪ほどの大きさのドローンを作れるマイクロチップを設計

MITの研究者らが、指の爪ほどの小さなドローン用コンピューターチップを設計6月21日、Venture...

...