DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

DeepMind: 畳み込みネットワークは ViT ほど優れていないと誰が言ったのですか?

ディープラーニングの初期の成功は、畳み込みニューラル ネットワーク (ConvNet) の開発によるものです。ほぼ 10 年にわたって、ConvNet はコンピューター ビジョンのベンチマークを支配してきました。しかし、近年ではViT(ビジョントランスフォーマー)に置き換えられるケースが増えています。

多くの人は、ConvNet は小規模または中規模のデータセットでは優れたパフォーマンスを発揮しますが、ネットワーク サイズが大きいデータセットでは ViT に匹敵できないと考えています。

同時に、CV コミュニティは、ImageNet などの特定のデータセットでランダムに初期化されたネットワークのパフォーマンスを評価することから、Web から収集された大規模な一般データセットで事前トレーニングされたネットワークのパフォーマンスを評価することに移行しました。これにより、重要な疑問が生じます。Vision Transformers は、同様の計算予算で、事前トレーニング済みの ConvNets アーキテクチャよりも優れたパフォーマンスを発揮するのでしょうか?

この論文では、Google DeepMind の研究者がこの問題を調査しました。研究者らは、さまざまなスケールの JFT-4B データセット (基本モデルのトレーニングに使用される大規模なラベル付き画像データセット) で複数の NFNet モデルを事前トレーニングし、ImageNet で ViTs と同様のパフォーマンスを達成しました。

論文アドレス: https://arxiv.org/pdf/2310.16764.pdf

0.4k から 110k TPU-v4 コア時間の範囲のコンピューティング バジェットで事前トレーニングを検討し、NFNet モデル ファミリの深さと幅を増やすことでさまざまなネットワークをトレーニングします。この論文では、保留損失と計算予算の間には対数対数スケーリング則があることが観察されています。

たとえば、この論文では、JFT-4B で事前トレーニングされた NFNet を 0.4k から 110k TPU-v4 コア時間に拡張しています。微調整後、最大のモデルは 90.4% の ImageNet Top-1 を達成し、同様の計算予算で事前トレーニング済みの ViT と競合できるようになりました。

おそらく、この論文は、スケールアップされた NFNet を評価することによって、大規模なデータセットでは ConvNet のパフォーマンスが ViT よりも劣るという見解に異議を唱えています。さらに、十分なデータとコンピューティングがあれば、ConvNet は競争力を維持し、モデル設計とリソースがアーキテクチャよりも重要になります。

この研究を見たチューリング賞受賞者のヤン・ルカン氏は次のように語っています。「必要なのは計算であり、ViT と ConvNet は計算量が一定であれば同等です。コンピューター ビジョンにおける ViT の成功は印象的ですが、公平に評価した場合、事前トレーニング済みの ViT が事前トレーニング済みの ConvNet よりも優れているという確固たる証拠は、私の意見では存在しません。」

しかし、あるネットユーザーは、マルチモーダルモデルでのViTの使用は研究において依然として有利になる可能性があるとLeCunにコメントした。

Google DeepMind の研究者は、ConvNet が消滅することは決してないと述べています。

次に、論文の具体的な内容を見ていきましょう。

事前学習されたNFNetはスケーリング則に従う

この論文では、JFT-4B 上でさまざまな深さと幅を持つ一連の NFNet モデルをトレーニングします。

下の図 2 に示すように、検証損失はモデルのトレーニングの計算予算と線形であり、これは言語モデリングにトランスフォーマーを使用した場合に観察される log-log スケーリング則と一致します (Brown ら、2020 年、Hoffmann ら、2022 年)。最適なモデル サイズと最適なエポック バジェット (検証損失が最小になる) は、コンピューティング バジェットの増加とともに増加します。

下の図 3 は、さまざまなエポック バジェットにわたって 3 つのモデルで観測された最良の学習率 (検証損失を最小化) をプロットしたものです。研究チームは、より低いエポック バジェットの場合、NFNet シリーズのモデルはすべて同様の最適学習率 𝛼 ≈ 1.6 を示すことを発見しました。ただし、エポック バジェットが増加すると、最適な学習率は低下し、大規模なモデルでは、最適な学習率はより速く低下します。研究チームは、モデルのサイズとエポック予算の増加に伴って最適な学習率がゆっくりと単調に減少すると仮定し、2回の試行内で学習率を効果的に調整できると述べています。

図 2 の事前トレーニング済みモデルの一部は期待どおりに動作しないことに注目する価値があります。研究チームは、トレーニング実行がプリエンプト/再開された場合、データ読み込みパイプラインは各トレーニング サンプルが各エポックで 1 回サンプリングされることを保証できないため、この問題が発生すると考えています。トレーニング実行が複数回再開された場合、一部のトレーニング サンプルが十分な回数サンプリングされない可能性があります。

NFNet 対 ViT

ImageNet での実験では、微調整された NFNet が Vision Transformer と同等のパフォーマンスを発揮することが示されました。

具体的には、この研究では、ImageNet 上で事前トレーニング済みの NFNet を微調整し、上記の図 1 に示すように、事前トレーニングの計算と Top-1 エラーの関係をプロットしました。

ImageNet Top-1 の精度は、計算予算が増加するにつれて向上し続けます。最も高価な事前トレーニング済みモデルは NFNet-F7+ です。これは 8 エポックの事前トレーニング済みで、ImageNet Top-1 精度の 90.3% を達成しており、事前トレーニングには約 110k TPU-v4 コア時間、微調整には 1.6k TPU-v4 コア時間が必要です。さらに、微調整中に繰り返し拡張を追加導入すると、Top-1 精度 90.4% を達成できます。 NFNet は大規模な事前トレーニングから大きな恩恵を受けます。

2 つのモデル アーキテクチャには大きな違いがあるにもかかわらず、事前トレーニング済みの NFNet と事前トレーニング済みの ViT のパフォーマンスは同等です。たとえば、ViT-g/14 は、JFT-3B で 210k TPU-v3 コア時間の事前トレーニングを行った後、ImageNet で 90.2% の Top-1 精度を達成し、ViT-G/14 は、JFT-3B で 500k TPU-v3 コア時間以上の事前トレーニングを行った後、90.45% の Top-1 精度を達成します。

この論文では、TPU-v4 上でのこれらのモデルの事前トレーニング速度を評価し、事前トレーニングには ViT-g/14 では 12 万 TPU-v4 コア時間、ViTG/14 では 28 万 TPU-v4 コア時間、SoViT-400m/14 では 13 万 TPU-v4 コア時間が必要であると推定しています。これらの推定値を使用して、図 1 で ViT と NFNet の事前トレーニング効率を比較します。調査では、NFNet は TPU-v4 向けに最適化されており、他のデバイスで評価するとパフォーマンスが悪かったことが指摘されています。

最後に、事前トレーニング済みのチェックポイントは JFT-4B で検証損失が最も低くなりますが、微調整によって ImageNet で最高の Top-1 精度が常に達成されるわけではないことに注意してください。特に、事前トレーニングの計算予算が固定されている場合、微調整メカニズムは一貫してわずかに大きいモデルとわずかに小さいエポック予算を優先することがわかります。直感的に言えば、モデルが大きいほど容量が大きくなり、新しいタスクに適応しやすくなります。場合によっては、学習率を少し高くすると(事前トレーニング中)、微調整後のパフォーマンスが向上することもあります。

<<: 

>>:  ソフトウェアテストが再び進化、Testinクラウドテストリモート実機サービスには明らかな利点がある

ブログ    
ブログ    

推薦する

最近人気の大型モデルや自動運転コンセプトについてお話ししましょう。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

高所から物が投げ出される悲劇が多発。AI監視システム「私があなたを守ります」

近年、高所から物が投げられたり落下したりして負傷する事故が多発しています。水のボトル、スイカの皮、缶...

人間が理解できる音声を合成するために、機械はどのような「ディープラーニング」を行っているのでしょうか?

ディープラーニングは2006年に登場して以来、近年急速に発展し、学術研究と企業アプリケーションの両方...

...

...

生体認証市場における 4 つの「ホットアイテム」: 音声認識、顔認識など。

生体認証市場を見ると、顔認証や虹彩認証などの割合が増加しており、一般の人々のこれらの技術に対する理解...

ああはは、それだ!人気の機械学習アルゴリズムの 4 つの「なるほど!」という瞬間

ほとんどの人は 2 つのグループに分かれます。これらの機械学習アルゴリズムが理解できません。アルゴリ...

大規模グラフニューラルネットワークの応用と最新のパラダイムの探究

1. 大規模グラフメモリ/計算問題を解決するための3つのパラダイム2年前に作成したチュートリアルでは...

フォレスター:生成型AIと会話型AIが2023年のトップ10新興テクノロジーを独占

分析会社フォレスターは7月24日、2023年のトップ10新興テクノロジーレポートを発表しました。生成...

2020年のIT開発トレンドは刺激的

[[274294]] [51CTO.com クイック翻訳] Future Today Researc...

DeepMindはAIを使ってチェスの新しいルールを作成する

今回、彼らは元チェス世界チャンピオンのウラジミール・クラムニクとチームを組み、AI技術にこの古代のボ...

...

人工知能は人間に取って代わろうとしているのでしょうか、あるいは人間を支配しようとしているのでしょうか?本当にそうなのでしょうか?

生産性が徐々に生産と生活をカバーするようになると、ロボットはすぐに生活のあらゆる分野に参入し、一部の...