小さなモデル、大きなトレンド！ Googleは2つのモデルを提案した。音量は7倍に減少し、速度は10倍に増加する。

[[426899]]

ニューラルネットワークモデルとトレーニングデータのサイズが大きくなるにつれて、トレーニング効率がディープラーニングの重要な焦点になりつつあります。

GPT-3 は、少量学習において優れた能力を発揮しますが、数千の GPU を使用して数週間のトレーニングを必要とするため、再トレーニングや改善が困難です。

代わりに、より小型で高速でありながら、より正確なニューラルネットワークを設計できるとしたらどうなるでしょうか?

Google は、モデル容量と一般化に基づくニューラルアーキテクチャと原理的な設計方法論を通じて得られる、画像認識用の 2 種類のニューラルネットワークモデルを提案しました。

1つ目はICML 2021で提案されたEfficientNetV2で、主に畳み込みニューラルネットワークで構成されており、比較的小さなデータセット（128万枚の画像を持つImageNet1kなど）のトレーニング速度を向上させることを目的としています。

EfficientNet V2 は、以前の EfficientNet アーキテクチャに基づいています。元の方法を改善するために、Google の研究チームは、最新モデルの TPU/GPU におけるトレーニング速度のボトルネックを体系的に研究し、いくつかの発見をしました。

1. トレーニングに非常に大きな画像を使用すると、メモリ使用量が増加し、TPU/GPU でのトレーニングが一般的に遅くなります。

2. 広く使用されている深さ方向の畳み込みは、ハードウェアの使用率が低いため、TPU/GPU では非効率的です。

3. 一般的に使用される均一複合スケーリングは、畳み込みネットワークの各ステージを均等に増幅しますが、これは最良の方法ではありません。

これらの問題に対処するため、研究者らはトレーニングを考慮したニューラルアーキテクチャ検索 (トレーニングを考慮した NAS) を提案しました。この検索では、トレーニング速度も最適化の目的に含まれ、さまざまな段階で非均一なスケーリングが使用されます。モデルコードもオープンソース化されています。

論文の第一著者はMingxing Tan氏です。

トレーニング対応 NAS のアーキテクチャは、以前のプラットフォーム対応 NAS に基づいていますが、推論速度に主に焦点を当てた元の方法とは異なり、トレーニング対応 NAS はモデルの精度、モデルサイズ、トレーニング速度を同時に最適化します。

このモデルは、元の検索空間を拡張して、FusedMBConv などのアクセラレータに適した操作も含めます。これにより、平均プーリングや最大プーリングなどの不要な操作を削除して、検索空間を簡素化できます。

結果として得られた EfficientNetV2 ネットワークは、以前のすべてのモデルよりも高い精度を実現すると同時に、より高速で 6.8 倍小型化されています。

トレーニングプロセスをさらに高速化するために、研究者らは、トレーニング中に画像のサイズと正規化の振幅を徐々に変更する、強化された漸進的学習法も提案しました。

プログレッシブトレーニングは、画像分類、GAN、言語モデルに使用され、有望な結果が得られています。この方法は画像分類に重点を置いていますが、精度を犠牲にしてトレーニング速度を上げることが多い従来の方法とは異なり、トレーニング時間を大幅に短縮しながら精度をわずかに向上させることができます。

改良された方法の重要なアイデアは、画像サイズに応じて、ドロップアウトの確率やデータ拡張の度合いなどの正規化の強度を適応的に変更することです。同じネットワークの場合、画像サイズが小さいとネットワーク容量が低下するため、より弱い正規化が必要になります。逆に、画像サイズが大きい場合は、過剰適合を防ぐためにより強い正規化が必要になります。

EfficientNetV2 モデルは、ImageNet および CIFAR-10/100、Flowers、Cars などのいくつかの転移学習データセットで評価されます。 ImageNet では、EfficientNetV2 は以前のモデルを大幅に上回り、精度を損なうことなく、トレーニング速度が約 5 ～ 11 倍高速化し、モデルサイズが 6.8 倍小さくなりました。

2 番目のカテゴリは CoAtNet です。これは畳み込みと自己注意を組み合わせたハイブリッドモデルであり、ImageNet21 (1,300 万枚の画像) や JFT (数十億枚の画像) などの大規模データセットでより高い精度を実現することを目的としています。

EfficientNetV2 は依然として典型的な畳み込みニューラルネットワークですが、Visual Transformer (ViT) に関する最近の研究では、注意ベースの Transformer モデルが JFT-300M などの大規模データセット上で畳み込みニューラルネットワークよりも優れていることが示されています。

この観察に触発され、研究者たちは畳み込みニューラルネットワークを超えて研究をさらに拡大し、より高速で正確な視覚モデルを見つける努力をしました。

私たちは、畳み込みと自己注意を組み合わせて、大規模な画像認識のための高速で正確なニューラルネットワークを開発する方法を体系的に研究しています。この研究は、畳み込みは一般にその帰納的バイアスにより一般化能力（つまり、トレーニングと評価の間のパフォーマンスギャップ）が優れているのに対し、自己注意トランスフォーマーは世界をモデル化する能力が強いため、一般化能力（つまり、大規模なトレーニングに適応する能力）が強い傾向があるという観察に基づいています。

畳み込みと自己注意を組み合わせることで、結果として得られるハイブリッドモデルは、より優れた一般化とより大きな容量を実現できます。

深い畳み込みと自己注意は、単純な相対的注意を通じて自然に統合することができ、畳み込み層と注意層を垂直に積み重ねることで、各段階で必要な容量と計算能力を同時に考慮できるため、一般化、容量、効率が向上します。

CoAtNet アーキテクチャでは、サイズが HxW の入力画像が与えられると、最初のステムステージ (S0) で最初に畳み込みが適用され、サイズが H/2 x W/2 に縮小されます。サイズは段階ごとに小さくなり続けます。 Ln はレイヤーの数を表します。最初の 2 つのステージ (S1 と S2) では、主に深さ方向の畳み込みで構成された MBConv ビルディングブロックを採用します。最後の 2 つのステージ (S3 と S4) では、主に相対的な自己注意を備えた Transformer ブロックを採用します。 ViT の以前の Transformer ブロックとは異なり、Funnel Transformer と同様に、ここではステージ間のプーリングが使用されます。最後に、分類ヘッドを使用してクラス予測確率を生成します。

CoAtNet モデルは、ImageNet1K、ImageNet21K、JFT などの多くのデータセットで、ViT モデルとそのバリアントよりも一貫して優れています。畳み込みネットワークと比較すると、CoAtNet は小規模データセット (ImageNet1K) では同等のパフォーマンスを示し、データサイズが増加すると (ImageNet21K や JFT など) 大幅なパフォーマンス向上を実現します。

研究者らは、大規模な JFT データセットでも CoAtNet を評価しました。同様の精度目標を達成するために、CoAtNet は以前の ViT モデルよりも 4 倍速くトレーニングし、さらに重要なことに、ImageNet で 90.88% という新しい最先端のトップ 1 精度を達成しました。

以前の結果と比較すると、提案されたモデルは 4 ～ 10 倍高速であり、よく知られている ImageNet データセットで最先端の 90.88% のトップ 1 精度を達成しています。

<<: ガートナー：今後2年間で、テクノロジープロバイダーの3分の1がAIに100万ドル以上を投資する

>>: 2457億のパラメータ！世界最大のAIモデル「Source 1.0」がリリース、中国が独自のGPT-3を製作