小さなモデル、大きなトレンド! Googleは2つのモデルを提案した。音量は7倍に減少し、速度は10倍に増加する。

小さなモデル、大きなトレンド! Googleは2つのモデルを提案した。音量は7倍に減少し、速度は10倍に増加する。

[[426899]]

ニューラル ネットワーク モデルとトレーニング データのサイズが大きくなるにつれて、トレーニング効率がディープラーニングの重要な焦点になりつつあります。

GPT-3 は、少量学習において優れた能力を発揮しますが、数千の GPU を使用して数週間のトレーニングを必要とするため、再トレーニングや改善が困難です。

代わりに、より小型で高速でありながら、より正確なニューラル ネットワークを設計できるとしたらどうなるでしょうか?

Google は、モデル容量と一般化に基づくニューラル アーキテクチャと原理的な設計方法論を通じて得られる、画像認識用の 2 種類のニューラル ネットワーク モデルを提案しました。

1つ目はICML 2021で提案されたEfficientNetV2で、主に畳み込みニューラルネットワークで構成されており、比較的小さなデータセット(128万枚の画像を持つImageNet1kなど)のトレーニング速度を向上させることを目的としています。

EfficientNet V2 は、以前の EfficientNet アーキテクチャに基づいています。元の方法を改善するために、Google の研究チームは、最新モデルの TPU/GPU におけるトレーニング速度のボトルネックを体系的に研究し、いくつかの発見をしました。

1. トレーニングに非常に大きな画像を使用すると、メモリ使用量が増加し、TPU/GPU でのトレーニングが一般的に遅くなります。

2. 広く使用されている深さ方向の畳み込みは、ハードウェアの使用率が低いため、TPU/GPU では非効率的です。

3. 一般的に使用される均一複合スケーリングは、畳み込みネットワークの各ステージを均等に増幅しますが、これは最良の方法ではありません。

これらの問題に対処するため、研究者らはトレーニングを考慮したニューラル アーキテクチャ検索 (トレーニングを考慮した NAS) を提案しました。この検索で​​は、トレーニング速度も最適化の目的に含まれ、さまざまな段階で非均一なスケーリングが使用されます。モデル コードもオープン ソース化されています。

論文の第一著者はMingxing Tan氏です。

トレーニング対応 NAS のアーキテクチャは、以前のプラットフォーム対応 NAS に基づいていますが、推論速度に主に焦点を当てた元の方法とは異なり、トレーニング対応 NAS はモデルの精度、モデル サイズ、トレーニング速度を同時に最適化します。

このモデルは、元の検索空間を拡張して、FusedMBConv などのアクセラレータに適した操作も含めます。これにより、平均プーリングや最大プーリングなどの不要な操作を削除して、検索空間を簡素化できます。

結果として得られた EfficientNetV2 ネットワークは、以前のすべてのモデルよりも高い精度を実現すると同時に、より高速で 6.8 倍小型化されています。

トレーニングプロセスをさらに高速化するために、研究者らは、トレーニング中に画像のサイズと正規化の振幅を徐々に変更する、強化された漸進的学習法も提案しました。

プログレッシブトレーニングは、画像分類、GAN、言語モデルに使用され、有望な結果が得られています。この方法は画像分類に重点を置いていますが、精度を犠牲にしてトレーニング速度を上げることが多い従来の方法とは異なり、トレーニング時間を大幅に短縮しながら精度をわずかに向上させることができます。

改良された方法の重要なアイデアは、画像サイズに応じて、ドロップアウトの確率やデータ拡張の度合いなどの正規化の強度を適応的に変更することです。同じネットワークの場合、画像サイズが小さいとネットワーク容量が低下するため、より弱い正規化が必要になります。逆に、画像サイズが大きい場合は、過剰適合を防ぐためにより強い正規化が必要になります。

EfficientNetV2 モデルは、ImageNet および CIFAR-10/100、Flowers、Cars などのいくつかの転移学習データセットで評価されます。 ImageNet では、EfficientNetV2 は以前のモデルを大幅に上回り、精度を損なうことなく、トレーニング速度が約 5 ~ 11 倍高速化し、モデル サイズが 6.8 倍小さくなりました。

2 番目のカテゴリは CoAtNet です。これは畳み込みと自己注意を組み合わせたハイブリッド モデルであり、ImageNet21 (1,300 万枚の画像) や JFT (数十億枚の画像) などの大規模データセットでより高い精度を実現することを目的としています。

EfficientNetV2 は依然として典型的な畳み込みニューラル ネットワークですが、Visual Transformer (ViT) に関する最近の研究では、注意ベースの Transformer モデルが JFT-300M などの大規模データセット上で畳み込みニューラル ネットワークよりも優れていることが示されています。

この観察に触発され、研究者たちは畳み込みニューラルネットワークを超えて研究をさらに拡大し、より高速で正確な視覚モデルを見つける努力をしました。

私たちは、畳み込みと自己注意を組み合わせて、大規模な画像認識のための高速で正確なニューラル ネットワークを開発する方法を体系的に研究しています。この研究は、畳み込みは一般にその帰納的バイアスにより一般化能力(つまり、トレーニングと評価の間のパフォーマンスギャップ)が優れているのに対し、自己注意トランスフォーマーは世界をモデル化する能力が強いため、一般化能力(つまり、大規模なトレーニングに適応する能力)が強い傾向があるという観察に基づいています。

畳み込みと自己注意を組み合わせることで、結果として得られるハイブリッド モデルは、より優れた一般化とより大きな容量を実現できます。

深い畳み込みと自己注意は、単純な相対的注意を通じて自然に統合することができ、畳み込み層と注意層を垂直に積み重ねることで、各段階で必要な容量と計算能力を同時に考慮できるため、一般化、容量、効率が向上します。

CoAtNet アーキテクチャでは、サイズが HxW の入力画像が与えられると、最初のステム ステージ (S0) で最初に畳み込みが適用され、サイズが H/2 x W/2 に縮小されます。サイズは段階ごとに小さくなり続けます。 Ln はレイヤーの数を表します。最初の 2 つのステージ (S1 と S2) では、主に深さ方向の畳み込みで構成された MBConv ビルディング ブロックを採用します。最後の 2 つのステージ (S3 と S4) では、主に相対的な自己注意を備えた Transformer ブロックを採用します。 ViT の以前の Transformer ブロックとは異なり、Funnel Transformer と同様に、ここではステージ間のプーリングが使用されます。最後に、分類ヘッドを使用してクラス予測確率を生成します。

CoAtNet モデルは、ImageNet1K、ImageNet21K、JFT などの多くのデータセットで、ViT モデルとそのバリアントよりも一貫して優れています。畳み込みネットワークと比較すると、CoAtNet は小規模データセット (ImageNet1K) では同等のパフォーマンスを示し、データ サイズが増加すると (ImageNet21K や JFT など) 大幅なパフォーマンス向上を実現します。

研究者らは、大規模な JFT データセットでも CoAtNet を評価しました。同様の精度目標を達成するために、CoAtNet は以前の ViT モデルよりも 4 倍速くトレーニングし、さらに重要なことに、ImageNet で 90.88% という新しい最先端のトップ 1 精度を達成しました。

以前の結果と比較すると、提案されたモデルは 4 ~ 10 倍高速であり、よく知られている ImageNet データセットで最先端の 90.88% のトップ 1 精度を達成しています。

<<:  ガートナー:今後2年間で、テクノロジープロバイダーの3分の1がAIに100万ドル以上を投資する

>>:  2457億のパラメータ!世界最大のAIモデル「Source 1.0」がリリース、中国が独自のGPT-3を製作

ブログ    

推薦する

体型の変化は千差万別! MIT が宇宙探査用人工物を開発 - モジュール式の自己再構成可能なマイクロロボット

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

新しいAIにより、教師はインテリジェントな個別指導システムを迅速に開発できる

インテリジェントな個別指導システムは、代数や文法などの特定の科目の指導に効果的であることが証明されて...

レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける

オランダのラドバウド大学は8月2日、MetaやOpenAIなどの企業が「オープンソース」という用語を...

ダニエル・ウーの顔を5秒で変える!人気のAIアプリ「ZAO」は依然として技術的な問題に直面しています。あなたの「顔」は認証されましたか?

制作:ビッグデータダイジェスト編集部ZAOは一夜にして人気者になった。一昨夜、文翁の友人の輪には、さ...

...

新しい3Dバイオプリンティング技術は皮膚と骨の損傷を同時に修復できる

海外メディアの報道によると、ペンシルベニア州立大学の研究者らは、2種類の異なる「バイオインク」を使用...

Python に基づく簡単な自然言語処理の練習

Python によるシンプルな自然言語処理この記事は、Python をベースにした簡単な自然言語処理...

Python における 7 つの主要なキーワード抽出アルゴリズムのベンチマーク

私はキーワード抽出タスクのための効率的なアルゴリズムを探していました。 目標は、データ コーパスが急...

SFから現実へ:人間のデジタルツインの旅

サイエンス フィクションの世界では、デジタル ツインの概念は長い間定番であり、作家たちは、人間が操作...

知識共有: 管理距離と最大ホップ数の違いに関するルーティングアルゴリズムの分析

管理距離は、ルーティング プロトコルの優先度を表す人工的に指定された数値です。数値が小さいほど、ルー...

平均年収35万元、2018年のビッグデータAIの発展動向分析

近年、ビッグデータは非常に人気があり、特に2017年には、ビッグデータ産業の発展が政府活動報告に記載...

データセキュリティの向上と人工知能の信頼性の向上

JD Discovery Research InstituteのTao Dacheng所長はかつて、...

機械経済の到来: つながる世界を動かす

機械経済は、長年にわたる急速な社会の発展と新しい製造プロセスへの移行によって進化してきました。第一次...

匿名の論文が驚くべきアイデアを提案!大規模なモデルと長いテキストの能力を強化する

大規模モデルで長いテキストを処理する能力を向上させる場合、長さの外挿やコンテキスト ウィンドウの拡張...