正規化を放棄することで、ディープラーニングモデルの精度は前例のないレベルに到達しました

正規化を放棄することで、ディープラーニングモデルの精度は前例のないレベルに到達しました

データを機械学習モデルに渡すときには、データを正規化する必要があることはわかっています。

データの正規化後、データは均一な間隔に「平坦化」され、出力範囲は 0 から 1 の間に縮小されます。一般的に、このような操作を行うと、最適なソリューションを見つけるプロセスが大幅にスムーズになり、モデルが最適レベルに正しく収束しやすくなると考えられています。

しかし、この「ステレオタイプ」は最近になって挑戦を受けています。DeepMind の研究者は、正規化を必要としないディープラーニング モデル NFNet を提案しましたが、これは大規模な画像分類タスクで業界最高レベル (SOTA) を達成しています。

前例のないレベル">

このモデル (赤) と他のモデルの ImageNet 分類精度およびトレーニング時間の比較。

「私たちは、迅速にトレーニングできる高性能アーキテクチャの開発に注力し、シンプルな手法(適応型勾配クリッピング、AGC)によって、最先端のパフォーマンスを達成しながら、大規模なバッチと大規模なデータ拡張でトレーニングできることを実証しました」と、DeepMindの研究科学者で論文の筆頭著者であるアンドリュー・ブロック氏は述べた。

この研究は提出されるとすぐに人々の注目を集めました。

前例のないレベル">
  • 論文リンク: https://arxiv.org/abs/2102.06171
  • DeepMind はモデルの実装もリリースしました: https://github.com/deepmind/deepmind-research/tree/master/nfnets

NFNet は正規化されていない ResNet ネットワークです。具体的には、この研究は以下の点に貢献します。

  • 適応勾配クリッピング (AGC) 法は、勾配ノルムとパラメータノルムの単位比に基づいて勾配をクリップするものとして提案されています。研究者らは、AGC がより大きなバッチと大規模なデータ拡張を使用して非正規化ネットワークをトレーニングできることを証明しました。
  • 私たちは、ImageNet 検証セットの幅広いトレーニング遅延にわたって最先端のパフォーマンスを実現する、Normalizer-Free ResNet と呼ばれる新しいネットワークを設計しました。 NFNet-F1 モデルは、8.7 倍の速度でトレーニングしながら EfficientNet-B7 と同等の精度を達成し、NFNet モデルの最大バージョンは新しい SOTA の最先端技術を設定し、追加データなしで 86.5% のトップ 1 精度を達成します。
  • 3 億枚のラベル付き画像からなる大規模なプライベート データセットで事前トレーニングし、ImageNet で微調整すると、NFNet はバッチ正規化モデルよりも高い Top-1 精度 (最大 89.2%) を達成できます。

研究方法

正規化がない場合、多くの研究者がバッチ正規化の利点を回復することで、deep ResNet の精度を向上させようと試みてきました。これらの研究のほとんどは、小さな定数または学習可能なスカラーを導入することで、初期化中に残差ブランチの活性化スケールを抑制します。

この DeepMind の研究では、正規化レイヤーなしでトレーニングとテストの精度が得られるようにトレーニングできる事前アクティベーション ResNet のクラスである Normalizer-Free ResNet (NF-ResNet) を採用し、それを基に構築しています。

NF-ResNet は次の残差ブロックを使用します。

前例のないレベル">

このうち、h_iはi番目の残差ブロックの入力を表し、f_iはi番目の残差ブランチで計算される関数を表します。

効率的な大規模バッチトレーニングのための適応勾配クリッピング

NF-ResNet をより大きなバッチサイズに拡張するために、研究者は一連の勾配クリッピング戦略を検討しました。勾配クリッピングは、言語モデリングにおいてトレーニングを安定させるためによく使用されます。最近のいくつかの研究では、勾配クリッピングにより勾配降下法に比べて高い学習率でトレーニングが可能になり、収束が加速されることが示されています。これは、条件付けの少ない損失ランドスケープや、バッチ サイズが大きいトレーニングの場合に特に重要です。このような場合、最適な学習率は最大安定学習率によって制約されるためです。したがって、勾配クリッピングは NF-ResNet を大規模バッチ設定に効率的に拡張するのに役立つはずだと仮定します。

この研究では、AGC と呼ばれる勾配クリッピング法を利用して、SOTA の精度とトレーニング速度を実現するノーマライザーフリー アーキテクチャを調査し、設計しました。

画像分類タスクの現在の SOTA は、主に EfficientNet シリーズのモデル (Tan & Le、2019) によって達成されています。これらのモデルは、パラメータ数と FLOP 数を最小限に抑えながらテスト精度を最大化するように最適化されていますが、理論的な計算の複雑さが低いため、トレーニング速度が向上しません。

前例のないレベル">

この研究では、デバイス上の実際のトレーニング遅延と比較して、ImageNet 上のホールドアウト トップ 1 のパレート フロンティアの改善につながる設計ガイドを手動で検索することで、モデル設計の空間を調査します。ホールドアウト精度への影響は表 2 に示されています。

前例のないレベル">

実験

表 3 は、モデル サイズ、トレーニング レイテンシ、ImageNet 検証精度の観点から、6 つの異なる NFNet (F0 ~ F5) と他のモデルの比較を示しています。 NFNets-F5 は SOTA トップ 1 精度 86.0% を達成し、これは EfficientNet-B8 より確実に向上しています。NFNet-F1 のテスト精度は EfficientNet-B7 に匹敵し、トレーニング速度は 8.7 倍向上しています。NFNet-F6+SAM はトップ 1 精度 86.5% を達成しました。

前例のないレベル">

ImageNet データセットにおける NFNet と他のモデルの精度の比較。レイテンシは、TPU または GPU (V100) で 1 つの完全なトレーニング ステップを実行するのにかかる時間をミリ秒単位で測定します。

さらに、研究者らは 3 億枚の注釈付き画像のデータセットを使用して NFNet の亜種を事前トレーニングし、ImageNet 用に微調整しました。最終的に、NFNet-F4+ は ImageNet で 89.2% のトップ 1 精度を達成しました。これは、追加のトレーニング データを使用してこれまでに達成された検証精度としては 2 番目に高いものであり、現在の最強の半教師あり学習ベースライン (Pham ら、2020 年) と転移学習によって達成された最高の精度に次ぐものです。

前例のないレベル">

表 5: 追加データを使用した大規模な事前トレーニング後の ImageNet モデル転送パフォーマンスの比較。

アンドリュー・ブロック氏は、ニューラルネットワークの信号伝達とトレーニング規則の理解にはまだ多くの探求の余地があるものの、非正規化法は人々に強力な参考資料を提供し、この深い理解能力を開発することで生産環境の効率を効果的に向上できることを証明したと述べた。

<<:  IBMがWatson Healthの売却を計画しているが、AI医療はまだ手つかずのままか?

>>:  中国の博士課程の学生が、2つのトランスフォーマーを使ってGANを構築しようとした。

ブログ    
ブログ    

推薦する

機械学習がインドのヘルスケア分野に変化をもたらす

ヘルスケア産業はインド経済において最大のセクターの一つとなっている。 NITIAyogの報告によると...

...

Google VideoPoet の責任者 Jiang Lu が TikTok に参入しました! AIビデオモデル戦争が迫る

OpenAIを去った技術の第一人者、カルパシー氏はついにオンラインで2時間のAI講座を開始した。 —...

...

人工知能アルゴリズム: 遺伝的アルゴリズム

この本の最初の 2 章では、進化アルゴリズムをやや抽象的な意味で定義しています。スコアリング、選択、...

ロボットを放っておいてください!人間が本当に心配しなければならないのは人工知能だ

近年、人工知能の倫理的問題についての議論が盛んに行われている。最近終了した中国コンピュータカンファレ...

Dropbox のエンジニアがロスレス圧縮アルゴリズム「Pied Piper」を開発

Dropbox のエンジニアたちは世界をより良い場所にするために取り組んでおり、HBO のコメディー...

AlphaFold2 は大きな貢献をしました!清華大学チームがディープラーニングでCOVID-19抗体を強化し、AIの画期的な成果を生み出す

2020年末、DeepMindが開発した第2世代ディープラーニングニューラルネットワークであるAlp...

Google Project Ellman が Gemini AI モデルのシナリオを公開

Googleチームは、AI技術を使ってユーザーの写真や検索エンジンのクエリ情報を処理し、ユーザーの生...

...

2021 年を迎えるにあたり、人気の GNN はどのアプリケーション分野で存在感を発揮するのでしょうか?

近年、グラフ構造の強力な表現力により、機械学習の手法を用いたグラフ解析の研究が注目を集めています。グ...

Googleの人工知能部門DeepMindが想像力を駆使した新システムを開発

北京時間8月19日のreadwriteによると、2014年にGoogleに買収された英国の人工知能企...

ついに誰かが説明可能な機械学習を明らかにした

[[443127]]ビッグデータの時代において、機械学習は製品の売上向上や人間の意思決定の支援に大き...

YouTubeがAIツールシリーズを発表:動画作成の提案、背景の生成、多言語吹き替えが可能

YouTubeは本日、クリエイターカンファレンス「Made on YouTube」において、AIを活...

...