モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー：計算コストは手頃ではない

[[431688]]

最近、機械学習モデルは、モデルパラメータが増えながらも一般化性能が良好な大規模モデルに向かう傾向を示しています。一部の研究者は、確率的勾配降下アルゴリズム (SGD) によって導入されるランダムノイズによって一般化パフォーマンスが向上すると考えています。しかし、最近の ICLR 2022 の投稿「一般化には確率的トレーニングは不要」では、多数の実験を通じて、フルバッチ勾配降下アルゴリズム (GD) が SGD に匹敵するテスト精度を達成できること、およびランダムノイズによってもたらされる暗黙的な正則化効果を明示的な正則化で置き換えることができることが確認されました。

論文アドレス: https://arxiv.org/pdf/2109.14119.pdf

この論文はすぐにコミュニティ内で議論を巻き起こし、論文の価値に疑問を呈する声や、個々の例が代表的ではないと感じる声も上がった。

また、この論文は調査報告書のようなもので、提示された視点や証拠は目新しいものではないという意見もあった。

画像出典: Zhihu ユーザー @Summer Clover

内容はやや物議を醸すものですが、タイトルから判断すると、この論文には多くの議論が含まれているはずです。論文の具体的な内容を見てみましょう。

一般化にはランダムトレーニングは必要ない

確率的勾配降下法 (SGD) は、少なくとも 1998 年に LeCun らによって考案されて以来、ディープニューラルネットワークの最適化の主流となっています。確率的勾配降下アルゴリズムが成功した主な理由は、大規模なデータセットでの効率性です。損失関数の勾配のノイズ推定は、ニューラルネットワークのパラメーターを改善するのに十分であることが多く、トレーニングセット全体の完全な勾配よりも高速に計算できます。

確率的勾配降下法 (SGD) の暗黙的な正規化は、ニューラルネットワークの一般化特性の基礎であると広く信じられています。しかし、この研究では、非確率的フルバッチトレーニングが CIFAR-10 上で SGD に匹敵する強力なパフォーマンスを達成できることが実証されています。これに基づいて、この研究では調整されたハイパーパラメータを使用し、SGD の暗黙的な正則化を明示的な正則化に完全に置き換えることができることを示しました。研究者たちは、ランダムサンプリングに大きく依存して一般化を説明する理論は不完全であることを示していると考えています。ランダムサンプリングがなくても、優れた一般化パフォーマンスを達成できるからです。さらに説明されているように、ディープラーニングはランダム性がなくても成功します。さらに、研究者らは、フルバッチトレーニングの難しさは、主に最適化の特性と、機械学習コミュニティが小バッチトレーニングのオプティマイザーとハイパーパラメータを調整するために費やす時間と労力の過度な増加によるものだと述べています。

ランダムデータ拡張による完全バッチGD

SGD には GD に比べて 2 つの主な利点があります。まず、SGD の最適化プロセスでは、臨界バッチサイズを超えると、安定性と収束速度が飛躍的に向上します。第二に、小さなバッチで大きなステップサイズを持つSGDによって引き起こされる暗黙のバイアスは、式(5)と(7)で導出される明示的な正則化によって置き換えられることが示されている。

この研究では、仮説を経験的に調査し、フルバッチのパフォーマンスを達成することを主な目標として、ミニバッチからの勾配ノイズがない場合でも強力な一般化を可能にするトレーニングを確立しようとします。そこで本研究では、実験のためにCIFAR-10上で画像分類用のResNetモデルをトレーニングしました。

ベースライン SGD の場合、この研究ではトレーニングに確率的勾配降下法、バッチサイズ 128、ネステロフ運動量 0.9、重み減衰 0.0005 を使用しました。

ミニバッチSGDの検証精度は95.70%（±0.05）に達しました。ミニバッチ SGD は、ミニバッチ処理からほぼ独立した強力なベースラインを提供します。下の表 1 に示すように、復元抽出法でも同じ 95.70% の精度が達成されます。どちらの場合も、ランダムなミニバッチ処理によって発生する勾配ノイズが強い一般化につながります。

次に、この研究では、同じ設定を完全なバッチ勾配降下法に使用しました。ミニバッチをフルバッチに置き換え、すべてのミニバッチ勾配を蓄積します。バッチ正規化の影響を排除するために、この研究ではバッチサイズを 128 にしてバッチ正規化を計算し、トレーニングプロセス全体を通じて固定されたままのいくつかのブロックにデータポイントを割り当てて、バッチ正規化によってランダム性が導入されないようにします。大規模バッチトレーニングに関する他の研究と一致して、これらの設定で完全なバッチ勾配降下法を適用した場合の検証精度はわずか 75.42% (±0.13) であり、SGD と GD の間には約 20% の精度ギャップがあります。

この研究では、以下の表 1 に示すように、単純な形式の勾配ノイズを注入するだけではこのギャップを簡単に埋めることはできないと指摘されています。次の実験は、フルバッチトレーニングとミニバッチトレーニングのギャップを狭めることを目的としています。

フルバッチトレーニングは不安定であるため、この研究では安定性を維持するために 400 ステップ (各ステップはエポック) にわたって学習率を 0.0 から 0.4 に増加させ、3000 ステップ後にコサインアニーリングによって学習率を 0.1 に減少させます。

実験では、トレーニング設定にいくつかの変更を加えた後、完全なバッチ勾配降下法のパフォーマンスが 87.36% (±1.23) に向上することが示されています。これはベースラインより 12% 高いですが、SGD のパフォーマンスにはまだまだ及びません。検証スコアは表 2 にまとめられています。

この研究では、明示的な正則化によってこのギャップを埋め、初期学習率を再び向上させます。学習率は 400 回目の反復で 0.8 に増加し、その後 3000 ステップ以内に 0.2 に減少します。この学習率と正規化なしのクリッピングでトレーニングすると、93.75% (±0.13) の精度が得られます。正則化係数を追加すると、学習率を上げることでパフォーマンスが大幅に向上し、最終的には SGD と同等のパフォーマンスに達します。

全体として、この調査では、すべての変更を行った後、フルバッチ（ランダムデータ拡張を含む）と SGD のパフォーマンスは同等であり、検証精度は 95% を大幅に上回ることがわかりました。

この研究では、まったく同じハイパーパラメータを持つさまざまな視覚モデルも評価しました。 ResNet-50、ResNet-152、DenseNet-121の結果を表3に示します。この研究では、提案された方法がこれらのモデルにも適用可能であることがわかりました。

非確率的設定におけるフルバッチ勾配降下法

フルバッチ実験でミニバッチ SGD の効果を捉えられる場合、ランダムデータ拡張は勾配ノイズにどのような影響を与えるのでしょうか?研究者たちは以下の実験を行った。

データ拡張なし: データ拡張方法を使用せずに前回の実験を繰り返すと、クリッピングと正則化後の GD の検証精度は 89.17% となり、デフォルトのハイパーパラメータを使用した SGD (84.32% (±1.12)) よりも大幅に向上し、新しく調整されたハイパーパラメータを使用した SGD (90.07% (±0.48)) と同等になります (下の表 4 を参照)。

同じ設定で GD と SGD を分析し、データ拡張 (ランダム性なし) の影響を調査するために、この研究では、固定拡張 CIFAR-10 データセットを使用してランダムデータ拡張を置き換えました。つまり、トレーニングの前に、データ拡張の各データポイントに対して N 個のランダムデータがサンプリングされました。これらのサンプルはトレーニング中は固定されたままで、再サンプリングされないため、CIFAR-10 データセットは N 倍に拡大されます。

最後に、この研究では、ミニバッチ、シャッフル、データ拡張によって生じる勾配ノイズがなければ、モデルはランダム性なしで 95% を超える検証精度を達成できると結論付けました。これは、データ拡張によって導入されたノイズが一般化に影響を与えず、一般化に必要ではないことを示唆しています。

議論を喚起する

この論文はコミュニティ内で議論を巻き起こし、実験的な観点から論文の価値を分析した人もいました。

この論文では、SGD をベースラインとして CIFAR-10 で 300 エポックトレーニングされた ResNet18 を使用し、結果のセクションでは各トリックによって精度がどの程度向上するかを示しています。

しかし、こうしたトリックは非常に一般的なので、本当に効果があるのか疑問に思う人もいるでしょう。一部のネットユーザーは、「より長くトレーニングする」というトリックは CIFAR-10 でのみ有効であり、勾配クリッピングは他のデータセットでは有効ではない可能性があると指摘しました。

画像出典: Zhihu ユーザー @Summer Clover

論文で述べられている改善点は個別の事例であり、一般的な状況を表すのは難しいと思われます。しかし、彼はコメントの中で、SGDは正規化項を近似していると指摘した。

これは優れた理論的根拠を持つ非常に効果的なトリックですが、計算コストが 2 倍になる可能性があります。

画像出典: Zhihu ユーザー @Summer Clover

他の人々は、完全なバッチ設定のコストが平均的な開発者には高すぎるため、論文の調査結果の実用性は限られていると指摘した。対照的に、SGD トレーニングはより堅牢で、一般化が優れており、反復ごとにより多くのコンピューティングリソースを節約します。

この論文では理論的および実験的な検証がいくつか行われているようですが、ネットユーザーが示唆しているように、結論を検証するために他のデータセットでさらに実験を行うことはできないでしょうか?

これについてどう思いますか？

<<: 世界をより高いレベルのイノベーションへと導く AI テクノロジートップ 10

>>: 正規化により事前トレーニングが改善され、勾配の不一致が軽減され、Facebook のモデルが GPT-3 を上回る

モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー：計算コストは手頃ではない

一般化にはランダムトレーニングは必要ない

ランダムデータ拡張による完全バッチGD

非確率的設定におけるフルバッチ勾配降下法

議論を喚起する

少数ショット学習（１） — 機械学習におけるタスク最適化空間

Midjourneyに匹敵します！なぜミャオヤカメラは突然人気が出たのでしょうか？

ChatGPT を使ってデータを分析する 6 つの方法

KDnuggets 公式調査: データサイエンティストが最もよく使用する 10 のアルゴリズム

ロボットがIoTアプリケーションの範囲を拡大する方法

ロボットR2-D2は50年後に人間の仕事を完全に置き換えるでしょうか？

インターネット上の無料データサイエンス、機械学習、人工知能のMOOCベスト20

コンピュータービジョンは建設業界をどのように変えているのでしょうか?

独占インタビュー | 独立系開発者 Li Xiaoyu: AI ツールを使用して作業効率を向上

推薦する

AI を活用することで、銀行は年間 1 兆ドルの追加収益を得ることができる | マッキンゼーの最新調査レポート

ゼロからヒーローへ、OpenAIが深層強化学習リソースをリリース

ビジュアルMambaモデルのSwinの瞬間：中国科学院、HuaweiなどがVMambaを発表

Photonics 3DバーチャルアンカーチームがJD.comと提携し、11.11の最新の戦闘レポートをリアルタイムで放送

ルカン氏は、今後10年間の研究計画に関する62ページの論文を発表した。AI自律知能

周浦データの粘り強さと抑制力：有用性はデータインテリジェンスのゴールドスタンダード

物流ロボットが急増中！今後の市場の成長は2つのエンジンによって支えられる

アダプティブコンピューティングがAI製品化の課題にどのように対処するか

DeepMindはAIを使ってチェスの新しいルールを作成する

AI導入時に解決すべき無線ネットワークの運用・保守における4つの大きな課題

2024年のテクノロジートレンド: AI、5G、IoT、ブロックチェーンの影響

人工知能が製造業を改善する3つの方法