最近、機械学習モデルは、モデルパラメータが増えながらも一般化性能が良好な大規模モデルに向かう傾向を示しています。一部の研究者は、確率的勾配降下アルゴリズム (SGD) によって導入されるランダム ノイズによって一般化パフォーマンスが向上すると考えています。しかし、最近の ICLR 2022 の投稿「一般化には確率的トレーニングは不要」では、多数の実験を通じて、フルバッチ勾配降下アルゴリズム (GD) が SGD に匹敵するテスト精度を達成できること、およびランダム ノイズによってもたらされる暗黙的な正則化効果を明示的な正則化で置き換えることができることが確認されました。 論文アドレス: https://arxiv.org/pdf/2109.14119.pdf この論文はすぐにコミュニティ内で議論を巻き起こし、論文の価値に疑問を呈する声や、個々の例が代表的ではないと感じる声も上がった。 また、この論文は調査報告書のようなもので、提示された視点や証拠は目新しいものではないという意見もあった。 画像出典: Zhihu ユーザー @Summer Clover 内容はやや物議を醸すものですが、タイトルから判断すると、この論文には多くの議論が含まれているはずです。論文の具体的な内容を見てみましょう。 一般化にはランダムトレーニングは必要ない確率的勾配降下法 (SGD) は、少なくとも 1998 年に LeCun らによって考案されて以来、ディープ ニューラル ネットワークの最適化の主流となっています。確率的勾配降下アルゴリズムが成功した主な理由は、大規模なデータセットでの効率性です。損失関数の勾配のノイズ推定は、ニューラル ネットワークのパラメーターを改善するのに十分であることが多く、トレーニング セット全体の完全な勾配よりも高速に計算できます。 確率的勾配降下法 (SGD) の暗黙的な正規化は、ニューラル ネットワークの一般化特性の基礎であると広く信じられています。しかし、この研究では、非確率的フルバッチトレーニングが CIFAR-10 上で SGD に匹敵する強力なパフォーマンスを達成できることが実証されています。これに基づいて、この研究では調整されたハイパーパラメータを使用し、SGD の暗黙的な正則化を明示的な正則化に完全に置き換えることができることを示しました。研究者たちは、ランダムサンプリングに大きく依存して一般化を説明する理論は不完全であることを示していると考えています。ランダムサンプリングがなくても、優れた一般化パフォーマンスを達成できるからです。さらに説明されているように、ディープラーニングはランダム性がなくても成功します。さらに、研究者らは、フルバッチトレーニングの難しさは、主に最適化の特性と、機械学習コミュニティが小バッチトレーニングのオプティマイザーとハイパーパラメータを調整するために費やす時間と労力の過度な増加によるものだと述べています。 ランダムデータ拡張による完全バッチGDSGD には GD に比べて 2 つの主な利点があります。まず、SGD の最適化プロセスでは、臨界バッチ サイズを超えると、安定性と収束速度が飛躍的に向上します。第二に、小さなバッチで大きなステップサイズを持つSGDによって引き起こされる暗黙のバイアスは、式(5)と(7)で導出される明示的な正則化によって置き換えられることが示されている。 この研究では、仮説を経験的に調査し、フルバッチのパフォーマンスを達成することを主な目標として、ミニバッチからの勾配ノイズがない場合でも強力な一般化を可能にするトレーニングを確立しようとします。そこで本研究では、実験のためにCIFAR-10上で画像分類用のResNetモデルをトレーニングしました。 ベースライン SGD の場合、この研究ではトレーニングに確率的勾配降下法、バッチ サイズ 128、ネステロフ運動量 0.9、重み減衰 0.0005 を使用しました。 ミニバッチSGDの検証精度は95.70%(±0.05)に達しました。ミニバッチ SGD は、ミニバッチ処理からほぼ独立した強力なベースラインを提供します。下の表 1 に示すように、復元抽出法でも同じ 95.70% の精度が達成されます。どちらの場合も、ランダムなミニバッチ処理によって発生する勾配ノイズが強い一般化につながります。 次に、この研究では、同じ設定を完全なバッチ勾配降下法に使用しました。ミニバッチをフルバッチに置き換え、すべてのミニバッチ勾配を蓄積します。バッチ正規化の影響を排除するために、この研究ではバッチサイズを 128 にしてバッチ正規化を計算し、トレーニング プロセス全体を通じて固定されたままのいくつかのブロックにデータ ポイントを割り当てて、バッチ正規化によってランダム性が導入されないようにします。大規模バッチトレーニングに関する他の研究と一致して、これらの設定で完全なバッチ勾配降下法を適用した場合の検証精度はわずか 75.42% (±0.13) であり、SGD と GD の間には約 20% の精度ギャップがあります。 この研究では、以下の表 1 に示すように、単純な形式の勾配ノイズを注入するだけではこのギャップを簡単に埋めることはできないと指摘されています。次の実験は、フルバッチトレーニングとミニバッチトレーニングのギャップを狭めることを目的としています。 フルバッチトレーニングは不安定であるため、この研究では安定性を維持するために 400 ステップ (各ステップはエポック) にわたって学習率を 0.0 から 0.4 に増加させ、3000 ステップ後にコサインアニーリングによって学習率を 0.1 に減少させます。 実験では、トレーニング設定にいくつかの変更を加えた後、完全なバッチ勾配降下法のパフォーマンスが 87.36% (±1.23) に向上することが示されています。これはベースラインより 12% 高いですが、SGD のパフォーマンスにはまだまだ及びません。検証スコアは表 2 にまとめられています。 この研究では、明示的な正則化によってこのギャップを埋め、初期学習率を再び向上させます。学習率は 400 回目の反復で 0.8 に増加し、その後 3000 ステップ以内に 0.2 に減少します。この学習率と正規化なしのクリッピングでトレーニングすると、93.75% (±0.13) の精度が得られます。正則化係数を追加すると、学習率を上げることでパフォーマンスが大幅に向上し、最終的には SGD と同等のパフォーマンスに達します。 全体として、この調査では、すべての変更を行った後、フルバッチ(ランダムデータ拡張を含む)と SGD のパフォーマンスは同等であり、検証精度は 95% を大幅に上回ることがわかりました。 この研究では、まったく同じハイパーパラメータを持つさまざまな視覚モデルも評価しました。 ResNet-50、ResNet-152、DenseNet-121の結果を表3に示します。この研究では、提案された方法がこれらのモデルにも適用可能であることがわかりました。 非確率的設定におけるフルバッチ勾配降下法フルバッチ実験でミニバッチ SGD の効果を捉えられる場合、ランダム データ拡張は勾配ノイズにどのような影響を与えるのでしょうか?研究者たちは以下の実験を行った。 データ拡張なし: データ拡張方法を使用せずに前回の実験を繰り返すと、クリッピングと正則化後の GD の検証精度は 89.17% となり、デフォルトのハイパーパラメータを使用した SGD (84.32% (±1.12)) よりも大幅に向上し、新しく調整されたハイパーパラメータを使用した SGD (90.07% (±0.48)) と同等になります (下の表 4 を参照)。 同じ設定で GD と SGD を分析し、データ拡張 (ランダム性なし) の影響を調査するために、この研究では、固定拡張 CIFAR-10 データセットを使用してランダム データ拡張を置き換えました。つまり、トレーニングの前に、データ拡張の各データ ポイントに対して N 個のランダム データがサンプリングされました。これらのサンプルはトレーニング中は固定されたままで、再サンプリングされないため、CIFAR-10 データセットは N 倍に拡大されます。 最後に、この研究では、ミニバッチ、シャッフル、データ拡張によって生じる勾配ノイズがなければ、モデルはランダム性なしで 95% を超える検証精度を達成できると結論付けました。これは、データ拡張によって導入されたノイズが一般化に影響を与えず、一般化に必要ではないことを示唆しています。 議論を喚起するこの論文はコミュニティ内で議論を巻き起こし、実験的な観点から論文の価値を分析した人もいました。 この論文では、SGD をベースラインとして CIFAR-10 で 300 エポックトレーニングされた ResNet18 を使用し、結果のセクションでは各トリックによって精度がどの程度向上するかを示しています。 しかし、こうしたトリックは非常に一般的なので、本当に効果があるのか疑問に思う人もいるでしょう。一部のネットユーザーは、「より長くトレーニングする」というトリックは CIFAR-10 でのみ有効であり、勾配クリッピングは他のデータセットでは有効ではない可能性があると指摘しました。 画像出典: Zhihu ユーザー @Summer Clover 論文で述べられている改善点は個別の事例であり、一般的な状況を表すのは難しいと思われます。しかし、彼はコメントの中で、SGDは正規化項を近似していると指摘した。 これは優れた理論的根拠を持つ非常に効果的なトリックですが、計算コストが 2 倍になる可能性があります。 画像出典: Zhihu ユーザー @Summer Clover 他の人々は、完全なバッチ設定のコストが平均的な開発者には高すぎるため、論文の調査結果の実用性は限られていると指摘した。対照的に、SGD トレーニングはより堅牢で、一般化が優れており、反復ごとにより多くのコンピューティング リソースを節約します。 この論文では理論的および実験的な検証がいくつか行われているようですが、ネットユーザーが示唆しているように、結論を検証するために他のデータセットでさらに実験を行うことはできないでしょうか? これについてどう思いますか? |
<<: 世界をより高いレベルのイノベーションへと導く AI テクノロジー トップ 10
>>: 正規化により事前トレーニングが改善され、勾配の不一致が軽減され、Facebook のモデルが GPT-3 を上回る
[[212269]] IBM は、EPFL の研究者と共同で、機械学習アルゴリズムをトレーニングする...
[[402551]]ナレッジマネジメントは企業と個人の両方にとって非常に重要です。従来の知識管理は、...
ノア著制作:51CTO テクノロジースタック(WeChat ID:blog)昨年末に一連の「宮廷闘争...
[[432462]]既存の機械学習分類モデルは、性能と解釈可能性に基づいて、大まかに 2 つのカテ...
サービスは人間が行う仕事だということを否定する人はいないでしょう。しかし、テクノロジーはサービスを強...
[[423968]] Leetcode を実践するには、いくつかのアルゴリズム テンプレートを知って...
Huawei Connect 2021では、中国科学技術情報研究所(CITI)、AITISA(新世代...
[[435157]] [51CTO.com クイック翻訳]すべての企業がソフトウェア企業になりつつあ...
AIの次のチャンスはどこにあるのでしょうか? AIの概念が初めて提唱されたのは1956年なので、60...