モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー:計算コストは​​手頃ではない

モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー:計算コストは​​手頃ではない

[[431688]]

最近、機械学習モデルは、モデルパラメータが増えながらも一般化性能が良好な大規模モデルに向かう傾向を示しています。一部の研究者は、確率的勾配降下アルゴリズム (SGD) によって導入されるランダム ノイズによって一般化パフォーマンスが向上すると考えています。しかし、最近の ICLR 2022 の投稿「一般化には確率的トレーニングは不要」では、多数の実験を通じて、フルバッチ勾配降下アルゴリズム (GD) が SGD に匹敵するテスト精度を達成できること、およびランダム ノイズによってもたらされる暗黙的な正則化効果を明示的な正則化で置き換えることができることが確認されました。

論文アドレス: https://arxiv.org/pdf/2109.14119.pdf

この論文はすぐにコミュニティ内で議論を巻き起こし、論文の価値に疑問を呈する声や、個々の例が代表的ではないと感じる声も上がった。

また、この論文は調査報告書のようなもので、提示された視点や証拠は目新しいものではないという意見もあった。

画像出典: Zhihu ユーザー @Summer Clover

内容はやや物議を醸すものですが、タイトルから判断すると、この論文には多くの議論が含まれているはずです。論文の具体的な内容を見てみましょう。

一般化にはランダムトレーニングは必要ない

確率的勾配降下法 (SGD) は、少なくとも 1998 年に LeCun らによって考案されて以来、ディープ ニューラル ネットワークの最適化の主流となっています。確率的勾配降下アルゴリズムが成功した主な理由は、大規模なデータセットでの効率性です。損失関数の勾配のノイズ推定は、ニューラル ネットワークのパラメーターを改善するのに十分であることが多く、トレーニング セット全体の完全な勾配よりも高速に計算できます。

確率的勾配降下法 (SGD) の暗黙的な正規化は、ニューラル ネットワークの一般化特性の基礎であると広く信じられています。しかし、この研究では、非確率的フルバッチトレーニングが CIFAR-10 上で SGD に匹敵する強力なパフォーマンスを達成できることが実証されています。これに基づいて、この研究では調整されたハイパーパラメータを使用し、SGD の暗黙的な正則化を明示的な正則化に完全に置き換えることができることを示しました。研究者たちは、ランダムサンプリングに大きく依存して一般化を説明する理論は不完全であることを示していると考えています。ランダムサンプリングがなくても、優れた一般化パフォーマンスを達成できるからです。さらに説明されているように、ディープラーニングはランダム性がなくても成功します。さらに、研究者らは、フルバッチトレーニングの難しさは、主に最適化の特性と、機械学習コミュニティが小バッチトレーニングのオプティマイザーとハイパーパラメータを調整するために費やす時間と労力の過度な増加によるものだと述べています。

ランダムデータ拡張による完全バッチGD

SGD には GD に比べて 2 つの主な利点があります。まず、SGD の最適化プロセスでは、臨界バッチ サイズを超えると、安定性と収束速度が飛躍的に向上します。第二に、小さなバッチで大きなステップサイズを持つSGDによって引き起こされる暗黙のバイアスは、式(5)と(7)で導出される明示的な正則化によって置き換えられることが示されている。

この研究では、仮説を経験的に調査し、フルバッチのパフォーマンスを達成することを主な目標として、ミニバッチからの勾配ノイズがない場合でも強力な一般化を可能にするトレーニングを確立しようとします。そこで本研究では、実験のためにCIFAR-10上で画像分類用のResNetモデルをトレーニングしました。

ベースライン SGD の場合、この研究ではトレーニングに確率的勾配降下法、バッチ サイズ 128、ネステロフ運動量 0.9、重み減衰 0.0005 を使用しました。

ミニバッチSGDの検証精度は95.70%(±0.05)に達しました。ミニバッチ SGD は、ミニバッチ処理からほぼ独立した強力なベースラインを提供します。下の表 1 に示すように、復元抽出法でも同じ 95.70% の精度が達成されます。どちらの場合も、ランダムなミニバッチ処理によって発生する勾配ノイズが強い一般化につながります。

次に、この研究では、同じ設定を完全なバッチ勾配降下法に使用しました。ミニバッチをフルバッチに置き換え、すべてのミニバッチ勾配を蓄積します。バッチ正規化の影響を排除するために、この研究ではバッチサイズを 128 にしてバッチ正規化を計算し、トレーニング プロセス全体を通じて固定されたままのいくつかのブロックにデータ ポイントを割り当てて、バッチ正規化によってランダム性が導入されないようにします。大規模バッチトレーニングに関する他の研究と一致して、これらの設定で完全なバッチ勾配降下法を適用した場合の検証精度はわずか 75.42% (±0.13) であり、SGD と GD の間には約 20% の精度ギャップがあります。

この研究では、以下の表 1 に示すように、単純な形式の勾配ノイズを注入するだけではこのギャップを簡単に埋めることはできないと指摘されています。次の実験は、フルバッチトレーニングとミニバッチトレーニングのギャップを狭めることを目的としています。

フルバッチトレーニングは不安定であるため、この研究では安定性を維持するために 400 ステップ (各ステップはエポック) にわたって学習率を 0.0 から 0.4 に増加させ、3000 ステップ後にコサインアニーリングによって学習率を 0.1 に減少させます。

実験では、トレーニング設定にいくつかの変更を加えた後、完全なバッチ勾配降下法のパフォーマンスが 87.36% (±1.23) に向上することが示されています。これはベースラインより 12% 高いですが、SGD のパフォーマンスにはまだまだ及びません。検証スコアは表 2 にまとめられています。

この研究では、明示的な正則化によってこのギャップを埋め、初期学習率を再び向上させます。学習率は 400 回目の反復で 0.8 に増加し、その後 3000 ステップ以内に 0.2 に減少します。この学習率と正規化なしのクリッピングでトレーニングすると、93.75% (±0.13) の精度が得られます。正則化係数を追加すると、学習率を上げることでパフォーマンスが大幅に向上し、最終的には SGD と同等のパフォーマンスに達します。

全体として、この調査では、すべての変更を行った後、フルバッチ(ランダムデータ拡張を含む)と SGD のパフォーマンスは同等であり、検証精度は 95% を大幅に上回ることがわかりました。

この研究では、まったく同じハイパーパラメータを持つさまざまな視覚モデルも評価しました。 ResNet-50、ResNet-152、DenseNet-121の結果を表3に示します。この研究では、提案された方法がこれらのモデルにも適用可能であることがわかりました。

非確率的設定におけるフルバッチ勾配降下法

フルバッチ実験でミニバッチ SGD の効果を捉えられる場合、ランダム データ拡張は勾配ノイズにどのような影響を与えるのでしょうか?研究者たちは以下の実験を行った。

データ拡張なし: データ拡張方法を使用せずに前回の実験を繰り返すと、クリッピングと正則化後の GD の検証精度は 89.17% となり、デフォルトのハイパーパラメータを使用した SGD (84.32% (±1.12)) よりも大幅に向上し、新しく調整されたハイパーパラメータを使用した SGD (90.07% (±0.48)) と同等になります (下の表 4 を参照)。

同じ設定で GD と SGD を分析し、データ拡張 (ランダム性なし) の影響を調査するために、この研究では、固定拡張 CIFAR-10 データセットを使用してランダム データ拡張を置き換えました。つまり、トレーニングの前に、データ拡張の各データ ポイントに対して N 個のランダム データがサンプリングされました。これらのサンプルはトレーニング中は固定されたままで、再サンプリングされないため、CIFAR-10 データセットは N 倍に拡大されます。

最後に、この研究では、ミニバッチ、シャッフル、データ拡張によって生じる勾配ノイズがなければ、モデルはランダム性なしで 95% を超える検証精度を達成できると結論付けました。これは、データ拡張によって導入されたノイズが一般化に影響を与えず、一般化に必要ではないことを示唆しています。

議論を喚起する

この論文はコミュニティ内で議論を巻き起こし、実験的な観点から論文の価値を分析した人もいました。

この論文では、SGD をベースラインとして CIFAR-10 で 300 エポックトレーニングされた ResNet18 を使用し、結果のセクションでは各トリックによって精度がどの程度向上するかを示しています。

しかし、こうしたトリックは非常に一般的なので、本当に効果があるのか​​疑問に思う人もいるでしょう。一部のネットユーザーは、「より長くトレーニングする」というトリックは CIFAR-10 でのみ有効であり、勾配クリッピングは他のデータセットでは有効ではない可能性があると指摘しました。

画像出典: Zhihu ユーザー @Summer Clover

論文で述べられている改善点は個別の事例であり、一般的な状況を表すのは難しいと思われます。しかし、彼はコメントの中で、SGDは正規化項を近似していると指摘した。

これは優れた理論的根拠を持つ非常に効果的なトリックですが、計算コストが 2 倍になる可能性があります。

画像出典: Zhihu ユーザー @Summer Clover

他の人々は、完全なバッチ設定のコストが平均的な開発者には高すぎるため、論文の調査結果の実用性は限られていると指摘した。対照的に、SGD トレーニングはより堅牢で、一般化が優れており、反復ごとにより多くのコンピューティング リソースを節約します。

この論文では理論的および実験的な検証がいくつか行われているようですが、ネットユーザーが示唆しているように、結論を検証するために他のデータセットでさらに実験を行うことはできないでしょうか?

これについてどう思いますか?

<<:  世界をより高いレベルのイノベーションへと導く AI テクノロジー トップ 10

>>:  正規化により事前トレーニングが改善され、勾配の不一致が軽減され、Facebook のモデルが GPT-3 を上回る

ブログ    
ブログ    
ブログ    

推薦する

携帯電話を使ってドライバーを監視:ドライバーレコーダーもAI技術を活用し始めている

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

傲慢か偏見か?AIはあなたの美的観念に影響を与えていますか?

数日前、TikTokで、ある親がTikTokの特殊効果を使って子供の年齢と容姿を計測する動画を見まし...

2018年世界AI大学ランキング:カーネギーメロン大学がトップ、清華大学は13位

最近、CSRankingsは2018年のコンピューターサイエンスのトップスクールのランキングを発表し...

間隔適応型ルックアップテーブルに基づくリアルタイム画像強調法

最近、アリババ・タオバオ・テクノロジーと上海交通大学画像通信・ネットワーク工学研究所(IGI)による...

...

人工知能とビッグデータの違い

人工知能とビッグデータは人々がよく知っている流行語ですが、混乱が生じることもあります。 AI とビッ...

Microsoft の 37 ページの論文では、Sora をリバース エンジニアリングしています。どのような結論に達したのでしょうか。

現段階では、Sora に追いつくことが多くのテクノロジー企業の新たな目標となっている。研究者たちが興...

このロボットはアリよりも小さく、電気なしで動くことができる

アリは小さくても、集団で行動すると侮れません。『アントマン』を観たことがある人なら分かると思います。...

...

AIの未来: 次世代の生成モデルの探究

ニシャ・アーヤ著翻訳者 | ブガッティレビュー | Chonglou生成 AI には現在どのような機...

科学者は人工知能を使って新素材を発見する

米国の科学者チームは、人工知能を利用して非常に短期間で新たな鉄鋼の代替品を発見したいと考えている。そ...

EUが「インダストリー5.0」の時代を発表

[[415365]]画像ソース: https://pixabay.com/images/id-358...

意見: 機械学習は私たちの注目を必要としています!

機械学習は、私たちがもっと注目する価値のある強力なテクノロジーです。機械学習アプリケーションについて...

...

生成型人工知能とは何かについて話しましょう

ジェネレーティブ AI は、これまでビジネス パーソンに依存していたモデルをアルゴリズム担当者が生成...