ディープラーニングの一般化能力についての簡単な議論

ディープラーニングの一般化能力についての簡単な議論

1. DNNの一般化能力に関する問題

この論文では主に、過剰パラメータ化されたニューラル ネットワーク モデルが依然として優れた一般化パフォーマンスを発揮できる理由について説明します。つまり、トレーニング セットを単に記憶するのではなく、トレーニング セットから一般的なルールを要約して、テスト セットに適応できるようにすることです (一般化能力)。

古典的な決定木モデルを例にとると、木モデルがデータセットの一般的なルールを学習するとき、良い状況とは、木の最初の分割ノードが異なるラベルを持つサンプルをうまく区別でき、深さが非常に小さく、各葉のサンプル数が十分である(つまり、統計法則に基づくデータの量も比較的大きい)場合、得られた法則が他のデータに一般化される可能性が高くなります。 (つまり、適合性と一般化能力が優れている)。

さらに悪いケースとしては、ツリーがいくつかの一般的なルールをうまく学習できない場合、このデータセットを学習するためにツリーはどんどん深くなり、各リーフノードは少数のサンプルに対応する可能性があります(少量のデータによってもたらされる統計情報は単なるノイズである可能性があります)。最終的には、すべてのデータが暗記されます(つまり、過剰適合し、一般化能力がない)。深すぎるツリー モデルは過剰適合になりやすいことがわかります。

では、過剰パラメータ化されたニューラル ネットワークはどのようにして優れた一般化を実現するのでしょうか?

2. DNNの一般化能力の理由

この記事では、ニューラル ネットワークの勾配降下法による最適化プロセスにおける一般化能力の理由を、シンプルかつ一般的な観点から説明します。

勾配コヒーレンス理論を要約すると、異なるサンプルからの勾配がコヒーレンスを生み出し、それがニューラル ネットワークが優れた一般化能力を持つ理由です。トレーニング中に異なるサンプルの勾配が適切に整列している場合、つまり一貫性がある場合、勾配降下法は安定しており、迅速に収束することができ、結果として得られるモデルは優れた一般化特性を持つことができます。そうでない場合、サンプル数が少なすぎたり、トレーニング時間が長すぎたりすると、一般化されない可能性があります。

この理論に基づいて、次のような説明ができます。

2.1 ワイドニューラルネットワークの一般化

より広範なニューラル ネットワーク モデルには優れた一般化機能があります。これは、ネットワークが広いほどサブネットワークの数が多くなり、小規模なネットワークよりも勾配の一貫性が生まれる可能性が高くなり、一般化が向上するためです。言い換えれば、勾配降下法は、一般化 (一貫性) 勾配を優先する特徴セレクターであり、ネットワークが広いほど、特徴の数が多いという理由だけで、より優れた特徴を持つ可能性があります。

  • 原著論文: 一般化と幅。Neyshabur et al. [2018b] は、ネットワークの幅が広いほど一般化が優れていることを発見しました。これを説明できるでしょうか? 直感的に、ネットワークの幅が広いほど、どのレベルでもサブネットワークの数が多くなり、そのため、ネットワークの幅が広いほど、最大の一貫性を持つサブネットワークは、より薄いネットワークのサブネットワークよりも一貫性が高く、一般化が優れている可能性があります。言い換えると、第 10 章で説明したように、勾配降下法は一般化に適した (一貫性のある) 特徴を優先する特徴選択器であるため、ネットワークの幅が広いほど、特徴の数が多いという理由だけで、より優れた特徴を持つ可能性が高くなります。これに関連して、宝くじ仮説 [Frankle and Carbin, 2018] も参照してください。
  • 論文リンク: https://github.com/aialgorithm/Blog

しかし、個人的にはネットワークの入力層/隠れ層の幅を区別することは依然として必要だと考えています。特にデータマイニングタスクの入力層では、入力特徴は通常手動で設計されるため、特徴選択(つまり、入力層の幅を狭める)を考慮する必要があります。そうしないと、特徴ノイズを直接入力すると、勾配の一貫性も損なわれます。

2.2 ディープニューラルネットワークの一般化

ネットワークが深くなるほど、勾配コヒーレンス現象が増幅され、一般化能力が向上します。

ディープモデルでは、レイヤー間のフィードバックによってコヒーレント勾配が強化されるため、コヒーレント勾配を持つ特徴 (W6) と非コヒーレント勾配を持つ特徴 (W1) の相対的な差はトレーニング中に指数関数的に増幅されます。その結果、より深いネットワークでは一貫した勾配が優先され、一般化能力が向上します。

2.3 早期中止

早期に停止することで、一貫性のない勾配の過度の影響を軽減し、一般化を向上させることができます。

トレーニング中、いくつかの簡単なサンプルは他のサンプル(難しいサンプル)よりも早く適合されます。トレーニングの初期段階では、これらの簡単なサンプルの一貫した勾配が優勢であり、簡単に適合できます。トレーニングの後半では、難しいサンプルの非一貫性勾配が平均勾配 g(wt) を支配し、一般化能力が低下します。このとき、早期停止が必要です。

  • (注: 単純なサンプルとは、データ セット内に共通の勾配が多数含まれるサンプルです。このため、ほとんどの勾配はサンプルに有益であり、収束が速くなります。)

2.4 完全勾配降下法と学習率

完全な勾配降下法も優れた一般化能力を持つことがわかりました。さらに、慎重な実験により、確率的勾配降下法が必ずしもより優れた一般化を持つわけではないことが示されていますが、これは、確率的勾配が局所最小値から飛び出す可能性が高く、正規化の役割を果たす可能性などを排除するものではありません。

  • 私たちの理論によれば、有限の学習率とミニバッチの確率性は一般化には必要ない。

学習率が低いと反復回数が増える(早期停止の反対)ため、学習率が低いと一般化エラーが減らない可能性があると考えています。

  • 学習率が十分に小さいと仮定すると、訓練が進むにつれて、一般化ギャップは減少しない。これは、訓練の反復安定性分析から導かれる。40ステップ以上では、安定性は低下する一方である。これが実際の設定で破られると、理論の興味深い限界を示すことになる。

2.5 L2およびL1正則化

目的関数はL2とL1で正規化され、対応する勾配が計算されます。L1正規化項に追加される勾配はsign(w)で、L2勾配はwです。 L2正則化を例にとると、対応する勾配W(i+1)更新式は次のようになります。

「L2 正則化 (重み減衰)」は、各パラメータをデータに依存しないゼロ値に近づける (L1 はスパース解が得られやすく、L2 は 0 に近い滑らかな解が得られやすい) ことで、弱い勾配の方向への影響を排除できる一種の「背景力」と考えることができます。一貫した勾配方向の場合にのみ、パラメータは「背景力」からより独立し、データに基づいて勾配の更新を完了することができます。

2.6 高度な勾配降下アルゴリズム

  • MomentumやAdamなどの勾配降下法アルゴリズム

Momentum や Adam などの勾配降下アルゴリズムの場合、パラメータ W の更新方向は現在の勾配によって決定されるだけでなく、以前に蓄積された勾配の方向(つまり、蓄積されたコヒーレント勾配を保持する役割)にも関連します。これにより、勾配方向の変化が少ないパラメータの次元の更新を高速化し、勾配方向の変化が大きいパラメータの次元の更新振幅を小さくすることができるため、収束を高速化し、振動を低減する効果が得られます。

  • 弱い勾配方向における勾配降下を抑制する

バッチ勾配降下アルゴリズムを最適化して弱勾配方向の勾配更新を抑制することで、一般化能力をさらに向上させることができます。たとえば、ウィンザー化勾配降下法を使用して勾配内の外れ値を削除し、平均を取ることができます。あるいは、平均ではなく勾配の中央値を取って、勾配内の外れ値の影響を減らします。

まとめ

記事の最後に一言。ディープラーニングの理論に興味がある方は、論文に記載されている関連研究をご覧ください。

<<:  AI導入における主な障壁とその解決策

>>:  産業分野におけるマシンビジョンの用途は何ですか?

ブログ    
ブログ    

推薦する

写真とテキスト付き!推奨アルゴリズムのアーキテクチャ - 大まかなランキング

1. 全体的なアーキテクチャ粗いソートは、リコールと細かいソートの中間のモジュールです。 。数万の候...

新しい人工筋肉、応用シナリオの範囲が極めて広い!マイクロロボット:非常に必要

人工筋肉は科学界では常に重要な研究テーマとなっています。理想的には、人工筋肉は医療分野で患者の健康回...

受注収益が7億人民元を超えるPercentが、なぜこれほど爆発的な成長を遂げることができたのでしょうか?

2009年に設立されたPercentage Pointは、間違いなく中国のビッグデータ産業の発展の...

協働ロボットは従来のロボットとどう違うのでしょうか?

協働ロボットは従来のロボットとどう違うのでしょうか? [[418520]]本質的には、協働ロボットと...

【ビッグネームがやってくる、エピソード10】柔軟なビッグデータクラウド分析プラットフォームを構築するためのハードルはゼロ

[51CTO.com からのオリジナル記事] ビッグデータとビッグデータ分析は、現在、企業の注目の的...

【コレクション】貢献度が最も高い GitHub コレクションとディープラーニング フレームワーク 16 選

ディープラーニングは、データの経験的学習に基づく機械学習手法であり、近年発展し、人気が高まっています...

Python で KNN アルゴリズムを使用して欠損データを処理する

欠損データの処理は簡単な作業ではありません。 方法は、単純な平均補完や観察結果の完全な削除から、MI...

分散ストレージシステムにおけるDHTアルゴリズムの改善

1. 概要通常、分散ストレージ システムや分散キャッシュ システムでは、分散ハッシュ (DHT) ア...

「トランスフォーマー チャレンジャー」マンバはMacBookでも動く! GitHub は半日で 500 以上のスターを獲得しました

「トランスフォーマーの挑戦者」MambaがMacBookで実行できるようになりました!誰かが Git...

2021年に人工知能がビジネスをどう変えるのか

従来のビジネス慣行からスマートなアプリケーションベースの慣行へと技術が進歩する中、企業は2021年に...

夜もカラフルに、ディープラーニングでフルカラー暗視システムを実現

いくつかの軍事大作映画では、兵士が暗視ゴーグルを装着して前方を捜索するシーンは欠かせないようです。暗...

Keras 3.0 が市場を席巻しています!この大きなアップデートではPyTorchとJAXが統合され、世界中の250万人の開発者が使用しています。

先ほど、Keras 3.0 が正式にリリースされました! 5 か月のパブリック ベータ テストを経て...

1865年から始まるビジネスインテリジェンスの簡単な歴史

[[206158]]ビジネス インテリジェンス (BI) という用語は、1865 年にリチャード ミ...

...

[トイレに座ってアルゴリズムを読む] アルゴリズム 8: 賢い隣接リスト (配列の実装)

前回は、空間と時間の複雑さがともにN 2であるグラフの隣接行列保存方法を紹介しました。今回は、グラフ...