モデルの過剰適合を防ぐにはどうすればよいですか?この記事では6つの重要な方法を紹介します

モデルの過剰適合を防ぐにはどうすればよいですか?この記事では6つの重要な方法を紹介します

バフェット氏は「正確に間違っているよりも、おおよそ正しい方が良い」と述べています。

機械学習では、過剰適合によりモデルの予測パフォーマンスが低下する可能性があり、通常、パラメータが多すぎるなど、モデルが複雑すぎる場合に発生します。この記事では、オーバーフィッティングとその解決策についてまとめます。

[[377248]]

機械学習では、モデルが特定のトレーニング データに集中しすぎて要点を見失った場合、そのモデルは過剰適合していると言われます。モデルによって提供される答えは正解から遠く離れており、つまり精度が低下しています。このようなモデルは、無関係なデータ内のノイズを信号として扱うため、精度に悪影響を及ぼします。モデルが損失が低くなるように十分にトレーニングされている場合でも、新しいデータではパフォーマンスが低下します。アンダーフィッティングとは、モデルがデータのロジックを捉えていない場合を指します。したがって、適合度の低いモデルでは精度が低くなり、損失が大きくなります。

モデルが過剰適合しているかどうかを判断するにはどうすればよいでしょうか?

モデルを構築する際、データはトレーニング セット、検証セット、テスト セットの 3 つのカテゴリに分割されます。トレーニング データはモデルのトレーニングに使用され、検証セットは各ステップで構築されたモデルをテストするために使用され、テスト セットは最後にモデルを評価するために使用されます。通常、データは 80:10:10 または 70:20:10 の比率で分散されます。

モデルを構築するプロセスでは、検証データを使用して、各エポックで現在構築されているモデルをテストし、モデルの損失と精度、および各エポックの検証損失と検証精度を取得します。モデルが構築された後、テスト データを使用してモデルをテストし、精度を取得します。精度と検証精度に大きな差がある場合は、モデルが過剰適合していることを意味します。

検証セットとテスト セットの両方の損失が高い場合、モデルはアンダーフィットしています。

過剰適合を防ぐ方法

1. クロスバリデーション

クロス検証は過剰適合を防ぐのに適した方法です。クロス検証では、複数のトレーニングとテストの分割を生成し、モデルを調整します。 K 分割検証は標準的なクロス検証方法で、データを k 個のサブセットに分割し、サブセットの 1 つを検証に使用し、他のサブセットをアルゴリズムのトレーニングに使用します。

クロス検証によりハイパーパラメータの調整が可能になり、パフォーマンスはすべての値の平均になります。この方法は計算コストが高いですが、あまり多くのデータを無駄にしません。クロス検証プロセスを次の図に示します。

2. より多くのデータでトレーニングする

より関連性の高いデータを使用してモデルをトレーニングすると、信号をより適切に識別し、ノイズを信号と間違えることを防ぐことができます。データ拡張はトレーニング データを増やす方法であり、反転、変換、回転、拡大縮小、明るさの変更などによって実現できます。

3. 機能を削除する

特徴を削除すると、モデルの複雑さが軽減され、ノイズがある程度回避され、モデルの効率が向上します。複雑さを軽減するには、レイヤーを削除したり、ニューロンの数を減らしてネットワークを小さくすることができます。

4. 早期終了

モデルを繰り返しトレーニングしていくと、各反復のパフォーマンスを測定できます。検証損失が増加し始めたら、モデルのトレーニングを停止する必要があります。これにより、過剰適合を防ぐことができます。

次の図は、モデルのトレーニングを停止するタイミングを示しています。

5. 正規化

正規化を使用すると、モデルの複雑さを軽減できます。これはペナルティ損失関数を通じて行われ、L1 と L2 の 2 つの方法で実行できます。数式は次のとおりです。

L1 ペナルティの目的は、重みの絶対値の合計を最適化することです。外れ値に対して堅牢な、シンプルで解釈可能なモデルを生成します。

L2 は重み値の二乗の合計にペナルティを課します。このモデルは複雑なデータパターンを学習できますが、外れ値に対しては堅牢ではありません。

どちらの正規化方法も過剰適合問題の解決に役立ち、読者は必要に応じてそれらを使用することを選択できます。

6. ドロップアウト

ドロップアウトは、ニューラル ネットワーク ユニットをランダムに無効にする正規化方法です。任意の隠し層または入力層に実装できますが、出力層には実装できません。このアプローチにより、他のニューロンへの依存が不要になり、ネットワークが独立した相関関係を学習できるようになります。この方法では、次の図に示すように、ネットワークの密度を減らすことができます。

要約する

過剰適合は、既存のデータを効果的に使用することを妨げるため、対処する必要がある問題です。モデルを構築する前に、過剰適合を予測できる場合もあります。過剰適合の兆候は、データ、データの収集方法、サンプリング方法、誤った仮定、誤った表現を調べることで見つけることができます。これを回避するには、モデリングする前にデータを確認してください。しかし、過剰適合は前処理中には検出できず、モデルの構築後にのみ検出されることがあります。上記の方法を使用して、過剰適合の問題を解決できます。

<<:  EUがAIを活用して社会イノベーションを推進する方法

>>:  人工知能専攻にはどのような専攻が含まれますか?見通しはどうですか?

ブログ    
ブログ    

推薦する

...

AIが研究者に歴史の匂いを再現する手助けをする方法

欧州連合は、AIを使って歴史的な香りや嗅覚要素を再現することを計画している研究チームに280万ユーロ...

GPT-4 がビッグモデル幻覚ランキングで優勝、NVIDIA の科学者が偽物と激しく戦う! ChatGPTのメタ版作者が抗議のため長文の記事を投稿

大型モデルにおける幻覚の問題は、業界ではよく話題になります。最近、Vectara という組織が Gi...

世界人工知能会議の最高栄誉である2020年SAIL賞のトップ30プロジェクトが発表されました

世界人工知能会議の最高賞であるSAIL賞(スーパーAIリーダー)は、「卓越性を追求し、未来をリードす...

倪光南:AI開発は教訓を学ぶべき、コア技術は購入したり置き換えたりすることはできない

「ここ数年、情報技術分野で私たちが学んだ最大の教訓の一つは、主要な中核技術は私たち自身の独立したイノ...

ワイツマンとNVIDIAは、自然言語を使って写真を編集できるText2LIVEを共同でリリースした。

Photoshop のようなソフトウェアを使用することは、創造的な作業とみなされますか、それとも反...

...

AIを規制するための答えは何でしょうか?なぜこれが重要なのでしょうか?

AntWorks の共同創設者兼 CEO である Asheesh Mehra 氏が、AI を規制す...

成都初の無人地下鉄が運行開始。列車の前方からの眺めはまるで時空を旅しているかのようだ

毎日地下鉄に乗るとき、トンネルを高速で走る列車の前方風景を見たことがありますか?11月13日、成都初...

...

...

AI インフラストラクチャ スタックをわかりやすく解説し、AI プロジェクトをより迅速に展開

[51CTO.com クイック翻訳] 多くの企業が AI への投資を増やすにつれて、開発者とエンジニ...

毎日のアルゴリズム: 階段登り問題

[[433205]]階段を登っているとします。建物の最上部に到達するまでに n 歩かかります。一度に...

人工知能に関する詳細な調査:AIツールを使ったことがある人は思っているほど考えていない

6月27日、有名なテクノロジーメディアVergeは調査会社と協力し、人工知能の使用状況、期待、懸念を...

LLMLingua: LlamaIndex を統合してプロンプトを圧縮し、大規模な言語モデルに効率的な推論を提供します。

大規模言語モデル (LLM) の出現により、複数の分野でイノベーションが促進されました。しかし、思考...