機械学習における正則化とは何ですか?

機械学習における正則化とは何ですか?

1. はじめに

機械学習の分野では、トレーニング プロセス中にモデルが過剰適合したり、不足適合になったりすることがあります。これを防ぐために、機械学習で正規化を使用して、モデルをテスト セットに適切に適合させます。一般的に言えば、正規化は過剰適合と不足適合の可能性を減らすことで、最適なモデルを取得するのに役立ちます。

この記事では、正規化とは何か、正規化の種類について説明します。さらに、バイアス、分散、アンダーフィッティング、オーバーフィッティングなどの関連する概念についても説明します。

さっそく始めましょう!

2. バイアスと分散

バイアスと分散は、学習したモデルと実際のモデルの間のギャップをそれぞれ 2 つの側面から説明します。

両者の定義は以下のとおりです。

  • バイアスとは、すべての可能なトレーニング データ セットを使用してトレーニングされたすべてのモデルの平均出力と、実際のモデルの出力値との差です。
  • 分散は、異なるトレーニング データ セットでトレーニングされたモデルの出力値間の差です。

バイアスにより、個々のデータ ポイントに対するモデルの感度が低下し、データの一般化が向上します。モデルは孤立したデータ ポイントに対する感度が低くなり、必要な機能がそれほど複雑でなくなるため、トレーニング時間も短縮されます。偏差が大きいということは、想定される目的関数の信頼性が高いことを示します。場合によっては、モデルの適合不足につながる可能性があります。

分散は、データセット内の小さな変化に対するモデルの感度によって発生する機械学習におけるエラーの一種です。大きな変動があるため、アルゴリズムはトレーニング セット内のノイズと外れ値をモデル化します。これを説明するときに最もよく使われる用語は「過剰適合」です。新しいデータセットで評価すると、モデルは基本的に各データ ポイントを学習しているため、この場合、正確な予測を提供できません。

比較的バランスの取れたモデルはバイアスと分散が低くなりますが、バイアスと分散が高いと、アンダーフィッティングとオーバーフィッティングが発生します。

3. アンダーフィッティング

アンダーフィッティングは、モデルがトレーニング データ内のパターンを正しく学習していないために、新しいデータに正しく一般化できない場合に発生します。トレーニング データでは、適合度の低いモデルのパフォーマンスが低下し、誤った予測が行われます。アンダーフィッティングは、バイアスが高く、分散が低い場合に発生します。


4. 過剰適合

モデルがトレーニング データでは非常に優れたパフォーマンスを発揮するが、テスト データ (新しいデータ) ではパフォーマンスが低い場合、これをオーバーフィッティングと呼びます。この場合、機械学習モデルはトレーニング データ内のノイズに適合され、テスト データに対するモデルのパフォーマンスに悪影響を及ぼします。バイアスが低く分散が大きいと、過剰適合につながる可能性があります。


5. 正規化の概念

「正則化」という用語は、調整された損失関数を減らし、過剰適合や不足適合を回避するために機械学習モデルを調整する方法を表します。


正規化を使用すると、機械学習モデルを特定のテスト セットに正しく適合させ、テスト セット内のエラーを削減できます。

6. L1正規化

リッジ回帰と比較して、L1 正則化は主に損失関数にペナルティ項を追加することによって実現されます。ペナルティ項はすべての係数の絶対値の合計に等しくなります。以下のように表示されます。


Lasso 回帰モデルでは、リッジ回帰と同様に、回帰係数の絶対値をペナルティ項として増加させることでこれを実現します。さらに、L1 正則化は線形回帰モデルの精度を向上させるのに優れたパフォーマンスを発揮します。同時に、L1 正則化はすべてのパラメータに対して同じペナルティを持つため、一部の重みをゼロに減らすことができ、特定の機能を削除できるスパース モデルが生成されます (重み 0 は削除に相当します)。

7. L2正則化

L2 正則化は、損失関数にすべての係数の二乗の合計に等しいペナルティ項を追加することによっても実現されます。以下のように表示されます。

一般的に、データが多重共線性(独立変数の相関が高い)を示す場合に採用される方法と考えられています。多重共線性における最小二乗推定値 (OLS) は偏りがありませんが、分散が大きいと観測値が実際の値から大きく外れる可能性があります。 L2 は回帰推定値の誤差をある程度まで削減します。通常、多重共線性の問題に対処するために収縮パラメータが使用されます。 L2 正則化は重みの固定比率を減らして重みをより滑らかにします。

8. 結論

上記の分析の後、この記事の関連する正規化の知識は次のように要約されます。

L1 正則化は、スパース重み行列、つまり特徴選択に使用できるスパース モデルを生成できます。

L2 正則化はモデルの過剰適合を防ぐことができます。ある程度まで、L1 も過剰適合を防ぎ、モデルの一般化能力を向上させることができます。

L1(ラグランジュ)正則化では、パラメータの事前分布がラプラス分布であると仮定し、モデルのスパース性、つまり一部のパラメータが 0 になることを保証できます。

L2 (リッジ回帰) 正則化では、パラメータの事前分布がガウス分布であると想定し、モデルの安定性、つまりパラメータの値が大きすぎたり小さすぎたりしないことを保証できます。

実際の使用では、特徴が高次元でスパースな場合は L1 正則化が使用され、特徴が低次元で密な場合は L2 正則化が使用されます。

<<:  PubDef: パブリックモデルを使用した転送攻撃の防御

>>: 

ブログ    
ブログ    

推薦する

西アフリカの牧畜民は飢餓危機と戦うためにAIを活用

世界銀行の支援を受けて、国際非営利団体「Action Against Hunger」は人工知能を活用...

...

多国籍食品流通会社Sysco CIDO:当社の成長の秘訣はIT中心

トム・ペック氏がCOVID-19パンデミックの真っ只中にシスコに入社したとき、彼の主な目標は世界最大...

...

エネルギーおよび公益事業業界におけるインテリジェントオートメーションの役割

世界はクリーンで安全、かつ手頃な価格で持続可能な電力を緊急に必要としており、各国は化石エネルギーに代...

GPT-4を無料で入手するための5つのツール

翻訳者 |陳俊レビュー | Chonglou OpenAIがもたらしたGPT-4が、世界で最も人気が...

...

スマート製造とAIが環境にどのように役立つか

製造業からの温室効果ガス排出を削減する方法は複数あります。 製造業におけるデジタルデータの使用による...

【WOT2018】孫林:テクノロジーが業界を変える。貝殻探しビジネスにおけるAIの応用

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...

もはや魅力的ではない Google は次の IBM になるのでしょうか?深刻な高齢化、イノベーションへのサポートの喪失、従業員の信頼の喪失、人材流出

ジェミニが世論に大騒ぎを引き起こした後、ピチャイ氏の辞任を求める声があらゆるところで聞かれた。過去 ...

AI と IoT によって貨物輸送はどのようにスマート化されるのでしょうか?

スマートな車両監視 近年、IoT テクノロジーによりテレマティクスはまったく新しいレベルに到達しまし...

ヴィンセントビデオの「ダークホース」モーフスタジオが登場: 使いやすく、1080P、7秒の長さ、無料

「光るクラゲがゆっくりと海から浮上し、夜空に輝く星座になります」と、Morph Studio で見た...

...

サイバーセキュリティにおける AI の 4 つの主要なユースケースを理解する

サイバーセキュリティは、おそらく今日すべての企業が直面している最大の脅威です。これらの課題は新しいも...

...