機械学習における正則化とは何ですか?

機械学習における正則化とは何ですか?

1. はじめに

機械学習の分野では、トレーニング プロセス中にモデルが過剰適合したり、不足適合になったりすることがあります。これを防ぐために、機械学習で正規化を使用して、モデルをテスト セットに適切に適合させます。一般的に言えば、正規化は過剰適合と不足適合の可能性を減らすことで、最適なモデルを取得するのに役立ちます。

この記事では、正規化とは何か、正規化の種類について説明します。さらに、バイアス、分散、アンダーフィッティング、オーバーフィッティングなどの関連する概念についても説明します。

さっそく始めましょう!

2. バイアスと分散

バイアスと分散は、学習したモデルと実際のモデルの間のギャップをそれぞれ 2 つの側面から説明します。

両者の定義は以下のとおりです。

  • バイアスとは、すべての可能なトレーニング データ セットを使用してトレーニングされたすべてのモデルの平均出力と、実際のモデルの出力値との差です。
  • 分散は、異なるトレーニング データ セットでトレーニングされたモデルの出力値間の差です。

バイアスにより、個々のデータ ポイントに対するモデルの感度が低下し、データの一般化が向上します。モデルは孤立したデータ ポイントに対する感度が低くなり、必要な機能がそれほど複雑でなくなるため、トレーニング時間も短縮されます。偏差が大きいということは、想定される目的関数の信頼性が高いことを示します。場合によっては、モデルの適合不足につながる可能性があります。

分散は、データセット内の小さな変化に対するモデルの感度によって発生する機械学習におけるエラーの一種です。大きな変動があるため、アルゴリズムはトレーニング セット内のノイズと外れ値をモデル化します。これを説明するときに最もよく使われる用語は「過剰適合」です。新しいデータセットで評価すると、モデルは基本的に各データ ポイントを学習しているため、この場合、正確な予測を提供できません。

比較的バランスの取れたモデルはバイアスと分散が低くなりますが、バイアスと分散が高いと、アンダーフィッティングとオーバーフィッティングが発生します。

3. アンダーフィッティング

アンダーフィッティングは、モデルがトレーニング データ内のパターンを正しく学習していないために、新しいデータに正しく一般化できない場合に発生します。トレーニング データでは、適合度の低いモデルのパフォーマンスが低下し、誤った予測が行われます。アンダーフィッティングは、バイアスが高く、分散が低い場合に発生します。


4. 過剰適合

モデルがトレーニング データでは非常に優れたパフォーマンスを発揮するが、テスト データ (新しいデータ) ではパフォーマンスが低い場合、これをオーバーフィッティングと呼びます。この場合、機械学習モデルはトレーニング データ内のノイズに適合され、テスト データに対するモデルのパフォーマンスに悪影響を及ぼします。バイアスが低く分散が大きいと、過剰適合につながる可能性があります。


5. 正規化の概念

「正則化」という用語は、調整された損失関数を減らし、過剰適合や不足適合を回避するために機械学習モデルを調整する方法を表します。


正規化を使用すると、機械学習モデルを特定のテスト セットに正しく適合させ、テスト セット内のエラーを削減できます。

6. L1正規化

リッジ回帰と比較して、L1 正則化は主に損失関数にペナルティ項を追加することによって実現されます。ペナルティ項はすべての係数の絶対値の合計に等しくなります。以下のように表示されます。


Lasso 回帰モデルでは、リッジ回帰と同様に、回帰係数の絶対値をペナルティ項として増加させることでこれを実現します。さらに、L1 正則化は線形回帰モデルの精度を向上させるのに優れたパフォーマンスを発揮します。同時に、L1 正則化はすべてのパラメータに対して同じペナルティを持つため、一部の重みをゼロに減らすことができ、特定の機能を削除できるスパース モデルが生成されます (重み 0 は削除に相当します)。

7. L2正則化

L2 正則化は、損失関数にすべての係数の二乗の合計に等しいペナルティ項を追加することによっても実現されます。以下のように表示されます。

一般的に、データが多重共線性(独立変数の相関が高い)を示す場合に採用される方法と考えられています。多重共線性における最小二乗推定値 (OLS) は偏りがありませんが、分散が大きいと観測値が実際の値から大きく外れる可能性があります。 L2 は回帰推定値の誤差をある程度まで削減します。通常、多重共線性の問題に対処するために収縮パラメータが使用されます。 L2 正則化は重みの固定比率を減らして重みをより滑らかにします。

8. 結論

上記の分析の後、この記事の関連する正規化の知識は次のように要約されます。

L1 正則化は、スパース重み行列、つまり特徴選択に使用できるスパース モデルを生成できます。

L2 正則化はモデルの過剰適合を防ぐことができます。ある程度まで、L1 も過剰適合を防ぎ、モデルの一般化能力を向上させることができます。

L1(ラグランジュ)正則化では、パラメータの事前分布がラプラス分布であると仮定し、モデルのスパース性、つまり一部のパラメータが 0 になることを保証できます。

L2 (リッジ回帰) 正則化では、パラメータの事前分布がガウス分布であると想定し、モデルの安定性、つまりパラメータの値が大きすぎたり小さすぎたりしないことを保証できます。

実際の使用では、特徴が高次元でスパースな場合は L1 正則化が使用され、特徴が低次元で密な場合は L2 正則化が使用されます。

<<:  PubDef: パブリックモデルを使用した転送攻撃の防御

>>: 

ブログ    
ブログ    

推薦する

人工知能の導入は、より費用対効果の高い臨床試験の新しい時代を告げるだろう

臨床試験はここ数年で大きく変化しました。医薬品や医療機器、そしてそれらが影響を与える対象となる症状が...

サイバーセキュリティにおける機械学習の適用における困難さと対策

サイバーセキュリティ分野特有の敵対的性質は、人工知能アプリケーションの実装に多くの困難をもたらしてき...

米国の刑務所、受刑者の通話を分析するために人工知能を導入する計画

下院の主要委員会が、受刑者の通話を分析するための人工知能の使用に関する報告書の提出を求めたことにより...

AI バイアス: なぜ起こるのか、そして企業はどのように修正できるのか

ビジネスや社会で AI の利用が広まるにつれ、企業は機械モデルに現れる人間の偏見に注意を払う必要があ...

銀行、金融、保険業界に革命をもたらす主要技術

不安定な市場環境、規制上のハードル、そしてBrexitは、好況時でも最も回復力のある企業にさえ課題を...

音声技術市場には発展のチャンスがあるが、落とし穴には注意が必要

[[257487]] [51CTO.com クイック翻訳] 音声アシスタントの台頭により、マーケティ...

オープン語彙検出オープンワールド物体検出コンペティション2023優勝チームソリューション共有

OVDテクノロジーの紹介物体検出は、コンピューター ビジョンの分野における中核的なタスクです。その主...

なぜ機械学習は人工知能よりも優れているのでしょうか?

人工知能、データサイエンス、機械学習はすべて同じ分野に属します。問題は、この場合、どちらが正しい目的...

...

Salesforce が AI 人材を見つけ、スキルを向上させる方法

[[415289]] AI、機械学習、データサイエンスに関連するスキルの需要は依然として高く、企業は...

AIテクノロジーが業界のアップグレードを促進 WOT2018グローバル人工知能テクノロジーサミットがインテリジェントな未来を推進

[51CTO.comからのオリジナル記事] 2018年、人工知能は人類が未来を創造するための最も輝か...

...

暑い天候でのドローン飛行の安全ガイド:理解できましたか?

夏が進むにつれて気温もどんどん高くなっていきます。最近クウェートの気温は50℃~70℃に達したと報じ...

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの中国人研究者7名に...

Microsoft Bing Chat が GPT-4 Turbo モデルを導入、一部のユーザーは無料で使用可能

12月25日、Windowslatestによると、Microsoft Bing ChatのGPT-4...