実用的なヒント | 機械学習における不均衡な分類問題にどう対処するか?

機械学習などのデータサイエンスの問題を扱う場合、カテゴリの分布が不均衡な状況、つまりサンプルデータ内の 1 つ以上のカテゴリの観測数が他のカテゴリの観測数よりも大幅に少ない状況に遭遇することがよくあります。この現象は、電力盗難、銀行不正取引、希少疾患の特定など、少数派の問題に私たちがより関心を寄せているときに特に顕著になります。この場合、従来の機械学習アルゴリズムを使用した予測モデルでは正確な予測ができない可能性があります。これは、機械学習アルゴリズムが通常、種のバランスを考慮せずにエラーを減らすことで精度を向上させるためです。この記事では、この不均衡な分類問題を解決するためのさまざまな方法について説明し、それらの方法の長所と短所について説明します。

不均衡なデータセットとは、一般に、少数クラスが 5% 未満を占めるデータセットを指し、少数クラスとは通常、まれなイベントの発生を指します。たとえば、公開されている不正検出データセットには、次のデータがあります。

合計観測数 = 1000

不正行為の観察 = 20

不正行為ではない観察 = 980

イベント率 = 2%

このデータセットを分析する際の主な問題は、適切な数のまれなイベントのサンプルを含むバランスの取れたデータセットをどのように取得するかということです。

従来のモデル評価方法では、不均衡なデータセットでトレーニングされたモデルのパフォーマンスを正確に評価できません。明らかに、モデルは多数派セットを予測する傾向があり、少数派セットはノイズとして扱われるか無視される可能性があります。したがって、多数派セットと比較すると、少数派セットは誤分類される可能性が高くなります。不均衡なデータセットを使用してモデルをトレーニングする場合、精度は適切な評価方法ではありません。分類器が 98% の精度を達成できれば、モデルのパフォーマンスは良好であると考えられます。しかし、少数派セットが全体の 2% を占めるデータセットの場合、分類器がそれらすべてを多数派セットとして予測すると、精度は 98% に達しますが、この分類器は予測に役立ちません。

不均衡なデータセットの解決策

不均衡なデータセットによって生じる不正確なモデル予測の問題を解決するには、主に 2 つの方法があります。1 つ目は、データセットをデータレベルでよりバランスの取れたデータセットに変換してからモデリングを実行することです。2 つ目は、アルゴリズムレベルでアルゴリズムモデルのパフォーマンスを向上させることです。

データレベルのアプローチ: 再サンプリング

データをモデリングに使用する前に、データのバランスをとるために再サンプリング手法が使用されます。データのバランスをとるには、主に少数クラスの頻度を増やすか、多数クラスの頻度を減らすという 2 つの方法があります。 2 つのカテゴリの比率は、再サンプリングによって変更されます。

ランダムアンダーサンプリング

ランダムアンダーサンプリング手法は、多数派クラスのインスタンスをランダムに削除することで、クラス分布のバランスをとります。前の例では、不正でないデータの 10% を置き換えずに取得し、それをすべての不正データと組み合わせて新しいデータセットを形成しました。このようにして、観測されたデータの合計は 20+980*10%=118 になり、アンダーサンプリング後の新しいデータセットのイベント率は 20/118=17% になります。

トレーニングデータが大量にある場合、ランダムアンダーサンプリングによって実行時間が改善され、トレーニングデータの量を減らすことでストレージの問題が解決されます。しかし、これにより、潜在的に有効な情報が削除されるという問題も発生します。アンダーサンプリングによって選択されたデータは偏ったサンプルである可能性があり、母集団を正確に表していない可能性があります。したがって、テストセットのパフォーマンスが低下します。

ランダムオーバーサンプリング

オーバーサンプリングは、少数クラスのインスタンスをランダムに複製することで、その数を増やす手法です。前の例では、少数インスタンス 20 個が 20 回コピーされるため、少数クラスのデータは 400 になり、観測データの合計は 980+400=1380 になり、イベント発生確率は 400/1380=29% になります。アンダーサンプリングとは異なり、オーバーサンプリングでは情報は失われません。一般的に、オーバーサンプリングはアンダーサンプリングよりもパフォーマンスが優れています。ただし、オーバーサンプリングでは少数クラスのデータが複数回複製されるため、過剰適合の可能性が高まります。

クラスターベースのオーバーサンプリング

クラスタリングベースのオーバーサンプリングは、少数クラスと多数クラスにそれぞれ k-means クラスタリングアルゴリズムを適用して、データセット内の異なるクラスターを識別します。その後、各クラスターはオーバーサンプリングされ、多数派クラスクラスターと少数派クラスクラスターのインスタンスの数が等しくなるようにします。前のデータセットのクラスタリング結果が次のとおりであると仮定します。

ほとんどのクラスター:

クラスター 1: 150 件の観測

クラスター2: 120 観測

クラスター3: 230 観測

クラスター4: 200 観測

クラスター5: 150件の観測

クラスター6: 130 観測

少数派クラスター:

クラスター 1: 8 件の観測

クラスター2: 12件の観測

クラスターをオーバーサンプリングした後、同じタイプの各クラスターには同じ数の観測値が含まれます。

ほとんどのクラスター:

クラスター 1: 170 件の観測

クラスター2: 170 観測

クラスター3: 170件の観測

クラスター4: 170 観測

クラスター5: 170件の観測

クラスター6: 170 観測

少数派クラスター:

クラスター 1: 250 観測

クラスター2: 250 観測

クラスターベースのオーバーサンプリング後、イベント率は 500/(1020+500)=33% になります。この方法では、多数派クラスと少数派クラスが異なるクラスターで構成されているとみなし、各クラスターに異なるインスタンスが含まれるという問題を解決します。ただし、これはオーバーサンプリング手法であるため、過剰適合につながる可能性もあります。

合成少数派オーバーサンプリング (SMOTE)

SMOTE は、少数クラスを複製することによって発生する過剰適合の問題を回避します。少数派クラスのサブセットを使用して、合成的に類似した新しい少数派クラスインスタンスを作成します。これらの合成インスタンスを元のデータセットに追加して、少数派クラスのデータを充実させます。次の図は、合成インスタンスを作成する方法を示しています。

図1: SMOTE を使用した合成例の作成

前の例を引き続き使用して、少数派クラスから 15 個のサンプルインスタンスを選択し、20 個の新しいデータを合成します。少数クラスデータの数は300に削減され、イベント率は300/1280=23.4%になります。

この方法は、有効な情報を失うことなく新しいデータを合成することで、少数クラスのコピーによって引き起こされる過剰適合の問題を軽減します。ただし、新しいインスタンスを合成するときには、他のクラスの隣接インスタンスは考慮されないため、クラスの重複が発生し、ノイズが追加される可能性があります。

アルゴリズムアンサンブルテクノロジー

上記の手法はすべて、元のデータセットを再サンプリングすることによってバランスの取れたデータセットを取得します。このセクションでは、既存の分類アルゴリズムを改良して、不均衡なデータセットに適したものにします。アルゴリズム合成の目的は、単一の分類器のパフォーマンスを向上させることです。下の図は、アルゴリズムを合成する方法を示しています。

図2: アルゴリズムアンサンブル手法アプローチ

袋詰めに基づく

Bagging は Bootstrap Aggregating の略です。従来のバギングアルゴリズムは、互いに置き換えることができる n 個のブートストラップトレーニングサンプルを生成します。各サンプルに基づいて、さまざまなモデルがトレーニングされ、最終的にこれらのモデルの予測結果がまとめられます。バギングにより過剰適合が軽減され、より正確な予測モデルを作成できます。ブースティングとは異なり、バギングではトレーニングセットの置き換えが可能です。下の図は袋詰めの工程を示しています。

図3: バギング法

前の例では、母集団から 10 個のブートストラップサンプルが復元抽出され、各サンプルには 200 個の観測値が含まれていました。各サンプルは元のデータとは異なりますが、分布と変動性は元のデータと同様です。ロジスティック回帰、ニューラルネットワーク、決定木などの多くの機械学習アルゴリズムを使用して、これらの 10 個のブートストラップサンプルをトレーニングし、10 個の異なる分類子 C1、C2...C10 を取得できます。これら 10 個の分類器が結合されて複合分類器になります。このアンサンブルアルゴリズムは、複数の個別の分類器の結果を組み合わせて、より優れた複合分類器を生成します。バギングアルゴリズムは、機械学習アルゴリズムの安定性と精度を向上させ、過剰適合の問題を解決します。ノイズの多いデータ環境では、ブースティングよりもバギングの方がパフォーマンスが優れています。

ブースティングに基づく

ブースティングは、弱い分類器を組み合わせて、正確に予測できる強い分類器を形成するアルゴリズムアンサンブル手法でもあります。ブースティングは、トレーニングセット用に準備された弱い分類器から始まります。弱い分類器とは、予測精度が平均よりわずかに高い分類器です。データがわずかに変化すると、分類モデルは大幅に変化します。ブースティングは、特定の学習アルゴリズムの精度を向上させる方法です。下の図はブースティング方式を示しています。

図4: ブースティング法

以下に、いくつかの異なるブースティング手法を紹介します。

Ada Boost は、多数の弱い分類器を組み合わせて正確な予測分類器を形成する、ブースティングアルゴリズムファミリの代表的なアルゴリズムです。各分類器の目標は、前のラウンドで誤分類されたインスタンスを正しく分類することです。各ラウンドの後に、誤分類されたインスタンスの重みが増加し、正しく分類されたインスタンスの重みが減少します。先ほどの不均衡なデータセットに Ada Boost を適用します。まず、各インスタンスに同じ重みを付けます。基本分類器が 400 個のインスタンスのみを正しく分類するとします。これらの 400 個のインスタンスの重みをに減らし、残りの 600 個の誤分類インスタンスの重みをに増やします。各ラウンドで、弱分類器は重みを更新することでパフォーマンスを向上させます。このプロセスは、誤分類率が大幅に低下し、分類器が強力な分類器になるまで継続されます。 Ada Boost の利点は、実装が非常に簡単で汎用性が高く、過剰適合を引き起こすことなくあらゆる種類の分類アルゴリズムに適用できることです。欠点は、ノイズや外れ値に対して非常に敏感であることです。

勾配ブースティングは、各モデルが勾配降下法を使用して損失関数を順番に最小化する最適化アルゴリズムです。勾配ブースティングでは、決定木は弱い分類器として扱われます。 Ada Boost と Gradient Boosting はどちらも弱い分類器を強い分類器に変換する方法ですが、2 つの方法は根本的に異なります。 Ada Boost では、学習プロセスを開始する前に、ユーザーが弱い分類器セットを設定するか、ランダムに弱い分類器セットを生成する必要があります。各弱い分類器の重みは、分類が正しいかどうかに基づいて調整されます。勾配ブースティングは、まずトレーニングセットで分類子の予測を構築し、次に損失値を計算し、その損失値を使用して分類子を改善します。各ステップで、損失関数の残差は勾配降下法を使用して計算されます。後続の反復では、新しい残差がターゲット変数になります。勾配ツリーブースティングは、ランダムフォレストよりも適合が困難です。微調整できるパラメータは、Shrinkage パラメータ、ツリーの深さ、ツリーの数の 3 つです。適切なパラメータを選択することによってのみ、適合性の高い勾配ブースティングツリーを取得できます。パラメータが正しく調整されていない場合、過剰適合が発生する可能性があります。

結論は

不均衡なデータセットに直面した場合、すべての予測モデルの精度を向上できる単一のソリューションは存在しません。おそらく、さまざまなアプローチを試して、このデータセットに最適なものを見つけることだけが必要です。不均衡なデータセットを処理するための最も効果的な手法は、データセットの特性によって異なります。ほとんどの場合、SMOTE などの合成サンプリング手法は、従来のオーバーサンプリングやアンダーサンプリングよりも優れたパフォーマンスを発揮します。より良い結果を得るために、合成サンプリング技術とブースティング手法を同時に使用することができます。異なる方法を比較する場合、関連する評価パラメータを考慮することができます。前述の方法を使用して構築された複数の予測モデルを比較する場合、ROC 曲線の下の領域を使用して、どのモデルのパフォーマンスが優れているかを判断できます。

<<: トップ 10 のディープラーニングフレームワークの比較分析

>>: ディープラーニングを専門家以外の人に説明するにはどうすればよいでしょうか?