機械学習におけるクラス不均衡に対処するための 10 のヒント

導入

あるクラスの観測値が他のクラスの観測値よりも高い場合、クラスの不均衡が生じます。

例: 不正なクレジットカード取引の検出。下図の通り、不正取引件数は約400件、不正でない取引件数は約9万件となっております。

クラスの不均衡は機械学習、特に分類問題においてよく見られる問題です。不均衡なデータは、長期間にわたってモデルの精度を妨げる可能性があります。

階級の不均衡は、以下を含む多くの分野で発生します。

不正行為検出
スパムフィルタリング
病気のスクリーニング
SaaS サブスクリプション解約
広告クリック

階級不均衡問題

ほとんどの機械学習アルゴリズムは、各クラスにほぼ同じ数の例がある場合に最も効果的に機能します。これは、ほとんどのアルゴリズムが精度を最大化し、エラーを最小化するように設計されているためです。

ただし、データセットのバランスが崩れると、多数派クラスを予測するだけでかなり高い精度が得られますが、モデルを最初に作成した目的である少数派クラスを捕捉できないことがあります。

クレジットカード詐欺検出の例

クレジットカード会社からデータセットを入手し、クレジットカード取引が不正かどうかを調べる必要があるとします。

しかし、ここに落とし穴があります…不正な取引は比較的まれで、取引のわずか 6% が不正です。

さて、始める前に、問題をどのように解決すべきか想像できますか? モデルのトレーニングにまったく時間を費やさなかったとしたらどうなるか想像してみてください。代わりに、常に「不正な取引はない」と予測するコードを 1 行だけ書いたらどうなるでしょうか?

定義トランザクション（transaction_data）:
戻る  「不正取引はなし」

さて、どうなると思いますか？あなたの「解決策」の精度は 94% になります!

残念ながら、この正確さは誤解を招くものです。

これらすべての不正のない取引では 100% の精度が得られます。

それらの不正取引の精度は 0% です。

ほとんどの取引が不正ではないため（モデルが優れているからではなく）、全体的な精度が高くなります。

多くの機械学習アルゴリズムは全体的な精度を最大化するように設計されているため、これは明らかに問題です。この記事では、不均衡なデータを処理するためのさまざまな手法について説明します。

データ

この記事では、こちらから入手できるクレジットカード詐欺検出データセットを使用します。

https://www.kaggle.com/mlg-ulb/クレジットカード詐欺

データが読み込まれると、データセットの最初の 5 行が表示されます。

 #不正なターゲット変数をチェックし、  不正ではないtransactiondata[ 'Class' ].value_counts()#0 -> 不正ではない
# 1 -> 詐欺

# ターゲット変数を視覚化する
g = sns.countplot(データ[ 'クラス' ])
 g.set_xticklabels([ '不正ではない' , '不正' ])
 plt.show()

データセット間に大きな違いがあることがはっきりとわかります。不正でない取引が 9,000 件、不正な取引が 492 件。

インジケータートラップ

不均衡なデータセットを扱う際に新しい開発者ユーザーが遭遇する主な問題の 1 つは、モデルを評価するために使用されるメトリックに関連しています。精度スコアなどのより単純な指標を使用すると、誤解を招く可能性があります。クラスのバランスが非常に悪いデータセットでは、分類器は常に特徴分析を行わずに最も一般的なクラスを「予測」し、明らかに正しくない高い精度を実現します。

シンプルな XGBClassifier を使用し、特徴エンジニアリングなしでこの実験をしてみましょう。

 # ライブラリをインポートする
xgboostからXGBClassifier をインポートします
xgb_model = XGBClassifier().fit(x_train, y_train)# 予測xgb_y_predict = xgb_model.predict(x_test)# 精度スコアxgb_score = acceleration_score(xgb_y_predict, y_test)print( '精度スコアは:' , xbg_score)出力 
精度スコアは0.992です

99% の精度で、ほとんどのクラスが 0 (不正ではない) と予測されるため、非常に高い精度が得られていることがわかります。

再サンプリング技術

非常に不均衡なデータセットを処理するために広く採用されている手法は、リサンプリングと呼ばれます。これには、多数派クラスからサンプルを削除すること (アンダーサンプリング) と、少数派クラスからさらにサンプルを追加すること (オーバーサンプリング) が含まれます。

クラスのバランスをとることには利点があるものの、これらの手法には欠点もあります。

オーバーサンプリングの最も単純な実装は、少数派クラスのランダムなレコードを複製することであり、これは乱獲につながる可能性があります。

アンダーサンプリングの最も単純な実装では、多数派クラスからランダムなレコードを削除しますが、これにより情報が失われる可能性があります。

クレジットカード詐欺検出の例を使用してこれを実装してみましょう。

まずクラス 0 とクラス 1 を分離します。

クラス数 
 class_count_0, class_count_1 = データ[ 'クラス' ].value_counts()
 # 別々のクラス class_0 = data[data[ 'Class' ] == 0]
 class_1 = data[data[ 'Class' ] == 1]#クラスの形状を出力します
print( 'クラス0:' , class_0.shape)
 print( 'クラス1:' , class_1.shape

1. ランダムアンダーサンプリング

アンダーサンプリングは、多数派クラスから観測値を削除することとして定義できます。これは、多数派と少数派のクラスのバランスが取れる前に行われます。

数百万行など、大量のデータがある場合、アンダーサンプリングは適切な選択肢となります。しかし、アンダーサンプリングの欠点の 1 つは、貴重な情報が削除される可能性があることです。

 class_0_under = class_0.sample(class_count_1)
 test_under = pd.concat([class_0_under, class_1], 軸=0)
 print( "total class of 1 and0:" ,test_under[ 'Class' ].value_counts()) #カウントをプロットする アンダーサンプリング後
test_under[ 'クラス' ].value_counts().plot(kind= 'バー' 、title= 'カウント（ターゲット）' )

2. ランダムオーバーサンプリング

オーバーサンプリングは、少数クラスのコピーをさらに追加することとして定義できます。処理するデータがそれほど多くない場合は、オーバーサンプリングが適切なオプションになります。

アンダーサンプリングを行う際に考慮すべき欠点の 1 つは、テストセットでの過剰適合と一般化の低下につながる可能性があることです。

 class_1_over = class_1.sample(class_count_0、 replace = True )
 test_over = pd.concat([class_1_over, class_0], 軸=0)
 print( "1と0の合計クラス: " ,test_under[ 'Class' ].value_counts()) #カウントをプロットする アンダーサンプリング後
test_over[ 'クラス' ].value_counts().plot(kind= 'バー' , title= 'カウント(ターゲット)' )

imbalanced-learn python モジュールを使用してデータのバランスをとる

科学文献では、より洗練された再サンプリング手法が数多く提案されています。

たとえば、多数派クラスのレコードをクラスター化し、各クラスターからレコードを削除してアンダーサンプリングすることで、情報を保持することができます。オーバーサンプリングでは、少数派クラスのレコードの正確なコピーを作成する代わりに、これらのコピーに小さなバリエーションを導入して、より多様な合成サンプルを作成できます。

Python ライブラリ imbalanced-learn を使用して、これらの再サンプリング手法のいくつかを適用してみましょう。これは scikit-learn と互換性があり、scikit-learn-contrib プロジェクトの一部です。

インポートimblearn

3. imblearnを使用したランダムアンダーサンプリング

RandomUnderSampler は、ターゲットクラスのデータのサブセットをランダムに選択することで、データのバランスをとる高速かつ簡単な方法です。置換ありまたは置換なしでサンプルをランダムに選択することにより、多数派クラスをアンダーサンプリングします。

 # ライブラリをインポートする
imblearn.under_samplingからRandomUnderSampler をインポートします
rus = RandomUnderSampler(random_state=42, replacement= True )# 予測変数とターゲット変数を適合させる
x_rus, y_rus = rus.fit_resample(x, y)print( '元のデータセットの形状:' , Counter(y))
 print( 'データセットの形状を再サンプル' , Counter(y_rus))

4. imblearnを使用したランダムオーバーサンプリング

不均衡なデータに対処する 1 つの方法は、少数クラスで新しいサンプルを生成することです。最も単純な戦略は、現在利用可能なサンプルをランダムにサンプリングして置き換えることで、新しいサンプルを生成することです。ランダムオーバーサンプリングはそのような解決策を提供します。

 # ライブラリをインポートする
imblearn.over_samplingからRandomOverSampler をインポートします
ros = ランダムオーバーサンプラー(ランダム状態=42)
 # 予測変数とターゲット変数を適合させる x_ros, y_ros = ros.fit_resample(x, y) print( '元のデータセットの形状' , Counter(y))
 print( 'データセットの形状を再サンプル' , Counter(y_ros))

5. アンダーサンプリング: Tomek Link

Tomek リンクは、非常に近いインスタンスのペアですが、カテゴリは反対です。多数派クラスの各ペアのインスタンスを削除すると、2 つのクラス間のスペースが広がり、分類プロセスが容易になります。

2つのサンプルが互いに最も近い隣接サンプルである場合、トメックリンクが存在する。

次のコードでは、ratio='majority' を使用して多数派クラスを再サンプリングします。

 # ライブラリをインポートする
imblearn.under_samplingからTomekLinks をインポート
tl = RandomOverSampler(サンプリング戦略 = 'majority' )
 # 予測変数とターゲット変数を適合させる x_tl, y_tl = ros.fit_resample(x, y) print( '元のデータセットの形状' , Counter(y))
 print( 'データセットの形状を再サンプル' , Counter(y_ros))

6. 合成少数オーバーサンプリング技術 (SMOTE)

この手法は、合成少数オーバーサンプリング手法です。

SMOTE (Synthetic Minority Oversampling Technique) は、少数クラスからランダムにポイントを選択し、そのポイントの k 近傍を計算することによって機能します。選択したポイントとその隣接するポイントの間に合成ポイントが追加されます。

SMOTE アルゴリズムは、次の 4 つの簡単な手順で機能します。

入力ベクトルとして少数派クラスを選択する
k 個の最も近い近傍を検索します (SMOTE() 関数のパラメータとして k_neighbors を指定します)
これらの近傍点の1つを選択し、検討中の点と選択された近傍点を結ぶ線上の任意の場所に合成点を配置します。
データのバランスが取れるまでこれらの手順を繰り返します

# ライブラリをインポートする
imblearn.over_samplingからSMOTE をインポートします
smote = SMOTE() # 予測変数とターゲット変数を適合させる x_smote, y_smote = smote.fit_resample(x, y) print( '元のデータセットの形状' , Counter(y))
 print( 'データセットの形状を再サンプル' , Counter(y_ros))

7. ニアミス

NearMiss はアンダーサンプリング技術です。距離を使用して少数クラスを再サンプリングする代わりに、多数クラスが少数クラスと等しくなります。

 imblearn.under_samplingからNearMiss をインポート
nm = NearMiss()x_nm, y_nm = nm.fit_resample(x, y)print( '元のデータセットの形状:' , Counter(y))
 print( 'データセットの形状を再サンプリング:' , Counter(y_nm))

8. パフォーマンス指標の変更

不均衡なデータセットを評価する場合、誤解を招く可能性があるため、精度は最適な指標ではありません。

より良い洞察を提供できる指標は次のとおりです。

混同マトリックス: 正しい予測と誤った予測の種類を示す表。
精度: 真陽性の数をすべての陽性予測数で割った値。精度は陽性予測値とも呼ばれます。これは分類器の精度を測る指標です。精度が低いということは、誤検知の数が多いことを意味します。
再現率: 真陽性の数をテストデータ内の陽性値の数で割ったもの。リコールは、感度または真陽性率とも呼ばれます。これは分類器の完全性を測る尺度です。リコールが低いということは、偽陰性の数が多いことを示します。
F1: スコア: 精度と再現率の加重平均。
ROC 曲線の下の領域 (AUROC): AUROC は、モデルが 2 つのクラスからの観測値を区別する可能性を表します。

言い換えれば、各クラスからランダムに観測値を選択した場合、モデルがそれらを正しく「ランク付け」できる確率はどれくらいでしょうか。

9. ペナルティアルゴリズム（コスト重視のトレーニング）

次の戦略は、少数派クラスを誤分類するコストを増やすペナルティ付き学習アルゴリズムを使用することです。

この手法でよく使われるアルゴリズムは、Penalized-SVM です。

トレーニング中に、パラメータ class_weight='balanced' を使用して、少数クラスのエラーに、過少表現の度合いに比例した量でペナルティを課すことができます。

SVM アルゴリズムの確率推定を有効にする場合は、パラメータ probability=True も含める必要があります。

元の不均衡なデータセットでペナルティ付き SVM を使用してモデルをトレーニングしてみましょう。

 #ライブラリをロード
sklearn.svmからSVC をインポートします
# class_weight= 'balanced'を追加できます に 間違いをパナライズする
svc_model = SVC(class_weight= 'balanced' 、確率= True )
 svc_model.fit(x_train, y_train)svc_predict = svc_model.predict(x_test) # パフォーマンスをチェックprint( 'ROCAUC スコア:' ,roc_auc_score(y_test, svc_predict))
 print( '精度スコア:' ,accuracy_score(y_test, svc_predict))
 print( 'F1 スコア:' ,f1_score(y_test, svc_predict))

10. アルゴリズムを変更する

あらゆる機械学習の問題においてさまざまなアルゴリズムを試してみるのは良い経験則ですが、不均衡なデータセットの場合に特に有益です。

決定木は、不均衡なデータに対しても優れたパフォーマンスを発揮することがよくあります。現代の機械学習では、ツリーアンサンブル (ランダムフォレスト、勾配ブースティングツリーなど) は、単一の決定木よりもほぼ常に優れているため、その点について簡単に説明します。

ツリーベースのアルゴリズムは、if/else 問題の階層を学習することによって機能します。これにより、両方のクラスの解決が強制されます。

 #ライブラリをロード
sklearn.ensembleからRandomForestClassifier をインポートします
rfc = RandomForestClassifier() # 予測子とターゲットを適合しますrfc.fit(x_train, y_train)# 予測しますrfc_predict = rfc.predict(x_test)#パフォーマンスを確認しますprint( 'ROCAUC スコア:' , roc_auc_score(y_test, rfc_predict))
 print( '精度スコア:' ,accuracy_score(y_test, rfc_predict))
 print( 'F1スコア:' ,f1_score(y_test, rfc_predict))