クラスの不均衡: 希少疾患の機械学習データセット(陽性が約 8%)があるとします。この場合、トレーニングを行わず単に病気がないと伝えたとしても、92% の精度が得られます。したがって、クラスの不均衡がある場合、精度は正確ではありません。 このガイドでは、機械学習における不均衡なクラスに対処するための 5 つの戦略を紹介しました。
1. 少数クラスのアップサンプリング: これは、少数クラスの観測値をランダムに複製して、サンプル数が多数クラスのものと一致するようにすることを意味します。 まず、各クラスの観測値を異なる DataFrame に分割します。 次に、サンプル数を多数派クラスのサンプル数と一致するように設定して、少数派クラスを置換によって再サンプリングします。 ***、アップサンプリングされた少数クラスの DataFrame を元の多数クラスの DataFrame と結合します。 合成サンプルの作成(データ拡張) 合成サンプルの作成はアップサンプリングと非常に近いものであり、これらを一緒に分類する人もいます。たとえば、SMOTE アルゴリズムは、特徴値をわずかに調整しながら少数クラスから再サンプリングし、「新しい」サンプルを作成する方法です。 2. 多数派クラスのダウンサンプリング: ダウンサンプリングでは、多数派クラスの信号が学習アルゴリズムを支配するのを防ぐために、多数派クラスから観測値をランダムに削除します。 まず、各クラスの観測値を異なる DataFrame に分割します。 次に、サンプル数を少数クラスと一致するように設定して、多数クラスを非置換で再サンプリングします。 ***、ダウンサンプリングされた多数派クラスの DataFrame を元の少数派クラスの DataFrame と結合します。 3. 変更パフォーマンス指標: AUROC (ROC曲線の下の面積) ロジスティック回帰などの確率的バイナリ分類器があるとします。 ROC 曲線を説明する前に、混同行列の概念を理解することが重要です。バイナリ予測を行うと、次の 4 種類の結果が考えられます。
混同行列を取得するには、機械学習モデルによって行われたすべての予測を振り返り、次の 4 つの結果がそれぞれ何回発生したかを数えます。 この混同行列の例では、分類された 50 個のデータ ポイントのうち、45 個が正しく分類され、5 個が誤って分類されました。 通常、異なるモデルを比較するには複数のメトリックを使用するよりも単一のメトリックを使用する方が便利なので、混同行列から 2 つのメトリックを計算し、それらを 1 つに結合します。
FPR と TPR を 1 つのメトリックに結合するには、まず、さまざまなしきい値 (例: 0.00、0.01、0.02、…、1.000.00、0.01、0.02、…、1.00) を使用してロジスティック回帰で最初の 2 つのメトリックを計算し、次に、横軸に FPR 値、縦軸に TPR 値をとってグラフにプロットします。結果として得られる曲線は ROC 曲線と呼ばれ、ここで考慮する指標はこの曲線の AUC であり、これを AUROC と呼びます。 次の図は AUROC をグラフィカルに示しています。 この図では、青い領域は AUROC の曲線の下の領域に対応します。対角線の破線はランダム予測子の ROC 曲線を示しています。AUROC は 0.5 です。 AUROC は 0 から 1 の間で、AUROC = 1 は予測モデルが完璧であることを意味します。実際、AUROC が 0.5 から離れるほど、より良い結果が得られます。AUROC < 0.5 の場合は、モデルによる決定を反転させるだけで済みます。したがって、AUROC = 0 の場合、モデルの出力を反転するだけで最適な機械学習モデルが得られるため、これは朗報です。 4. ペナルティアルゴリズム: 次の戦略は、少数派クラスを誤分類するコストを増やすペナルティ付き学習アルゴリズムを使用することです。 この技術の一般的なアルゴリズムは、ペナルティ付きSVM(サポートベクターマシン)です。 トレーニング中に、パラメータ class_weight='balanced' を使用して、少数クラスのエラーに、そのクラスの過小表現の量に比例した量だけペナルティを課すことができます。 SVM アルゴリズムの確率推定を有効にする場合は、パラメータ probability=True も含める必要があります。 元の不均衡なデータセットでペナルティ付き SVM を使用してモデルをトレーニングしてみましょう。 5. ツリーベースのアルゴリズムを使用する ここで検討する *** 戦略では、ツリーベースのアルゴリズムを使用します。決定木は階層構造により両方のクラスからの信号を学習できるため、不均衡なデータセットでも優れたパフォーマンスを発揮することがよくあります。 現代の応用機械学習では、ツリーのアンサンブル (ランダム フォレスト、勾配ブースティング ツリーなど) は、ほぼ常に単一の決定木よりも優れたパフォーマンスを発揮します。 97% の精度とほぼ 100% の AUROC。 ツリー アンサンブルは、多くの現実の問題に対して非常に優れたパフォーマンスを発揮するため、非常に人気が高まっています。 ただし、これらの結果は有望ではありますが、機械学習モデルは過剰適合する可能性があるため、最終決定を下す前にテスト セットで評価する必要があります。 |
<<: ベイジアンパーソナライズランキングアルゴリズムを1つの記事で理解する
>>: 好むと好まざるとにかかわらず、AIクラウド運用はやってくる
1G の時代では、電話をかけたり受けたりすることしかできませんでした。 2G 時代は、電話をかけた...
[[311646]] (画像出典: venturebeat)人工知能は既存のいくつかの産業を変革す...
背景声紋検索は、その名前が示すように、話者認識であり、音を通じて話者の声を確認または識別します。声紋...
最近、Amazon One の研究者は、生成された画像を明示的に制御できる GAN をトレーニングす...
[51CTO.com クイック翻訳] 人工知能と機械学習の概念は、データサイエンスコミュニティで人気...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
最近、ロボットが人気になってきました。家庭生活、ホテル経営、学校教育、医療などさまざまな場面でロボッ...
[[198955]]現在の商用サーバーは、システムアーキテクチャの観点から、対称型マルチプロセッサ構...
[51CTO.comより引用] 近年、コンピュータ技術は急速に発展しており、人工知能はその操作性と...
拡散モデルを使用して化学反応を予測すると、速度が1,000 倍向上します。かつてはコンピューターで計...
完璧なパートナーを見つけることは、特に新型コロナウイルスによるロックダウンや隔離により対面でのコミュ...