不均衡なデータを処理する Python ライブラリトップ 10

データの不均衡は機械学習における一般的な課題であり、あるクラスの数が他のクラスを大幅に上回り、偏ったモデルや不十分な一般化につながる可能性があります。不均衡なデータを効率的に処理するのに役立つさまざまな Python ライブラリがあります。この記事では、機械学習で不均衡なデータを処理するための上位 10 個の Python ライブラリを紹介し、各ライブラリのコードスニペットと説明を提供します。

1. 不均衡な学習

imbalanced-learn は、データセットの再バランス調整のためのさまざまな手法を提供する scikit-learn の拡張機能です。オーバーサンプリング、アンダーサンプリング、および組み合わせ方式を提供します。

 from imblearn.over_sampling import RandomOverSampler ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)

2. スモート

SMOTE はデータセットのバランスをとるために合成サンプルを生成します。

 from imblearn.over_sampling import SMOTE smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)

3. アダシン

ADASYN は、いくつかのサンプルの密度に基づいて合成サンプルを適応的に生成します。

 from imblearn.over_sampling import ADASYN adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)

4. ランダムアンダーサンプラー

RandomUnderSampler は、多数派クラスからサンプルをランダムに削除します。

 from imblearn.under_sampling import RandomUnderSampler rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)

5. トメックリンク

Tomek Linksは、異なるクラスの最も近い隣接ペアを削除し、複数のサンプルの数を減らすことができます。

 from imblearn.under_sampling import TomekLinks tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)

6. SMOTEENN (SMOTE + 編集された最近傍)

SMOTEENN は SMOTE と Edited Nearest Neighbors を組み合わせたものです。

 from imblearn.combine import SMOTEENN smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)

7. SMOTETomek (SMOTE + Tomek リンク)

SMOTEENN は、オーバーサンプリングとアンダーサンプリングのために SMOTE と Tomek Links を組み合わせます。

 from imblearn.combine import SMOTETomek smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)

8. イージーアンサンブル

EasyEnsemble は、多数派クラスのバランスの取れたサブセットを作成するアンサンブルメソッドです。

 from imblearn.ensemble import EasyEnsembleClassifier ee = EasyEnsembleClassifier() ee.fit(X, y)

9. バランスランダムフォレスト分類器

BalancedRandomForestClassifier は、ランダムフォレストとバランスのとれたサブサンプリングを組み合わせたアンサンブルメソッドです。

 from imblearn.ensemble import BalancedRandomForestClassifier brf = BalancedRandomForestClassifier() brf.fit(X, y)

10. RUSBoost分類器

RUSBoostClassifier は、ランダムアンダーサンプリングとブースティングを組み合わせたアンサンブルメソッドです。

 from imblearn.ensemble import RUSBoostClassifier rusboost = RUSBoostClassifier() rusboost.fit(X, y)

要約する

不均衡なデータに対処することは、正確な機械学習モデルを構築する上で非常に重要です。これらの Python ライブラリは、この問題に対処するためのさまざまなテクニックを提供します。データセットと問題に応じて、データを効果的にバランスさせる最も適切な方法を選択できます。

<<: チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

>>: ガウス混合モデルを用いた多峰性分布の分離

ブログ

Aurora の 1 億ドルの買収の背後にあるもの: RISC-V の創始者が「中国製チップ」を開発するという野望

ブログ

次世代産業用ロボットに対する人工知能（AI）の影響

ブログ

モデルの好みはサイズだけですか？上海交通大学は32の大規模モデルについて人間の嗜好の定量的要素を包括的に分析した。

不均衡なデータを処理する Python ライブラリトップ 10

1. 不均衡な学習

2. スモート

3. アダシン

4. ランダムアンダーサンプラー

5. トメックリンク

6. SMOTEENN (SMOTE + 編集された最近傍)

7. SMOTETomek (SMOTE + Tomek リンク)

8. イージーアンサンブル

9. バランスランダムフォレスト分類器

10. RUSBoost分類器

要約する

Aurora の 1 億ドルの買収の背後にあるもの: RISC-V の創始者が「中国製チップ」を開発するという野望

次世代産業用ロボットに対する人工知能（AI）の影響

モデルの好みはサイズだけですか？上海交通大学は32の大規模モデルについて人間の嗜好の定量的要素を包括的に分析した。

AIはイベント業界の未来を形作ることができるでしょうか?

エッジAIの進歩が次世代ドローンのイノベーションをどう推進するか

推薦する

人工知能の「指紋採取」が検出困難な癌と闘う

インテリジェントビル通信システムの構成と要件

3Dデモを使用してさまざまな最適化アルゴリズムを理解します。これはC++プログラマーにとって朗報です。

ハイブリッドAIは企業がデータの価値を掘り出すための好ましい方法である

興味深いアルゴリズムを知っていますか?

成功の秘訣: AIを活用したオンライン文書検証

マスターカードがAIを活用して詐欺を阻止し、誤ったチャージバックを削減する方法

30年の沈黙と60年の経験を経て、「人工知能」の過去と現在とは？

ロボットの時代、トラクターの背後にある1兆ドル市場

大規模モデルは知識グラフを効率的に作成するのに役立ちます

このレポートを読めば、人工知能に関するあなたの常識は基本的に正しいものとなるでしょう。

AI と ROI に関する真実: AI は本当に成果をもたらすことができるのか?

最高裁判所は顔認識に関する司法解釈を発表し、無作為の「顔スキャン」に「ノー」と述べた。