不均衡なデータを処理する Python ライブラリ トップ 10

不均衡なデータを処理する Python ライブラリ トップ 10

データの不均衡は機械学習における一般的な課題であり、あるクラスの数が他のクラスを大幅に上回り、偏ったモデルや不十分な一般化につながる可能性があります。不均衡なデータを効率的に処理するのに役立つさまざまな Python ライブラリがあります。この記事では、機械学習で不均衡なデータを処理するための上位 10 個の Python ライブラリを紹介し、各ライブラリのコード スニペットと説明を提供します。

1. 不均衡な学習

imbalanced-learn は、データセットの再バランス調整のためのさまざまな手法を提供する scikit-learn の拡張機能です。オーバーサンプリング、アンダーサンプリング、および組み合わせ方式を提供します。

 from imblearn.over_sampling import RandomOverSampler ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X, y)

2. スモート

SMOTE はデータセットのバランスをとるために合成サンプルを生成します。

 from imblearn.over_sampling import SMOTE smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X, y)

3. アダシン

ADASYN は、いくつかのサンプルの密度に基づいて合成サンプルを適応的に生成します。

 from imblearn.over_sampling import ADASYN adasyn = ADASYN() X_resampled, y_resampled = adasyn.fit_resample(X, y)

4. ランダムアンダーサンプラー

RandomUnderSampler は、多数派クラスからサンプルをランダムに削除します。

 from imblearn.under_sampling import RandomUnderSampler rus = RandomUnderSampler() X_resampled, y_resampled = rus.fit_resample(X, y)

5. トメックリンク

Tomek Linksは、異なるクラスの最も近い隣接ペアを削除し、複数のサンプルの数を減らすことができます。

 from imblearn.under_sampling import TomekLinks tl = TomekLinks() X_resampled, y_resampled = tl.fit_resample(X, y)

6. SMOTEENN (SMOTE + 編集された最近傍)

SMOTEENN は SMOTE と Edited Nearest Neighbors を組み合わせたものです。

 from imblearn.combine import SMOTEENN smoteenn = SMOTEENN() X_resampled, y_resampled = smoteenn.fit_resample(X, y)

7. SMOTETomek (SMOTE + Tomek リンク)

SMOTEENN は、オーバーサンプリングとアンダーサンプリングのために SMOTE と Tomek Links を組み合わせます。

 from imblearn.combine import SMOTETomek smotetomek = SMOTETomek() X_resampled, y_resampled = smotetomek.fit_resample(X, y)

8. イージーアンサンブル

EasyEnsemble は、多数派クラスのバランスの取れたサブセットを作成するアンサンブル メソッドです。

 from imblearn.ensemble import EasyEnsembleClassifier ee = EasyEnsembleClassifier() ee.fit(X, y)

9. バランスランダムフォレスト分類器

BalancedRandomForestClassifier は、ランダム フォレストとバランスのとれたサブサンプリングを組み合わせたアンサンブル メソッドです。

 from imblearn.ensemble import BalancedRandomForestClassifier brf = BalancedRandomForestClassifier() brf.fit(X, y)

10. RUSBoost分類器

RUSBoostClassifier は、ランダム アンダーサンプリングとブースティングを組み合わせたアンサンブル メソッドです。

 from imblearn.ensemble import RUSBoostClassifier rusboost = RUSBoostClassifier() rusboost.fit(X, y)

要約する

不均衡なデータに対処することは、正確な機械学習モデルを構築する上で非常に重要です。これらの Python ライブラリは、この問題に対処するためのさまざまなテクニックを提供します。データセットと問題に応じて、データを効果的にバランスさせる最も適切な方法を選択できます。

<<:  チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

>>:  ガウス混合モデルを用いた多峰性分布の分離

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能の「指紋採取」が検出困難な癌と闘う

検出が難しい膠芽腫などの癌の生存率は1桁ですが、早期治療には検出、治療、監視のための高度な技術が必要...

インテリジェントビル通信システムの構成と要件

ハイテクの継続的な発展に伴い、インテリジェントビル通信システムの構成は絶えず変化し、要件は絶えず増加...

3Dデモを使用してさまざまな最適化アルゴリズムを理解します。これはC++プログラマーにとって朗報です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ハイブリッドAIは企業がデータの価値を掘り出すための好ましい方法である

人工知能については、誰もがよくご存知だと思います。実際、人工知能には幅広い知識が含まれており、さまざ...

興味深いアルゴリズムを知っていますか?

[[428794]]この記事はWeChatの公開アカウント「WeDoctor Front-end ...

成功の秘訣: AIを活用したオンライン文書検証

[[410827]] [51CTO.com クイック翻訳]急速な技術開発と進歩の時代において、個人情...

マスターカードがAIを活用して詐欺を阻止し、誤ったチャージバックを削減する方法

【51CTO.com クイック翻訳】チェックアウト時に銀行カード取引が拒否されると、イライラしたり恥...

30年の沈黙と60年の経験を経て、「人工知能」の過去と現在とは?

30年以上沈黙していた「人工知能」という言葉は、ここ2年で非常に人気が高まり、テクノロジー企業の主...

ロボットの時代、トラクターの背後にある1兆ドル市場

自動化農業の需要を満たすには、栽培者は栽培シーズンを通して作物の成長と健康に関する正確な情報を入手し...

...

大規模モデルは知識グラフを効率的に作成するのに役立ちます

著者 | 崔昊レビュー | Chonglouまとめこの記事では、ナレッジ グラフと大規模言語モデルを...

このレポートを読めば、人工知能に関するあなたの常識は基本的に正しいものとなるでしょう。

[[266878]]中国における人工知能に関する議論の多くは体系化されておらず、断片的であり、人工...

AI と ROI に関する真実: AI は本当に成果をもたらすことができるのか?

今日、企業組織はこれまで以上に人工知能 (AI) と機械学習 (ML) の可能性を信頼し、投資してい...

最高裁判所は顔認識に関する司法解釈を発表し、無作為の「顔スキャン」に「ノー」と述べた。

今朝(8日)、第13期全国人民代表大会第5回会議第二回全体会議が開催され、最高人民法院と最高人民検察...