信用デフォルト予測モデリングでは、ランダムフォレストが 91.1% でトップに!

信用デフォルト予測モデリングでは、ランダムフォレストが 91.1% でトップに!

みなさんこんにちは、ピーターです〜

この記事は、Kaggle での機械学習の実践的なケーススタディです。機械学習に基づく信用デフォルト予測です。複数のモデルを使用しており、最終結果ではランダム フォレストモデルが 1 位であることが示されています。

主な内容は次のとおりです。

  • 基本データ情報とEDA
  • データの前処理と特徴エンジニアリング
  • 複数モデル予測と指標比較インポートライブラリ

ライブラリのインポート

[1]では:

 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import missingno as mso import seaborn as sns import warnings import os import scipy from scipy import stats from scipy.stats import pearsonr from scipy.stats import ttest_ind from sklearn.metrics import classification_report from sklearn.metrics import confusion_matrix from sklearn.preprocessing import MinMaxScaler from sklearn.model_selection import train_test_split from imblearn.over_sampling import SMOTE from sklearn.linear_model import LogisticRegression from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.naive_bayes import CategoricalNB from sklearn.naive_bayes import GaussianNB from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import GradientBoostingClassifier from xgboost import XGBClassifier from sklearn.model_selection import GridSearchCV, RandomizedSearchCV from sklearn.metrics import accuracy_score import warnings warnings.filterwarnings("ignore")

データの基本情報

データのインポート

[2]では:

 df = pd.read_csv("data.csv") df.head()

アウト[2]:

基本情報

[3]では:

 # 整体的数据量df.shape

アウト[3]:

 (614, 13)

[4]では:

 # 全部字段df.columns

アウト[4]:

 Index(['Loan_ID', 'Gender', 'Married', 'Dependents', 'Education', 'Self_Employed', 'ApplicantIncome', 'CoapplicantIncome', 'LoanAmount', 'Loan_Amount_Term', 'Credit_History', 'Property_Area', 'Loan_Status'], dtype='object')

借り手のID、性別、既婚かどうか、勤務部門、学歴などの項目を確認できます。

[5]では:

 # 查看字段类型df.dtypes

アウト[5]:

 Loan_ID object Gender object Married object Dependents object Education object Self_Employed object ApplicantIncome int64 CoapplicantIncome float64 LoanAmount float64 Loan_Amount_Term float64 Credit_History float64 Property_Area object Loan_Status object dtype: object

[6]では:

 # 查看描述统计信息df.describe()

アウト[6]:


申請者収入

共同申請者の収入

ローン金額

ローン金額期間

クレジット履歴

カウント

614.000000

614.000000

592.000000

600.00000

564.000000

平均

5403.459283

1621.245798

146.412162

342.00000

0.842199

標準

6109.041673

2926.248369

85.587325

65.12041

0.364878

150.000000

0.000000

9.000000

12.00000

0.000000

25%

2877.500000

0.000000

100.000000

360.00000

1.000000

50%

3812.500000

1188.500000

128.000000

360.00000

1.000000

75%

5795.000000

2297.250000

168.000000

360.00000

1.000000

最大

81000.000000

41667.000000

700.000000

480.00000

1.000000

欠損値の状況

[7]では:

 df.isnull().sum()

アウト[7]:

 Loan_ID 0 Gender 13 Married 3 Dependents 15 Education 0 Self_Employed 32 ApplicantIncome 0 CoapplicantIncome 0 LoanAmount 22 Loan_Amount_Term 14 Credit_History 50 Property_Area 0 Loan_Status 0 dtype: int64

いくつかのフィールドには値が欠落していることがわかります

[8]では:

 mso.bar(df,color="blue") plt.show()

写真

欠損値は後で埋められます。データ探索 EDA

データ探索 EDA

カテゴリ変数

ローンID

[9]では:

 df.Loan_ID.value_counts(dropna=False)

アウト[9]:

 LP001002 1 LP002328 1 LP002305 1 LP002308 1 LP002314 1 .. LP001692 1 LP001693 1 LP001698 1 LP001699 1 LP002990 1 Name: Loan_ID, Length: 614, dtype: int64

Loan_IDごとにレコードが1つずつあることがわかります。

性別

[10]では:

 df.Gender.value_counts(dropna=False)

アウト[10]:

 Male 489 Female 112 NaN 13 Name: Gender, dtype: int64

[11]では:

 sns.countplot(x="Gender", data=df, palette="hls") plt.show()

写真

性別ごとの欠損値を処理します。

[12]では:

 countMale = len(df[df.Gender == 'Male']) # 男性数据countFemale = len(df[df.Gender == 'Female']) # 女性数据countNull = len(df[df.Gender.isnull()]) # 缺失值数量

[13]では:

 print("Percentage of Male: {:.2f}%".format((countMale / (len(df.Gender)) * 100))) print("Percentage of Female: {:.2f}%".format((countFemale / (len(df.Gender)) * 100))) print("Missing values percentage: {:.2f}%".format((countNull / (len(df.Gender)) * 100))) Percentage of Male: 79.64% Percentage of Female: 18.24% Missing values percentage: 2.12%

既婚

[14]では:

 df.Married.value_counts(dropna=False)

アウト[14]:

 Yes 398 No 213 NaN 3 Name: Married, dtype: int64

[15]では:

 sns.countplot(x="Married", data=df, palette="Paired") plt.show()

写真

既婚者と未婚者の比較:

[16]では:

 countMarried = len(df[df.Married == 'Yes']) countNotMarried = len(df[df.Married == 'No']) countNull = len(df[df.Married.isnull()])

[17]では:

 print("Percentage of married: {:.2f}%".format((countMarried / (len(df.Married))*100))) print("Percentage of Not married applicant: {:.2f}%".format((countNotMarried / (len(df.Married))*100))) print("Missing values percentage: {:.2f}%".format((countNull / (len(df.Married))*100))) Percentage of married: 64.82% Percentage of Not married applicant: 34.69% Missing values percentage: 0.49%

教育

[18]では:

 df.Education.value_counts(dropna=False)

アウト[18]:

 Graduate 480 Not Graduate 134 Name: Education, dtype: int64

[19]では:

 sns.countplot(x="Education", data=df, palette="rocket") plt.show()

写真

異なる教育レベルの人々の比較:

[20]では:

 countGraduate = len(df[df.Education == 'Graduate']) countNotGraduate = len(df[df.Education == 'Not Graduate']) countNull = len(df[df.Education.isnull()]) print("Percentage of graduate applicant: {:.2f}%".format((countGraduate / (len(df.Education))*100))) print("Percentage of Not graduate applicant: {:.2f}%".format((countNotGraduate / (len(df.Education))*100))) print("Missing percentage: {:.2f}%".format((countNull / (len(df.Education))*100))) Percentage of graduate applicant: 78.18% Percentage of Not graduate applicant: 21.82% Missing percentage: 0.00%

自営業

[21]では:

 df.Self_Employed.value_counts(dropna=False)

アウト[21]:

 No 500 Yes 82 NaN 32 Name: Self_Employed, dtype: int64

[22]では:

 sns.countplot(x="Self_Employed", data=df, palette="crest") plt.show()

写真

従業員が自営業者であるかどうかの比較:

[23]では:

 countNo = len(df[df.Self_Employed == 'No']) countYes = len(df[df.Self_Employed == 'Yes']) countNull = len(df[df.Self_Employed.isnull()]) print("Percentage of Not self employed: {:.2f}%".format((countNo / (len(df.Self_Employed))*100))) print("Percentage of self employed: {:.2f}%".format((countYes / (len(df.Self_Employed))*100))) print("Missing values percentage: {:.2f}%".format((countNull / (len(df.Self_Employed))*100))) Percentage of Not self employed: 81.43% Percentage of self employed: 13.36% Missing values percentage: 5.21%

信用履歴

[24]では:

 df.Credit_History.value_counts(dropna=False)

アウト[24]:

 1.0 475 0.0 89 NaN 50 Name: Credit_History, dtype: int64

[25]では:

 sns.countplot(x="Credit_History", data=df, palette="viridis") plt.show()

写真

クレジットカード履歴のある人とない人の比較:

[26]では:

 count1 = len(df[df.Credit_History == 1]) count0 = len(df[df.Credit_History == 0]) countNull = len(df[df.Credit_History.isnull()])

[27]では:

 print("Percentage of Good credit history: {:.2f}%".format((count1 / (len(df.Credit_History))*100))) print("Percentage of Bad credit history: {:.2f}%".format((count0 / (len(df.Credit_History))*100))) print("Missing values percentage: {:.2f}%".format((countNull / (len(df.Credit_History))*100))) Percentage of Good credit history: 77.36% Percentage of Bad credit history: 14.50% Missing values percentage: 8.14%

物件エリア

[28]では:

 df.Property_Area.value_counts(dropna=False)

アウト[28]:

 Semiurban 233 Urban 202 Rural 179 Name: Property_Area, dtype: int64

[29]では:

 sns.countplot(x="Property_Area", data=df, palette="cubehelix") plt.show()

写真

地域別の人口の比較:

[30]では:

 countUrban = len(df[df.Property_Area == 'Urban']) countRural = len(df[df.Property_Area == 'Rural']) countSemiurban = len(df[df.Property_Area == 'Semiurban']) countNull = len(df[df.Property_Area.isnull()])

[31]では:

 print("Percentage of Urban: {:.2f}%".format((countUrban / (len(df.Property_Area))*100))) print("Percentage of Rural: {:.2f}%".format((countRural / (len(df.Property_Area))*100))) print("Percentage of Semiurban: {:.2f}%".format((countSemiurban / (len(df.Property_Area))*100))) print("Missing values percentage: {:.2f}%".format((countNull / (len(df.Property_Area))*100))) Percentage of Urban: 32.90% Percentage of Rural: 29.15% Percentage of Semiurban: 37.95% Missing values percentage: 0.00%

このフィールドは3つの異なる値に均等に分散されており、欠損値はありません。

ローン状況

[32]では:

 df.Loan_Status.value_counts(dropna=False)

アウト[32]:

 Y 422 N 192 Name: Loan_Status, dtype: int64

[33]では:

 sns.countplot(x="Loan_Status", data=df, palette="YlOrBr") plt.show()

写真

ローンを借りる人の割合の比較:

[34]では:

 countY = len(df[df.Loan_Status == 'Y']) countN = len(df[df.Loan_Status == 'N']) countNull = len(df[df.Loan_Status.isnull()]) print("Percentage of Approved: {:.2f}%".format((countY / (len(df.Loan_Status))*100))) print("Percentage of Rejected: {:.2f}%".format((countN / (len(df.Loan_Status))*100))) print("Missing values percentage: {:.2f}%".format((countNull / (len(df.Loan_Status))*100))) Percentage of Approved: 68.73% Percentage of Rejected: 31.27% Missing values percentage: 0.00%

融資額 期間

[35]では:

 df.Loan_Amount_Term.value_counts(dropna=False)

アウト[35]:

 360.0 512 180.0 44 480.0 15 NaN 14 300.0 13 240.0 4 84.0 4 120.0 3 60.0 2 36.0 2 12.0 1 Name: Loan_Amount_Term, dtype: int64

[36]では:

 sns.countplot(x="Loan_Amount_Term", data=df, palette="rocket") plt.show()

写真

ローン期間の異なる人々の比較:

[37]では:

 count12 = len(df[df.Loan_Amount_Term == 12.0]) count36 = len(df[df.Loan_Amount_Term == 36.0]) count60 = len(df[df.Loan_Amount_Term == 60.0]) count84 = len(df[df.Loan_Amount_Term == 84.0]) count120 = len(df[df.Loan_Amount_Term == 120.0]) count180 = len(df[df.Loan_Amount_Term == 180.0]) count240 = len(df[df.Loan_Amount_Term == 240.0]) count300 = len(df[df.Loan_Amount_Term == 300.0]) count360 = len(df[df.Loan_Amount_Term == 360.0]) count480 = len(df[df.Loan_Amount_Term == 480.0]) countNull = len(df[df.Loan_Amount_Term.isnull()]) print("Percentage of 12: {:.2f}%".format((count12 / (len(df.Loan_Amount_Term))*100))) print("Percentage of 36: {:.2f}%".format((count36 / (len(df.Loan_Amount_Term))*100))) print("Percentage of 60: {:.2f}%".format((count60 / (len(df.Loan_Amount_Term))*100))) print("Percentage of 84: {:.2f}%".format((count84 / (len(df.Loan_Amount_Term))*100))) print("Percentage of 120: {:.2f}%".format((count120 / (len(df.Loan_Amount_Term))*100))) print("Percentage of 180: {:.2f}%".format((count180 / (len(df.Loan_Amount_Term))*100))) print("Percentage of 240: {:.2f}%".format((count240 / (len(df.Loan_Amount_Term))*100))) print("Percentage of 300: {:.2f}%".format((count300 / (len(df.Loan_Amount_Term))*100))) print("Percentage of 360: {:.2f}%".format((count360 / (len(df.Loan_Amount_Term))*100))) print("Percentage of 480: {:.2f}%".format((count480 / (len(df.Loan_Amount_Term))*100))) print("Missing values percentage: {:.2f}%".format((countNull / (len(df.Loan_Amount_Term))*100))) Percentage of 12: 0.16% Percentage of 36: 0.33% Percentage of 60: 0.33% Percentage of 84: 0.65% Percentage of 120: 0.49% Percentage of 180: 7.17% Percentage of 240: 0.65% Percentage of 300: 2.12% Percentage of 360: 83.39% Percentage of 480: 2.44% Missing values percentage: 2.28%

数値変数

記述統計

[38]では:

 df.select_dtypes(exclude=["object"]).columns

アウト[38]:

 Index(['ApplicantIncome', 'CoapplicantIncome', 'LoanAmount', 'Loan_Amount_Term', 'Credit_History'], dtype='object')

[39]では:

 df[['ApplicantIncome','CoapplicantIncome','LoanAmount']].describe()

アウト[39]:


申請者の収入

共同申請者の収入

ローン金額

カウント

614.000000

614.000000

592.000000

平均

5403.459283

1621.245798

146.412162

標準

6109.041673

2926.248369

85.587325

150.000000

0.000000

9.000000

25%

2877.500000

0.000000

100.000000

50%

3812.500000

1188.500000

128.000000

75%

5795.000000

2297.250000

168.000000

最大

81000.000000

41667.000000

700.000000

フィールドヒストグラム分布

[40]では:

 sns.set(style="darkgrid") fig, axs = plt.subplots(2, 2, figsize=(10, 8)) sns.histplot(data=df, x="ApplicantIncome", kde=True, ax=axs[0, 0], color='green') sns.histplot(data=df, x="CoapplicantIncome", kde=True, ax=axs[0, 1], color='skyblue') sns.histplot(data=df, x="LoanAmount", kde=True, ax=axs[1, 0], color='orange');

写真

これら 3 つのフィールドには一定の歪みが見られ、後でデータ変換処理が実行されることがわかります。

フィールドバイオリンプロット分布

[41]では:

 sns.set(style="darkgrid") fig, axs1 = plt.subplots(2, 2, figsize=(10, 10)) sns.violinplot(data=df, y="ApplicantIncome", ax=axs1[0, 0], color='green') sns.violinplot(data=df, y="CoapplicantIncome", ax=axs1[0, 1], color='skyblue') sns.violinplot(data=df, y="LoanAmount", ax=axs1[1, 0], color='orange');

写真

ペアワイズ特徴分布

2つのカテゴリ変数

分類された変数は、主に分布を表示するための統計分析に基づいています。

[42]では:

 pd.crosstab(df.Gender,df.Married).plot(kind="bar", stacked=True, figsize=(5,5), color=['#f64f59','#12c2e9']) plt.title('Gender vs Married') plt.xlabel('Gender') plt.ylabel('Frequency') plt.xticks(rotatinotallow=0) plt.show()

写真

良いクレジットカード履歴と悪いクレジットカード履歴の比較:

[43]では:

 pd.crosstab(df.Self_Employed,df.Credit_History).plot(kind="bar", stacked=True, figsize=(5,5), color=['#544a7d','#ffd452']) plt.title('Self Employed vs Credit History') plt.xlabel('Self Employed') plt.ylabel('Frequency') plt.legend(["Bad Credit", "Good Credit"]) plt.xticks(rotatinotallow=0) plt.show()

写真

異なる地域の人々がローンを利用するかどうかの比較:

[44]では:

 pd.crosstab(df.Property_Area,df.Loan_Status).plot(kind="bar", stacked=True, figsize=(5,5), color=['#333333','#dd1818']) plt.title('Property Area vs Loan Status') plt.xlabel('Property Area') plt.ylabel('Frequency') plt.xticks(rotatinotallow=0) plt.show()

写真

カテゴリ変数 + 数値変数

[45]では:

 sns.boxplot(x="Loan_Status", y="ApplicantIncome", data=df, palette="mako");

写真

sns.boxplot(x="CoapplicantIncome", y="Loan_Status", data=df, palette="rocket");

写真

sns.boxplot(x="Loan_Status", y="LoanAmount", data=df, palette="YlOrBr");

写真

2つの数値変数

[48]では:

 df.plot(x='ApplicantIncome', y='CoapplicantIncome', style='o') plt.title('Applicant Income - Co Applicant Income') plt.xlabel('ApplicantIncome') plt.ylabel('CoapplicantIncome') plt.show()

写真

相関計算:

[49]では:

 print('Pearson correlation:', df['ApplicantIncome'].corr(df['CoapplicantIncome'])) print('T Test and P value: \n', stats.ttest_ind(df['ApplicantIncome'], df['CoapplicantIncome'])) Pearson correlation: -0.11660458122889966 T Test and P value: Ttest_indResult(statistic=13.835753259915661, pvalue=1.4609839484240346e-40)

相関分析

[50]では:

 plt.figure(figsize=(10,7)) sns.heatmap(df.corr(), annot=True, cmap='inferno') plt.show()

写真


特徴エンジニアリング(データ前処理)

不要な変数を削除する

[51]では:

 df.drop("Loan_ID",axis=1, inplace=True)

データ補完

[52]では:

 df.isnull().sum()

アウト[52]:

 Gender 13 Married 3 Dependents 15 Education 0 Self_Employed 32 ApplicantIncome 0 CoapplicantIncome 0 LoanAmount 22 Loan_Amount_Term 14 Credit_History 50 Property_Area 0 Loan_Status 0 dtype: int64

[53]では:

 df.dtypes

アウト[53]:

 Gender object Married object Dependents object Education object Self_Employed object ApplicantIncome int64 CoapplicantIncome float64 LoanAmount float64 Loan_Amount_Term float64 Credit_History float64 Property_Area object Loan_Status object dtype: object

[54]では:

 df["Credit_History"].value_counts()

アウト[54]:

 1.0 475 0.0 89 Name: Credit_History, dtype: int64

[55]では:

 df["Loan_Amount_Term"].value_counts()

アウト[55]:

 360.0 512 180.0 44 480.0 15 300.0 13 240.0 4 84.0 4 120.0 3 60.0 2 36.0 2 12.0 1 Name: Loan_Amount_Term, dtype: int64

カテゴリ変数

カテゴリ変数の欠損値については、モードを使用して入力します。

[56]では:

 df['Gender'].fillna(df['Gender'].mode()[0],inplace=True) df['Married'].fillna(df['Married'].mode()[0],inplace=True) df['Dependents'].fillna(df['Dependents'].mode()[0],inplace=True) df['Self_Employed'].fillna(df['Self_Employed'].mode()[0],inplace=True) # 信用卡历史记录0-bad credit 1-good credit history df['Credit_History'].fillna(df['Credit_History'].mode()[0],inplace=True) # 还款周期(天) df['Loan_Amount_Term'].fillna(df['Loan_Amount_Term'].mode()[0],inplace=True)

数値変数

数値変数の欠損値は平均値で埋められます。

[57]では:

 df['LoanAmount'].fillna(df['LoanAmount'].mean(),inplace=True) # 贷款金额

ワンホットエンコーディング

[58]では:

 df = pd.get_dummies(df) df.head()

処理後のすべてのフィールド情報:

[59]では:

 df.columns

アウト[59]:

 Index(['ApplicantIncome', 'CoapplicantIncome', 'LoanAmount', 'Loan_Amount_Term', 'Credit_History', 'Gender_Female', 'Gender_Male', 'Married_No', 'Married_Yes', 'Dependents_0', 'Dependents_1', 'Dependents_2', 'Dependents_3+', 'Education_Graduate', 'Education_Not Graduate', 'Self_Employed_No', 'Self_Employed_Yes', 'Property_Area_Rural', 'Property_Area_Semiurban', 'Property_Area_Urban', 'Loan_Status_N', 'Loan_Status_Y'], dtype='object')

[60]では:

 # 删除部分字段df = df.drop(['Gender_Female', 'Married_No', 'Education_Not Graduate','Self_Employed_No', 'Loan_Status_N'], axis = 1)

[61]では:

 # 字段重命名new = {'Gender_Male': 'Gender', 'Married_Yes': 'Married', 'Education_Graduate': 'Education', 'Self_Employed_Yes': 'Self_Employed', 'Loan_Status_Y': 'Loan_Status'} df.rename(columns=new, inplace=True)

外れ値を削除する

上位四分位数と下位四分位数を重要なポイントとしてとらえます。

[62]では:

 Q1 = df.quantile(0.25) Q3 = df.quantile(0.75) IQR = Q3 - Q1 df = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]

偏った分布の処理

データを二乗してデータ変換を実行します: np.sqrt

[63]では:

 df.ApplicantIncome = np.sqrt(df.ApplicantIncome) df.CoapplicantIncome = np.sqrt(df.CoapplicantIncome) df.LoanAmount = np.sqrt(df.LoanAmount)

データの分布を再度確認します。

[64]では:

 sns.set(style="darkgrid") fig, axs = plt.subplots(2, 2, figsize=(10, 8)) sns.histplot(data=df, x="ApplicantIncome", kde=True, ax=axs[0, 0], color='green') sns.histplot(data=df, x="CoapplicantIncome", kde=True, ax=axs[0, 1], color='skyblue') sns.histplot(data=df, x="LoanAmount", kde=True, ax=axs[1, 0], color='orange');

写真

モデリング

機能の分離

[65]では:

 X = df.drop(["Loan_Status"], axis=1) y = df["Loan_Status"]

SMOTE アップサンプリング

[66]では:

 pd.value_counts(y) # 采样前

アウト[66]:

 1 112 0 24 Name: Loan_Status, dtype: int64

[67]では:

 X, y = SMOTE().fit_resample(X, y)

[68]では:

 pd.value_counts(y) # 采样后

アウト[68]:

 1 112 0 112 Name: Loan_Status, dtype: int64

[69]では:

 sns.set_theme(style="darkgrid") sns.countplot(y=y, data=df, palette="coolwarm") plt.ylabel('Loan Status') plt.xlabel('Total') plt.show()

写真

データの正規化

[70]では:

 mm = MinMaxScaler() X = mm.fit_transform(X)

トレーニングセットとテストセットに分割

[71]では:

 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

モデル1 - ロジスティック回帰

[72]では:

 pd.value_counts(y_train)

アウト[72]:

 1 90 0 89 Name: Loan_Status, dtype: int64

[73]では:

 pd.value_counts(y_test)

アウト[73]:

 0 23 1 22 Name: Loan_Status, dtype: int64

[74]では:

 LRclassifier = LogisticRegression(solver='saga', max_iter=500, random_state=1) LRclassifier.fit(X_train, y_train) # 模型预测y_pred = LRclassifier.predict(X_test)

[75]では:

 print(classification_report(y_test, y_pred)) # 分类结果报告precision recall f1-score support 0 0.86 0.83 0.84 23 1 0.83 0.86 0.84 22 accuracy 0.84 45 macro avg 0.84 0.84 0.84 45 weighted avg 0.85 0.84 0.84 45

[76]では:

 print(confusion_matrix(y_test, y_pred)) # 混淆矩阵[[19 4] [ 3 19]]

[77]では:

 LRAcc = accuracy_score(y_pred,y_test) # 准确率print('LR accuracy: {:.2f}%'.format(LRAcc * 100)) LR accuracy: 84.44%

モデル 2 - K 近傍法 (KNN)

新しいバージョンのエラー解決方法については、https://blog.csdn.net/weixin_51723388/article/details/128577782 を参照してください。

KNeighborsClassifier(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None) を使用する場合、stats.mode は weights='uniform' の場合にのみ使用されます。このうち、均一とは重みが等しいこと、つまり近傍内のすべての点の重みが等しく、モードを取ることと同等であることを意味します。 weights='distance' に変更できます

[78]では:

 score_list = [] for i in range(1,21): knn = KNeighborsClassifier(n_neighbors = i,weights='distance') knn.fit(X_train, y_train) score_list.append(knn.score(X_test, y_test)) # 测试集预测得分plt.plot(range(1,21), score_list) plt.xticks(np.arange(1,21,1)) plt.xlabel("K value") plt.ylabel("Score") plt.show() KNAcc = max(score_list) print("KNN best accuracy: {:.2f}%".format(KNAcc*100))
 KNN best accuracy: 86.67%

写真

モデル 3 - サポート ベクター マシン (SVM)

[79]では:

 svc = SVC(kernel='rbf', max_iter=500) svc.fit(X_train, y_train) y_pred = svc.predict(X_test) print(classification_report(y_test, y_pred)) print(confusion_matrix(y_test, y_pred)) precision recall f1-score support 0 0.95 0.78 0.86 23 1 0.81 0.95 0.88 22 accuracy 0.87 45 macro avg 0.88 0.87 0.87 45 weighted avg 0.88 0.87 0.87 45 [[18 5] [ 1 21]]

[80]では:

 SVCAcc = accuracy_score(y_pred,y_test) print('SVC accuracy: {:.2f}%'.format(SVCAcc*100)) SVC accuracy: 86.67%

モデル 4 - ガウス ナイーブ ベイズ ガウス NB

[81]では:

 NBclassifier2 = GaussianNB() NBclassifier2.fit(X_train, y_train) y_pred = NBclassifier2.predict(X_test) print(classification_report(y_test, y_pred)) print(confusion_matrix(y_test, y_pred)) precision recall f1-score support 0 0.68 0.83 0.75 23 1 0.76 0.59 0.67 22 accuracy 0.71 45 macro avg 0.72 0.71 0.71 45 weighted avg 0.72 0.71 0.71 45 [[19 4] [ 9 13]]

[82]では:

 GNBAcc = accuracy_score(y_pred,y_test) print('Gaussian Naive Bayes accuracy: {:.2f}%'.format(GNBAcc*100)) Gaussian Naive Bayes accuracy: 71.11%

モデル 5 - 決定木

[83]では:

 scoreListDT = [] for i in range(2,21): DTclassifier = DecisionTreeClassifier(max_leaf_nodes=i) DTclassifier.fit(X_train, y_train) scoreListDT.append(DTclassifier.score(X_test, y_test)) plt.plot(range(2,21), scoreListDT) plt.xticks(np.arange(2,21,1)) plt.xlabel("Leaf") plt.ylabel("Score") plt.show() DTAcc = max(scoreListDT) print("Decision Tree Accuracy: {:.2f}%".format(DTAcc*100))
 Decision Tree Accuracy: 84.44%

写真

モデル 6 - ランダム フォレスト

[84]では:

 scoreListRF = [] for i in range(2,25): RFclassifier = RandomForestClassifier(n_estimators = 1000, random_state = 1, max_leaf_nodes=i) RFclassifier.fit(X_train, y_train) scoreListRF.append(RFclassifier.score(X_test, y_test)) plt.plot(range(2,25), scoreListRF) plt.xticks(np.arange(2,25,1)) plt.xlabel("RF Value") plt.ylabel("Score") plt.show() RFAcc = max(scoreListRF) print("Random Forest Accuracy: {:.2f}%".format(RFAcc*100))
 Random Forest Accuracy: 91.11%

写真

モデル 7 - 勾配ブースティング

[85]では:

 # 设置参数params={'n_estimators':[100,200,300,400,500], 'max_depth':[1,2,3,4,5], 'subsample':[0.5,1], 'max_leaf_nodes':[2,5,10,20,30,40,50]}

[86]では:

 # 基于随机搜索查找参数组合GB = RandomizedSearchCV(GradientBoostingClassifier(), params, cv=20) GB.fit(X_train, y_train)

アウト[86]:

 RandomizedSearchCV(cv=20, estimator=GradientBoostingClassifier(), param_distributinotallow={'max_depth': [1, 2, 3, 4, 5], 'max_leaf_nodes': [2, 5, 10, 20, 30, 40, 50], 'n_estimators': [100, 200, 300, 400, 500], 'subsample': [0.5, 1]})

[87]では:

 print(GB.best_estimator_) print(GB.best_score_) GradientBoostingClassifier(max_depth=4, max_leaf_nodes=10, n_estimators=500, subsample=1) 0.7993055555555555

[88]では:

 print(GB.best_params_) # 最佳参数组合{'subsample': 1, 'n_estimators': 500, 'max_leaf_nodes': 10, 'max_depth': 4}

[89]では:

 GB.best_params_["subsample"]

アウト[89]:

 1

見つかったパラメータに基づいて再モデル化します。

[90]では:

 gbc = GradientBoostingClassifier(subsample=GB.best_params_["subsample"], n_estimators=GB.best_params_["n_estimators"], max_depth=GB.best_params_["max_depth"], max_leaf_nodes=GB.best_params_["max_leaf_nodes"], ) gbc.fit(X_train, y_train) y_pred = gbc.predict(X_test) print(classification_report(y_test, y_pred)) print(confusion_matrix(y_test, y_pred)) precision recall f1-score support 0 0.78 0.91 0.84 23 1 0.89 0.73 0.80 22 accuracy 0.82 45 macro avg 0.83 0.82 0.82 45 weighted avg 0.83 0.82 0.82 45 [[21 2] [ 6 16]]

[91]では:

 GBAcc = accuracy_score(y_pred,y_test) print('Gradient Boosting accuracy: {:.2f}%'.format(GBAcc*100)) Gradient Boosting accuracy: 82.22%

モデル比較

[92]では:

 models = pd.DataFrame({'Model': ['Logistic Regression', 'K Neighbors', 'Support Vector Machine', 'Gaussian NB', 'Decision Tree', 'Random Forest', 'Gradient Boost'], 'Accuracy': [LRAcc*100, KNAcc*100, SVCAcc*100,GNBAcc*100, DTAcc*100, RFAcc*100, GBAcc*100]}) models.sort_values(by='Accuracy', ascending=False)

アウト[92]:


モデル

正確さ

5

ランダムフォレスト

91.111111

1

Kネイバーズ

86.666667

2

サポートベクターマシン

86.666667

0

ロジスティック回帰

84.444444

4

決定木

84.444444

6

グラデーションブースト

82.222222

3

ガウスNB

71.111111


<<:  複雑なクエリと集計操作の実装: MongoDB データベースでの Java の応用

>>:  マイクロソフトCEOナデラ氏:AIはルールを変えるインターネットの波のようなもの

ブログ    

推薦する

香港大学のチームがエンタングルメントエントロピーを測定する新しいアルゴリズムを開発、量子材料の実用化に一歩近づく

量子材料は人類の進歩を促進する上で重要な役割を果たします。科学技術分野では、特殊な特性を持つ新たな量...

...

...

「AI+」が世界を変える!さまざまな分野における 5 つの主要な AI トレンド

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

機械学習は創造的な仕事に役立つ

【51CTO.com クイック翻訳】 [[397384]] [序文]直感に反するように聞こえるかもし...

AI画像認識は無関係? Google AI: 段階的なトレーニング セットで画像の説明精度を向上

絵を千語で説明できるとしたら、絵の中に描写できる詳細や物体間の関係性は実に多くあります。犬の毛の質感...

NLP入門: 中国語のルールベースの単語分割法を3つ教えます

自然言語理解において、トークンは独立して動作できる意味のある最小の言語コンポーネントです。単語の識別...

業界の視点: 人工知能がビジネスプロセスに革命をもたらす方法

今日、人工知能技術は、ウェアラブルデバイス、自動車、生産性アプリケーション、軍事、ヘルスケア、ホーム...

5G+UAVの利点

5G+UAVの利点を見てみましょう。 [[398161]]現在、ドローンの開発は3つの大きな障害に直...

脳コンピューターインターフェースでケーキを食べる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

建築環境における人工知能:その可能性を実現するためのステップ

AI と自動化により、企業はさまざまな最適化ソフトウェアを使用して、冷房、暖房、発電を自動的に改善し...

銀行業界の「退化」の原因は人工知能なのか?

公開データによると、商業銀行は2021年も支店の閉鎖を続けた。11月までに商業銀行は2,100以上の...

2019年に人工知能をマスターするには?世界のAI専門家が答えを教えます

[[265422]]人工知能はビジネスを変えています。自然言語処理やインテリジェント音声からモノのイ...

人工知能がクラウド業界を変える5つの方法

サイバー攻撃の巧妙さと深刻さが増すにつれ、IT 業界は協力して、サイバー攻撃からの保護と防止に使用さ...