K 分割交差検証とグリッドサーチ

K 分割交差検証とグリッドサーチ

みなさんこんにちは、私はZhibinです〜

今日は、GridSearch グリッド検索と K 分割相互認証を使用して、決定木モデルのパラメータを調整する方法を紹介します。

前回の記事では、決定木モデルの構築と実践を紹介しました。その時は、max_depth という 1 つのパラメータのみが使用されていました。しかし、実際には、モデルには、criterion (特徴選択基準)、class_weight (クラスの重み) などの他の影響パラメータがあります。より正確な結果を得たい場合は、モデルパラメータを調整し、モデルを構築するための最適なパラメータを見つける必要があります。

1. K分割交差検証

K 分割交差検証では、実際にデータ セットを K 個の部分に分割し、そのたびに K-1 個の部分をトレーニング セットとして選択し、残りの部分をテスト セットとして使用し、K 個のモデルの平均テスト結果を最終的なモデル効果として取得します。次の図に示すように:

K 値の選択はデータ セットのサイズに関係します。データ セットが小さい場合は K 値を増やし、データ セットが大きい場合は K 値を減らしてください。実装コードは次のとおりです。

 sklearn.model_selection から cross_val_score をインポートします
acc = cross_val_score(モデル、X、Y、cv=5)

2. グリッドサーチ

GridSearch は、すべての候補パラメータを走査し、各モデルの有効性と精度を評価し、最終結果として最適なパラメータを選択する、徹底的な検索パラメータ調整方法です。

パラメータ チューニングは、単一パラメータ チューニングと複数パラメータ チューニングに分かれています。Zhibin はそれぞれ例を挙げて紹介します。

(1)単一パラメータチューニング

単一パラメータのチューニングを説明するために、単一パラメータ max_depth を例に挙げます。コードは次のとおりです。

 sklearn.model_selection から GridSearchCV をインポートします
パラメータ = {'max_depth':[1,3,5,7,9]}
grid_search = GridSearchCV(モデル、パラメータ、スコアリング='roc_auc'、cv=5)grid_search.fit(X_train、Y_train)

出力パラメータの最適な結果:

グリッド検索.ベストパラメータ

max_depth パラメータの最適な結果は次のとおりです。

上記で得られた最適なパラメータ値でモデルを再構築し、AUC値が改善されたかどうかを確認します。コードは次のとおりです。

モデル = DecisionTreeClassifier(最大深度=7)
モデルをフィット(X_train,Y_train)
y_pred_proba = model.predict_proba(X_test)
sklearn.metricsからroc_auc_scoreをインポートします
スコア = roc_auc_score(Y_test.values,y_pred_proba[:,1])

得られた AUC 値は次のとおりです。

これは以前の値 0.958 よりも高く、モデルの精度が向上したことを示しています。

(2)マルチパラメータチューニング

決定木モデルには次のパラメータがあります。

これらのパラメータは、構築した決定木モデルの精度に影響します。ここでは、max_depth (最大深度)、criterion (特徴選択基準)、min_samples_split (子ノードを下方に分割するために必要なサンプルの最小数) を例として、マルチパラメータ チューニングを実行します。コードは次のとおりです。

 sklearn.model_selection から GridSearchCV をインポートします
パラメータ = {'max_depth':[5,7,9,11,13],'criterion':['gini','entropy'],'min_samples_split':[5,7,9,11,13,15]}
モデル = DecisionTreeClassifier()
grid_search = GridSearchCV(モデル、パラメータ、スコアリング='roc_auc'、cv=5)
グリッド検索.fit(X_train,Y_train)

出力パラメータの最適値:

グリッド検索.ベストパラメータ

上記で得られた最適なパラメータ値でモデルを再構築し、AUC値が改善されたかどうかを確認します。コードは次のとおりです。

モデル = DecisionTreeClassifier(基準 = 'エントロピー'、最大深度 = 13、最小サンプル分割 = 15)
モデルをフィット(X_train,Y_train)
y_pred_proba = model.predict_proba(X_test)
sklearn.metricsからroc_auc_scoreをインポートします
スコア = roc_auc_score(Y_test.values,y_pred_proba[:,1])

得られた AUC 値は次のとおりです。

これは以前の値 0.985 よりも高く、モデルがさらに最適化されたことを示しています。

<<:  NLP技術の準備——自然言語処理技術はあなたの妻ではありません

>>:  世界の自動運転「M&A」を4大勢力が攻勢

ブログ    
ブログ    
ブログ    

推薦する

このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が超解像度モデル SRFlow を...

...

Googleはクラウドコンピューティングの顧客向けにGemini Proを公開すると発表、開発者はアプリケーションの構築に利用できる

12月14日水曜日(米国時間)、Googleはクラウドコンピューティングの顧客により良いサービスを提...

天才少年が自動運転の「自転車」を製作、ネットユーザー「テスラも見たら泣くだろう」

自転車が「自力で歩ける」ようになるのはいつでしょうか? [[404743]]自転車は劣駆動システムで...

スタートアップが大手企業から学び機械学習を開発する際に考慮すべき5つの変数

[[186364]]人工知能 (AI) と機械学習 (ML) をめぐる誇大宣伝は信じられないほどのレ...

ワクチン生産を加速するには?答えは医学ではなくテクノロジーにある

世界各国の政府は新型コロナウイルス感染症の流行に対抗するためさまざまな対策を講じているが、世界的な流...

IEEE コンピュータ協会が 2023 年の技術トレンド予測評価を発表

コンピューターサイエンスとエンジニアリングの主要会員コミュニティである IEEE コンピューターソサ...

大学は人工知能人材育成に力を入れており、「ロボット工学」専攻が人気に

[[225297]]毎年恒例の「大学入試シーズン」が到来し、受験生や保護者にとって、受験願書の記入は...

...

AI、IoT、ビッグデータでミツバチを救う方法

現代の農業はミツバチに依存しています。私たちが食べる食物や呼吸する空気を含む生態系のほぼ全体が、花粉...

人工知能分野で急成長を遂げている企業の主な問題点

AI 分野で急成長しているビジネスを運営し、成長させるには、プロセスの構築、顧客の成功、人材の獲得、...

...

百度のCTO王海鋒が百度ブレイン7.0をリリース: イノベーションを統合し障壁を下げる

火星の環境について知りたいですか?たった一文であなた自身のデジタル人物を生成したいですか?こうした最...

WaymoとGoogleが自動運転のマルチ軌道行動予測を実現するTNTモデルを提案

はじめに: Waymo は最近、フェニックス地域で安全担当者なしの無人タクシーの運行を開始すると発表...