sklearn 機械学習の使い方を 5 分で解説します (パート 1)

[[205998]]

皆さんのお役に立てれば幸いですので、この投稿を書くのは大変でした。機械学習とデータマイニングの業界背景については紹介しませんし、ロジスティック回帰、SVM、GBDT、ニューラルネットワークなどの学習アルゴリズムの理論的根拠や数学的導出についても具体的に紹介しません。この記事は、機械学習とデータモデリングを手順的にすぐに始められるように支援することに重点を置いています。

この記事は主に 4 つの部分に分かれています (時間の制約により 2 つの部分に分けられます)。

準備の部分では、主に環境構築とパンダの基礎知識が必要になります。
アプリケーションのセクションでは、Kaggle の Titanic を例に、データソースの取得、データのクリーニング、機能の処理、モデルの選択、モデルの出力、アプリケーションについて説明します。

次：

最適化の章では、いくつかの最適化手法を紹介します。
この記事では、私が気になっているいくつかの疑問を提起し、皆さんの助けを得たいと思っています。

準備

1環境構築

sklearn の実験環境全体は、python 2.7 + pycharm + Anaconda です。

2 パンダの基礎

ここでは、これから使用するパンダの知識のみを紹介します。ご興味があれば、詳しく学んでみてください。参考書として「Python for Data Analysis」をお勧めします。基本的な理解がある方は、直接アプリケーションセクションに進んでください。

Pandas は主に Series と DataFrame という 2 つのデータ構造を使用します。 Series は 1 次元配列に似ていますが、DataFrame は 2 次元のテーブル構造に似ています。

シリーズ構成法：

ラベル=[1,0,1,0,1]
 data = pd.Series(data=label、 index =[ 'a' 、 'b' 、 'c' 、 'd' 、 'e' ]、dtype= int 、 name = "label" )
印刷データ

シリーズはインデックスによってデータを取得します

データ[ 'a' ]  
データ[[ 'a' , 'b' ]]

データフレームの構築

（１）辞書形式で構築

frame = pd.DataFrame({ 'name' :[ 'Time' , 'Jack' , 'Lily' ], 'Age' :[20,30,12], "weight" :[56.7,64.0,50.0]})

(2) DataFrameからDataFrameを構築する

frame1 = pd.DataFrame(frame,columns=[ "名前" , "年齢" ])

フレームから 2 つの列が読み取られ、新しい DataFrame が形成されます。

データフレーム操作

1 列を追加する

フレーム1[ "friends_num" ]=[10,12,14]

2. 列を削除する

frame2 = frame1.drop ([ "名前" , "年齢" ],axis=1 )

3 データ行を見つける

フレーム1[フレーム1[ "friends_num" ]>10]

結果は次のとおりです。

DataFrame の統計手法

1 フレーム 1 の Age 列をセグメント化するなど、列を処理するために lambda を適用します。

 frame1[ "Age_group" ] = frame1[ "Age" ].apply(lambda x: x < 20 の場合は 0、それ以外の場合は1)

2 出力統計情報の説明、非常に強力

フレーム1.記述()

データ処理に特に役立つ 8 つの統計が提供されます。問題があります。describe メソッドを直接使用すると、数値型の列しかカウントできず、文字変数はカウントできません。パラメータを追加するだけです。

 frame1.describe(include=[ 'O' ])

3. 欠損値の取り扱い

#欠損値を0で埋める
フレーム1.フィルナ(0)
 #NANを含む行を破棄する
フレーム1.dropna()
 # すべてのnan行を削除
frame1.dropna(how= "すべて" )

応用

1 データの読み取り

この例では、データソースとして Titanic を使用します。添付ファイルでデータを入手できます。

データ = pd.DataFrame(pd.read_csv(train_path))
 data_test = pd.DataFrame(pd.read_csv(test_path))
 data_test = data_test[[ "Pclass" , "名前" , "性別" , "年齢" , "同胞" , "座席" , "チケット" , "運賃" , "客室" , "搭乗" ]]
 x = data[[ "Pclass" , "Name" , "Sex" , "Age" , "SibSp" , "Parch" , "Ticket" , "Fare" , "Cabin" , "Embarked" ]]
 y = data[[ "生き残った" ]]
 x.describe() を印刷する
x.describe(include=[ 'O' ])を印刷します。
 data_test.describe() を印刷する
data_test.describe(include=[ 'O' ])を印刷します。

データの初期統計:

2 データクリーニング

1. 欠損値の処理。

Age 列と Embarked 列には欠損値がいくつかありますが、これらは別々に処理されます。

 #欠損値をモードで埋める
data_set[ "乗船" ]=data_set[ "乗船" ].fillna( 'S' )
 #年齢の欠損値を平均値で埋める
data_set[ "年齢" ]=data_set[ "年齢" ].fillna(data_set[ "年齢" ].mean())

2. 欠損率の高い列を削除する（初期処理時）

Cabin列の欠落率が75%に達したため、列を削除します。

 data_set = data_set.drop ([ "キャビン" ], axis=1 )

3 特徴処理

特徴処理は特定のデータに基づいて行われるため、特徴処理の前にデータを完全に理解しておく必要があります。特徴処理には決まった方法はありません。主に個人の経験と観察に依存しており、継続的な試行錯誤を通じて、より良い特徴変数を発見したいと考えています。したがって、特徴処理はモデル構築プロセスの中で最も時間がかかり、精神的に疲れるタスクです。

1) 単変量特徴抽出。

 #名前の長さに基づいて、name_len機能を抽象化します
data_set[ "name_len" ] = data_set[ "Name" ].apply(len)

名前の列を観察する

名前列のデータを観察すると、名前に性別や婚姻状況を含むタイトル情報が見つかります。この情報を抽出します（便利な機能になる可能性があります）。

 data_set[ "name_class" ] = data_set[ "Name" ].apply(lambda x : x.split( "," )[1]).apply(lambda x :x.split()[0])

2) 複数の変数の組み合わせ

兄弟姉妹と配偶者の数を表す

パーチは親と子の数を表す

したがって、sibsp と parch を組み合わせると、家族のメンバーの数を取得できます。

データセット[ "family_num" ] = データセット[ "Parch" ] + データセット[ "SibSp" ] +1

3) 名目変数を数値変数に変換する

#乗り出した
data_set[ "Embarked" ]=data_set[ "Embarked" ].map({ 'S' :1, 'C' :2, 'Q' :3}).astype( int )
 #セックス
data_set[ "性別" ] = data_set[ "性別" ].apply(lambda x : 0 if x == '男性'  それ以外の場合1)

4) データのセグメンテーション

統計と経験に基づくセグメンテーション

#[7.91,14.45,31.0] 運賃統計に基づくセグメンテーション
data_set[ "運賃" ] = data_set[ "運賃" ].apply(lambda x:cutFeature([7.91,14.45,31.0],x))
 #[18,48,64] 経験に基づくセグメンテーション
data_set[ "年齢" ] = data_set[ "年齢" ].apply(lambda x:cutFeature([18,48,64],x))

簡単なデータ処理の後、次の 12 次元データが得られます。

4 モデルの選択とテスト

最初に 5 つのモデルがテスト用に選択されました。

ランダムフォレスト分類子

エクストラツリー分類子

アダブースト分類器

勾配ブースティング分類器

SVC

モデルパラメータ:

 # ランダムフォレスト
    rf_params = {
 'n_jobs' : -1,
 'n_estimators' : 500,
 'warm_start' : True 、
        # '最大機能' : 0.2,
 '最大深度' :6,
 '最小サンプル数' : 2,
 '最大特徴' : '平方根' ,
 '詳細' : 0
    }
    # 追加ツリー ランダムフォレスト
    et_params = {
 'n_jobs' : -1,
 'n_estimators' : 500,
        # '最大機能' : 0.5,
 '最大深度' : 8,
 '最小サンプル数' : 2,
 '詳細' : 0
    } 
 
    # アダブースト
    ada_params = {
 'n_estimators' : 500,
学習率: 0.75
    } 
 
    #GBDT
    gb_params = {
 'n_estimators' : 500,
        # '最大機能' : 0.2,
 '最大深度' : 5,
 '最小サンプル数' : 2,
 '詳細' : 0
    } 
 
    # エスビーシー
    svc_params = {
 「カーネル」 : 「線形」 、
 'C' : 0.025
    }

モデル選択コード:

分類子 = [
        ( "rf_model" 、 RandomForestClassifier(**rf_params))、
        ( "et_model" 、ExtraTreesClassifier(**et_params))、
        ( "ada_model" 、AdaBoostClassifier(**ada_params))、
        ( "gb_model" 、 GradientBoostingClassifier(**gb_params))、
        ( "svc_model" 、SVC(**svc_params))、
    ] 
 
    ホールドアウト = [0.95, 0.90, 0.75, 0.50, 0.01]
    ラウンド = 20
    xx = 1. - np.array(heldout)
のために 分類子のname 、 clf :
        print( "トレーニング %s" % name )
        rng = np.random.RandomState(42)
        yy = []
 heldoutのiの場合:
            yy_ = []
 rが範囲(ラウンド)内である場合:
                X_train_turn、X_test_turn、y_train_turn、y_test_turn = \
                    train_test_split(x_train、labels_train、テストサイズ=i、ランダム状態=rng)
                clf.fit(X_train_turn、y_train_turn) を使います。
                y_pred = clf.predict(X_test_turn)
                yy_.append(1 - np.mean(y_pred == y_test_turn))
            yy.append(np.mean(yy_))
        plt.plot(xx, yy, ラベル=名前) 
 
    plt.legend(loc= "右上" )
    plt.xlabel( "比例列車" )
    plt.ylabel( "テストエラー率" )
    plt.show()

選考結果は以下の通りです。

上の図からわかるように、randomForest は一般に他のアルゴリズムよりもパフォーマンスが優れています。最初はランダムフォレストアルゴリズムが選択されます。

トレーニングセットにおけるモデルのパフォーマンス:

モデルスコアを定義します(x_train、labels_train、x_test、y_test、モデル名、et_params):
    print( "--------%s-------------" )%(モデル名)
    モデル = モデル名(**et_params) 
 
    モデルをフィット(x_train、labels_train)
    「feature_importances_」の場合  dir (モデル):
        model.feature_importances_ を印刷する
 
    分類レポートを印刷する(
        ラベル_train、
        モデルを予測する(x_train) 
 
    分類レポートを印刷する(
        y_テスト、
        モデルを予測する(x_test)
リターンモデル
 
モデルスコア(x_train、labels_train、x_test、y_test、RandomForestClassifier、rf_params)

トレーニングセットの混同行列は次のとおりです。

テストセットの混同行列は次のとおりです。

この時点で、テストセットでの精度が 83% の予備学習モデルが確立されました。時間の制約により、最適化と思考のセクションは次の記事で共有される予定ですので、お楽しみに。

オリジナルリンク: https://cloud.tencent.com/community/article/229506

著者: 趙成龍

[この記事は51CTOコラムニスト「テンセントクラウドテクノロジーコミュニティ」によるオリジナル記事です。転載の許可を得るには51CTOを通じて原作者に連絡してください]

この著者の他の記事を読むにはここをクリックしてください

<<: ビッグデータに圧倒された米国の諜報機関は人工知能に期待をかけている

>>: アリババのナレッジグラフが完全公開、最先端の人工知能技術が雲奇カンファレンスで輝く

ブログ

再帰アルゴリズムにおけるリンクリスト操作

ブログ

アリババ・ダモ・アカデミーがAI防疫技術を再現：CT画像を20秒で解釈、認識精度は96％

ブログ

sklearn 機械学習の使い方を 5 分で解説します (パート 1)

AIが自動化に適した日常的なITタスク3つ

DAMOアカデミーが最新の量子コンピューティングの成果を発表、新しいプラットフォームは2ビットゲート精度99.72%を達成

スタートアップに適した AI ビジネスモデルを選択するにはどうすればよいでしょうか?

強いAIと弱いAIの議論：人工知能の意識に関する興味深い理論

2020年の人工知能開発動向予測

インタビュアー: 一般的なソートアルゴリズムは何ですか?違い？

再帰アルゴリズムにおけるリンクリスト操作

アリババ・ダモ・アカデミーがAI防疫技術を再現：CT画像を20秒で解釈、認識精度は96％

推薦する

ファーウェイ、AI人材育成と科学研究の革新を促進する2つのAscendプロジェクトを開始

拡散モデルは複雑なプロンプト単語をよりよく理解します。 Pika、北京大学、スタンフォード大学がLLMを使用して理解を深める新しいフレームワークをオープンソース化

スタンフォード大学のマニング教授はAAAS特別号に記事を掲載した。「ビッグモデルは画期的な進歩となり、汎用人工知能に期待が寄せられている」

5分で様々な人工知能技術を紹介

JavaScript アルゴリズムを使用するための 6 つの実用的なヒント

IoTが発展するために機械学習が必要な理由

「無人農業」は除草ロボットの導入も開始

最強のLLaMAが突如降臨！ハイパーパラメータを 1 つだけ変更するだけで、32,000 個のコンテキストトークンを達成し、複数のタスクで ChatGPT と Claude 2 を上回ることができます。

百度グループ副社長ウー・ティエン氏：文心ビッグモデル3.5は機能面でChatGPT3.5を上回った

この AI ツールは最近、大騒ぎになっています!試してみますか？

2024 年の IT 管理トレンド: ジェネレーティブ AI など

人工知能はチェスをプレイする以外に何をすべきでしょうか?