Python データマイニングと機械学習入門

データマイニングとは何ですか？機械学習とは何ですか？Python データの前処理を実行するにはどうすればいいですか？この記事では、データマイニングと機械学習のテクニックを理解し、Taobao 製品の事例を通じてデータの前処理を実行し、アイリスの事例を通じてさまざまな分類アルゴリズムを紹介します。

以下の内容は基調講演者のビデオ共有とPPTに基づいてまとめられています。

このコースでは、次の 5 つの知識ポイントをカバーします。

データマイニングと機械学習技術入門
Python データ前処理の実践
一般的な分類アルゴリズムの紹介
虹彩分類のケーススタディ
分類アルゴリズムを選択するためのアイデアとテクニック

1. データマイニングと機械学習技術の紹介

データマイニングとは何ですか? データマイニングとは、既存のデータを処理および分析して、最終的にデータ間の深い関係を取得するテクノロジーを指します。例えば、スーパーマーケットで商品を並べるときに、牛乳はパンと一緒に置いたほうが売れやすいでしょうか、それとも他の商品と一緒に置いたほうが売れやすいでしょうか。このような問題を解決するために、データマイニング技術を使用できます。具体的には、スーパーマーケットにおける商品配置の問題は、関連分析のシナリオに分けることができます。

日常生活では、データマイニング技術が広く使用されています。たとえば、小売業者は顧客をさまざまなレベル（SVIP、VIP、一般顧客など）に分ける必要があることがよくあります。この場合、顧客データの一部をトレーニングデータとして使用し、顧客データの他の部分をテストデータとして使用できます。次に、トレーニングデータがモデルに入力されてトレーニングが行われます。トレーニングが完了したら、別の部分のデータがテスト用に入力され、最終的に顧客レベルの自動分類が実現されます。その他の同様のアプリケーション例としては、検証コードの認識、果物の品質の自動スクリーニングなどがあります。

では、機械学習テクノロジーとは何でしょうか? 簡単に言えば、私たちが確立したモデルやアルゴリズムを通じて機械がデータ間の関係性やルールを学習し、最終的にそれを使用できるようにするテクノロジーはすべて機械学習テクノロジーです。実際、機械学習技術は学際的な分野であり、従来の機械学習技術とディープラーニング技術の2つのカテゴリに大別できます。ディープラーニング技術にはニューラルネットワーク関連の技術が含まれます。このコースでは、従来の機械学習技術とさまざまなアルゴリズムに重点を置きます。

機械学習とデータマイニングの技術はどちらもデータ間のパターンを調査するものなので、通常はこの 2 つが一緒に言及されます。これら 2 つのテクノロジには、実生活での幅広い応用シナリオもあります。次の図に、いくつかの典型的な応用シナリオを示します。

1. 分類：顧客分類、検証コード認識、果物品質自動選別など。

機械学習とデータマイニング技術は、顧客の分類、検証コードの認識、果物の品質の自動スクリーニングなどの分類問題を解決するために使用できます。

検証コードの認識を例にとると、0 から 9 までの手書きの数字で構成される検証コードを認識するソリューションを設計する必要があります。 1 つの解決策は、まず 0 から 9 までの手書きの数字をトレーニングセットに分割し、次にトレーニングセットを手動で分割、つまり各手書きの数字を対応するデジタルカテゴリにマッピングすることです。これらのマッピング関係を確立した後、分類アルゴリズムを通じて対応するモデルを確立できます。このとき、新しいデジタル手書き文字が出現した場合、モデルはその手書き文字が表す数字、つまりどのデジタルカテゴリに属するかを予測できます。たとえば、ある筆跡が数字の 1 のカテゴリに属するとモデルが予測した場合、その筆跡は自動的に数字の 1 として認識されます。したがって、検証コード認識問題は本質的に分類問題です。

果物の品質の自動選別の問題も分類の問題です。果物のサイズや色などの特徴も、対応する甘さのカテゴリーにマッピングできます。たとえば、カテゴリー 1 は甘いことを表し、カテゴリー 0 は甘くないことを表します。いくつかのトレーニングセットデータを取得した後、分類アルゴリズムを使用してモデルを構築することもできます。このとき、新しい果物が現れた場合、そのサイズ、色などの特徴を使用して、それが甘いかどうかを自動的に判断できます。これにより、果物の品質を自動的にスクリーニングできるようになります。

2. 回帰：連続データの予測、傾向予測など

分類に加えて、データマイニング技術と機械学習技術には、回帰という非常に古典的なシナリオもあります。上記の分類シナリオでは、カテゴリの数は制限されています。たとえば、デジタル検証コード認識シナリオでは、0 から 9 までのデジタルカテゴリが含まれます。別の例として、文字検証コード認識シナリオでは、a から z までの限定されたカテゴリが含まれます。数字カテゴリであっても、アルファベットカテゴリであっても、カテゴリの数は限られています。

ここで、あるデータがあるとします。マッピング後、最良の結果は 0、1、または 2 の特定のポイントではなく、1.2、1.3、1.4 などの連続したポイントになります。分類アルゴリズムではこのタイプの問題を解決できないため、回帰分析アルゴリズムを使用して解決できます。実際のアプリケーションでは、回帰分析アルゴリズムを使用して連続データと傾向を予測できます。

3. クラスタリング：顧客価値予測、ビジネス地区予測など

クラスタリングとは何でしょうか？前述の通り、分類問題を解決するためには、履歴データ（つまり人工的に確立された正しいトレーニングデータ）が必要です。履歴データがなく、オブジェクトの特徴を対応するカテゴリに直接分類する必要がある場合、分類アルゴリズムと回帰アルゴリズムではこの問題を解決できません。このとき、クラスタリングという解決策があります。クラスタリング手法は、オブジェクトの特性に応じて対応するカテゴリを直接分割します。トレーニングを必要としないため、教師なし学習手法です。

クラスタリングはいつ使用できますか? データベースに顧客特徴データのグループがあり、これらの顧客特徴に基づいて顧客レベル (SVIP 顧客、VIP 顧客など) を直接分割する必要がある場合は、クラスタリングモデルを使用してこの問題を解決できます。さらに、ビジネス地区を予測する際にクラスタリングアルゴリズムを使用することもできます。

4. 相関分析：スーパーマーケットの商品配置、パーソナライズされた推奨など

関連性分析とは、項目間の関連性を分析することを指します。たとえば、スーパーマーケットでは大量の商品を保管しており、パンと牛乳の相関の強さなど、これらの商品間の相関を分析する必要があります。このとき、関連性分析アルゴリズムを使用して、ユーザーの購入記録などの情報を利用して、これらの商品間の相関を直接分析できます。これらの商品間の相関関係を理解したら、それをスーパーマーケットでの商品の配置に応用することができます。相関性の高い商品を同様の場所に配置すると、スーパーマーケットの商品の売上を効果的に伸ばすことができます。

さらに、関連性分析はパーソナライズされた推奨技術にも使用できます。例えば、ユーザーの閲覧履歴を利用することで、さまざまな Web ページ間の相関関係を分析し、ユーザーが Web を閲覧しているときに、関連性の高い Web ページをユーザーにプッシュすることができます。たとえば、閲覧履歴データを分析した結果、Web ページ A と Web ページ C の間には強い相関関係があることがわかりました。この場合、ユーザーが Web ページ A を閲覧すると、Web ページ C がプッシュされ、パーソナライズされた推奨が実現します。

5. 自然言語処理：テキスト類似性技術、チャットボットなど

上記のアプリケーションシナリオに加えて、データマイニングと機械学習の技術は、自然言語処理、音声処理などにも使用できます。たとえば、テキストの類似性の計算やチャットボットなどです。

2. Pythonデータ前処理の実践

データマイニングと機械学習を実行する前に、まず既存のデータを前処理する必要があります。初期データさえも不正確であれば、最終結果の正確性は保証されません。データを前処理してその正確性を確保することによってのみ、最終結果の正確さが保証されます。

データ前処理とは、ダーティデータ（つまり、結果の精度に影響を与えるデータ）を除去するためのデータの予備処理を指します。そうしないと、最終結果に簡単に影響が及びます。一般的なデータ前処理方法を次の図に示します。

1. 欠損値の処理

欠損値とは、データセット内のデータ行に存在しない特徴値を指します。欠損値を解決するには 2 つの方法があります。1 つは欠損値があるデータ行を削除する方法、もう 1 つは欠損値を正しい値で埋める方法です。

2. 外れ値処理

外れ値が発生する原因は、多くの場合、データ収集中にエラーが発生したことによるものです。たとえば、68 という数字を収集する際にエラーが発生し、誤って 680 として収集されてしまうなどです。外れ値に対処する前に、まずこれらの外れ値データを発見するのが自然であり、これらの外れ値データは描画方法によって発見できる場合がよくあります。外れ値データが処理された後にのみ、元のデータが正確になり、最終結果の正確性が保証されます。

3. データ統合

前述の欠損値処理や外れ値処理と比較すると、データ統合はより単純なデータ前処理方法です。では、データ統合とは何でしょうか? 同じ構造を持つ 2 つのデータセット A とデータ B があり、両方のデータセットがメモリにロードされているとします。このとき、ユーザーがこの 2 つのデータセットを 1 つのデータセットにマージしたい場合は、Pandas を使用して直接マージできます。このマージプロセスは、実際にはデータ統合です。

次に、Taobaoの商品データを例に、上記の前処理の実際の応用について紹介します。

データの前処理を行う前に、まず MySQL データベースから Taobao 製品データをインポートする必要があります。 MySQL データベースを開いた後、taob テーブルをクエリして次の出力を取得します。

ご覧のとおり、taob テーブルには 4 つのフィールドがあります。タイトルフィールドにはタオバオ製品の名前が格納され、リンクフィールドにはタオバオ製品のリンクが格納され、価格フィールドにはタオバオ製品の価格が格納され、コメントフィールドにはタオバオ製品に対するコメントの数（製品の販売量をある程度表す）が格納されます。

では、次にこのデータをどのようにインポートするのでしょうか。まず、pymysql を介してデータベースに接続します (文字化けした場合は、pymysql のソースコードを変更します)。接続が成功したら、taob 内のすべてのデータを取得し、pandas の read_sql() メソッドを使用してデータをメモリにインポートします。 read_sql() メソッドには 2 つのパラメーターがあり、最初のパラメーターは SQL ステートメント、2 番目のパラメーターは MySQL データベースの接続情報です。具体的なコードは次のとおりです。

1. 欠損値の実際的な処理

データクリーニングは欠損値の処理に使用できます。上記の Taobao 商品データを例にとると、商品のコメント数は 0 であっても、価格は 0 にはなりません。しかし、実際にはデータベース内に価格値が 0 のデータがいくつかあります。これは、一部のデータの価格属性がクロールされていないために発生します。

では、これらのデータに欠損値があるかどうかをどのように判断すればよいでしょうか? 次の方法を使用して判断できます。まず、前の taob テーブルに対して data.describe() メソッドを呼び出すと、次の図に示すように結果が表示されます。

この統計結果をどのように理解すればよいのでしょうか。まず、価格フィールドとコメントフィールドのカウントデータに注目してください。2 つが等しくない場合は、情報が欠落しているはずです。2 つが等しい場合は、一時的に情報が欠落しているかどうかを確認することはできません。たとえば、price の数は 9616.0000 ですが、comment の数は 9615.0000 であり、少なくとも 1 つのコメントが欠落していることを示しています。

その他のフィールドの意味は次のとおりです: mean は平均を表し、 std は標準偏差を表し、 min は最小値を表し、 max は最大値を表します。

では、これらの欠落データはどのように処理すればよいのでしょうか? 1 つの方法はデータを削除することであり、もう 1 つの方法は欠落値に新しい値を挿入することです。 2 番目の方法の値は平均値または中央値にすることができ、平均値と中央値のどちらを使用するかは実際の状況に基づいて決定する必要があります。例えば、年齢データ（1～100 歳）の場合、変化間隔が小さい安定したデータは一般的に平均値として挿入され、変化間隔が大きいデータは一般的に中央値として挿入されます。

価格の欠損値を処理するための具体的な操作は次のとおりです。

2. 外れ値の実際的な処理

欠損値を処理するプロセスと同様に、外れ値を処理する場合は、まず外れ値を見つける必要があります。外れ値の発見は、散布図を描くことによって行われることが多いです。散布図では類似したデータが 1 つの領域に集中するのに対し、異常なデータはこの領域から遠く離れた場所に分布するからです。この特性に基づいて、データ内の外れ値を簡単に見つけることができます。具体的な操作は以下のとおりです。

まず、データから価格データとコメントデータを抽出する必要があります。通常のアプローチはループを使用して抽出することですが、この方法は複雑すぎます。簡単な方法は、データフレームを転置することです。このとき、元の列データは現在の行データになり、価格データとコメントデータを簡単に取得できます。次に、plot() メソッドを使用して散布図を描画します。plot() メソッドの最初のパラメータは水平軸を表し、2 番目のパラメータは垂直軸を表し、3 番目のパラメータはグラフの種類を表します。"o" は散布図を表します。最後に、show() メソッドを通じて表示され、外れ値を直感的に観察できるようになります。これらの外れ値はデータ分析には役立ちません。実際の運用では、これらの外れ値によって表されるデータを削除したり、正常な値に変換したりする必要がある場合がよくあります。以下は散布図です。

上図のように、コメント数が10万件以上、価格が1,000件以上のデータを破棄することで、外れ値を処理する効果が得られます。 2 つの処理方法の具体的な実装プロセスは次のとおりです。

1 つ目は値変更方法で、中央値、平均値、またはその他の値に変更します。具体的な操作は以下の図の通りです。

2 番目の方法は削除方法で、これらの異常なデータを直接削除する方法であり、これも推奨される方法です。具体的な操作は以下の図の通りです。

3. 分布分析

分布分析とは、データの分布状態を分析すること、つまり、データが線形分布しているか、正規分布しているかを観察することを指します。分布分析は通常、ヒストグラムを描画することによって実行されます。ヒストグラムを描画するには、範囲の計算、グループ間隔の計算、ヒストグラムの描画といういくつかの手順があります。具体的な操作は以下の図の通りです。

その中で、arrange() メソッドはスタイルを定式化するために使用されます。arrange() メソッドの最初のパラメーターは最小値を表し、2 番目のパラメーターは最大値を表し、3 番目のパラメーターはグループ間隔を表します。次に、hist() メソッドを使用してヒストグラムを描画します。

taob 表の Taobao 商品価格ヒストグラムは下図のとおりで、ほぼ正規分布に準拠しています。

taob 表の Taobao 製品レビューのヒストグラムは下図のとおりで、おおよそ減少曲線を描いています。

4. ワードクラウド図の描画

テキスト情報に基づいてワードクラウド図を描く必要がある場合がよくあります。具体的な描画操作は次のとおりです。

一般的な実装プロセスは、まず cut() を使用してドキュメントをセグメント化し、セグメント化が完了したら、単語を固定形式に整理し、必要なワードクラウド表示形式に従って対応する画像を読み取り (下の図のワードクラウドは猫の形をしています)、次に wc.WordCloud() を使用してワードクラウドを変換し、最後に imshow() を介して対応するワードクラウドを表示します。たとえば、Lao Jiu Men.txt ドキュメントに基づいて描画されたワードクラウドダイアグラムを以下に示します。

3. 一般的な分類アルゴリズムの紹介

次の図に示すように、一般的な分類アルゴリズムは多数あります。

その中で、KNN アルゴリズムとベイジアンアルゴリズムは比較的重要なアルゴリズムです。さらに、決定木アルゴリズム、ロジスティック回帰アルゴリズム、SVM アルゴリズムなどの他のアルゴリズムもあります。 Adaboost アルゴリズムは主に、弱い分類アルゴリズムを強い分類アルゴリズムに変換するために使用されます。

4. 虹彩分類の実例

花弁の長さ、花弁の幅、萼片の長さ、萼片の幅など、アヤメの特徴がいくつか含まれたアヤメに関するデータがあるとします。これらの履歴データを使用して、分類モデルをトレーニングできます。モデルのトレーニングが完了した後、未知の種類の新しいアイリスが出現すると、トレーニングされたモデルを使用してアイリスの種類を判別できます。このケースを実装するにはさまざまな方法がありますが、どの分類アルゴリズムが実装に適しているでしょうか?

1. KNNアルゴリズム

（１）KNNアルゴリズムの紹介

まず、この質問について考えてみましょう。上記のタオバオ商品には、スナック、ブランドバッグ、電化製品の3つのカテゴリの商品があり、すべて価格とコメントという2つの特徴があります。価格順に並べると、ブランドバッグが最も高く、次いで電化製品、スナック菓子が最も安くなっています。レビュー数順に並べると、スナック菓子が最も多く、次いで電化製品、ブランドバッグが最も少ないです。次に、価格を x 軸、コメントを y 軸とする直交座標系を確立し、次の図に示すように、これら 3 種類の商品の分布を座標系にプロットします。

これら 3 つのカテゴリの商品が異なる地域に集中していることは明らかです。既知の特性を持つ新製品が現在登場している場合は、この新製品を表すために ? を使用します。製品の特性に応じて、座標系における製品の位置が図に示されています。製品は 3 つのカテゴリのどれに該当する可能性が高いでしょうか。

このタイプの問題は、KNN アルゴリズムを使用して解決できます。このアルゴリズムの実装アイデアは、未知の製品から他の各製品までのユークリッド距離の合計を計算し、それらを並べ替えることです。距離の合計が小さいほど、未知の製品がこのタイプの製品に類似していることを意味します。たとえば、計算の結果、未知の製品と電化製品との間のユークリッド距離の合計が最小であることがわかった場合、その製品は電化製品のカテゴリに属していると見なすことができます。

（２）実施

上記のプロセスの具体的な実装は次のとおりです。

もちろん、パッケージを直接切り替えることもできます。これはより簡潔で便利です。欠点は、使用する人がその原理を理解できないことです。

（３）KNNアルゴリズムを用いて虹彩分類問題を解く

まず、虹彩データを読み込みます。具体的な読み込み方法は 2 つあります。1 つは、iris データセットから直接読み取る方法です。パスを設定した後、read_csv() メソッドを使用して読み取り、データセットの特徴と結果を分離します。具体的な操作は次のとおりです。

別のロード方法は、sklearn を使用してロードすることです。 sklearn データセットには、iris データセットが付属しています。データセットの load_iris() メソッドを使用してデータをロードできます。次に、特徴とカテゴリを取得し、トレーニングデータとテストデータを分離します (通常はクロス検証用)。具体的には、分離には train_test_split() メソッドを使用します。このメソッドの 3 番目のパラメーターはテスト比率を表し、4 番目のパラメーターはランダムシードです。具体的な操作は次のとおりです。

読み込みが完了したら、上記の KNN アルゴリズムを呼び出して分類を行うことができます。

2. ベイズアルゴリズム

（１）ベイズアルゴリズムの紹介

まず、ナイーブベイズの式 P(B|A)=P(A|B)P(B)/P(A) を紹介します。現在、以下の表に示すように、価格と授業時間数がコースの特徴であり、売上がコースの結果であると仮定します。新しいコースが登場し、価格が高く、授業時間数が多い場合、既存のデータに基づいて新しいコースの売上を予測します。

明らかにこの問題は分類問題に属します。まず、表を処理して、特徴 1 と特徴 2 を数値に変換します。つまり、0 は低、1 は中、2 は高を表します。デジタル化後、[[t1,t2],[t1,t2],[t1,t2]]——[[0,2],[2,1],[0,0]]となり、この2次元リストは転置され（後続の統計用）、[[t1,t1,t1],[t2,t2,t2]]——-[[0,2,0],[2,1,0]]となります。このうち、[0,2,0]は各コースの価格を表し、[2,1,0]は各コースの授業時間数を表します。

P(c0|AB)=P(A|C0)P(B|C0)P(C0)=2/4*2/4*4/7=1/7
P(c1|AB)=P(A|C1)P(B|C1)P(C1)=0=0
P(c2|AB)=P(A|C2)P(B|C2)P(C2)=0=0

明らかに、P(c0|AB)が最大であり、これはこの新しいコースの販売量が多いことを意味します。

（２）実施方法

KNN アルゴリズムと同様に、ベイズアルゴリズムにも 2 つの実装方法があり、そのうちの 1 つは詳細な実装です。

もう 1 つは統合実装です。

3. 決定木アルゴリズム

決定木アルゴリズムは情報エントロピー理論に基づいて実装されています。アルゴリズムの計算プロセスは次のステップに分かれています。

（１）まず総情報エントロピーを計算する
（２）各特徴の情報エントロピーを計算する
（３）Eと情報利得を計算する。E = 総情報エントロピー - 情報利得、情報利得 = 総情報エントロピー - E
（４）Eが小さいほど情報利得は大きくなり、不確実性係数は小さくなる。

決定木とは、複数の特徴を持つデータに対して形成される二分木のことです。最初の特徴については、その特徴を考慮するかどうか (0 は考慮しない、1 は考慮する) によって二分木が形成され、次に 2 番目の特徴が同様に考慮され、すべての特徴が考慮されるまで、最終的に決定木が形成されます。次の図は意思決定ツリーです。

決定木アルゴリズムの実装プロセスは次のとおりです。まず、データカテゴリを抽出し、次にデータ変換方法を記述します (たとえば、「はい」を 1 に、「いいえ」を 0 に変換します)。sklearn の DecisionTreeClassifier を使用して決定木を構築し、fit() メソッドを使用してデータをトレーニングします。トレーニングが完了したら、predict() を直接使用して予測結果を取得し、最後に export_graphviz を使用して決定木を視覚化します。具体的な実装プロセスを次の図に示します。

4. ロジスティック回帰アルゴリズム

ロジスティック回帰アルゴリズムは、線形回帰の原理を利用して実装されます。線形回帰関数 y=a1x1+a2x2+a3x3+…+anxn+b があるとします。ここで、x1 から xn はさまざまな特徴を表します。この直線を使用して近似することはできますが、y の範囲が広いため、堅牢性は低すぎます。分類を実現するには、yの範囲を[0,1]などの特定の空間に絞り込む必要があります。このとき、y の範囲は置換によって縮小できます。

y = ln(p/(1-p))とします。
そして、e^y=e^(ln(p/(1-p)))
=> e^y=p/(1-p)
=>e^y*(1-p)=p =>e^yp*e^y=p
=> e^y=p(1+e^y)
=> p=e^y/(1+e^y)
=> pは[0,1]に属する

このようにして、y の範囲が縮小され、正確な分類が達成され、さらにロジスティック回帰が実現されます。

ロジスティック回帰アルゴリズムの対応する実装プロセスを次の図に示します。

5. SVMアルゴリズム

SVM アルゴリズムは正確な分類アルゴリズムですが、その解釈可能性は強力ではありません。低次元空間で線形分離不可能な問題を、高次元空間で線形分離可能な問題に変換できます。 SVM アルゴリズムの使用は非常に簡単です。SVC を直接インポートし、モデルをトレーニングして予測を行うことができます。具体的な操作は以下のとおりです。

実装は非常にシンプルですが、アルゴリズムの鍵はカーネル関数の選択方法にあります。カーネル関数は次のカテゴリに分類でき、各カーネル関数は異なる状況にも適しています。

（１）線形カーネル関数
（２）多項式カーネル関数
（３）ラジアル基底カーネル関数
(4) シグモイドカーネル関数

特に複雑でないデータの場合は、線形カーネル関数または多項式カーネル関数を使用できます。複素データの場合、ラジアル基底カーネル関数が使用されます。各カーネル関数を使用して描画された画像を以下に示します。

5. アダブーストアルゴリズム

単層の決定木アルゴリズムがある場合、それは弱い分類アルゴリズム（精度が非常に低いアルゴリズム）です。この弱い分類器を強化したい場合は、Adaboost アルゴリズムを使用するなど、ブースティングの考え方を使ってそれを実現できます。つまり、複数の反復を実行し、毎回異なる重みを割り当て、エラー率を計算して重みを同時に調整し、最終的に包括的な結果を形成します。

Adaboost アルゴリズムは通常、単独で使用されるのではなく、弱い分類アルゴリズムを強化するために組み合わせて使用されます。

5. 分類アルゴリズムを選択するためのアイデアとテクニック

まず、それが二値分類問題なのか、多重分類問題なのかを確認します。二値分類問題であれば、一般的にこれらのアルゴリズムを使用できます。多重分類問題であれば、KNN およびベイズアルゴリズムを使用できます。次に、高い解釈可能性が必要かどうかを確認します。高い解釈可能性が必要な場合、SVM アルゴリズムは使用できません。トレーニングサンプルの数をもう一度確認してください。トレーニングサンプルの数が多すぎる場合、KNN アルゴリズムの使用は適切ではありません。最後に、弱いアルゴリズムから強いアルゴリズムへの変換が必要かどうかを確認します。必要な場合は、Adaboost アルゴリズムを使用します。それ以外の場合は、Adaboost アルゴリズムを使用しないでください。不明な場合は、検証用にいくつかのデータを選択し、モデル評価（所要時間と精度）を実行できます。

まとめると、各分類アルゴリズムの長所と短所は次のようにまとめられます。