機械学習アルゴリズムの長所と短所の比較と選択（要約）

この記事の目的は、現在の機械学習アルゴリズムの実用的かつ簡潔な一覧を提供することです。この記事の内容は、資料を参考にする過程で個人が収集した過去の要約をまとめたものに、私自身の要約も加えたものです。ここでは、実際の使用経験に基づいて、このようなモデルの利点、欠点、選択について詳しく説明します。

主に、一般的に使用されるいくつかのアルゴリズムの適応シナリオと長所と短所を確認します。

分類、回帰、クラスタリング、推奨、画像認識など、機械学習アルゴリズムは非常に多くあります。適切なアルゴリズムを見つけるのは本当に簡単ではないため、実際のアプリケーションでは、一般的にヒューリスティック学習法を使用して実験します。通常、最初は SVM、GBDT、Adaboost など、誰もが一般的に認識しているアルゴリズムを選択します。現在、ディープラーニングは非常に人気があり、ニューラルネットワークも良い選択肢です。

精度を重視する場合、最良の方法は、クロス検証を通じて各アルゴリズムを 1 つずつテストし、比較して、各アルゴリズムが最適なソリューションに到達するようにパラメータを調整し、最終的に最適なものを選択することです。しかし、問題を解決するために「十分に良い」アルゴリズムを探しているだけの場合、またはここに参考となるヒントがいくつかある場合は、各アルゴリズムの長所と短所を分析してみましょう。アルゴリズムの長所と短所に基づいて、アルゴリズムを選択しやすくなります。

1. タダ飯なんて存在しない

機械学習の分野における基本的な定理は、「ただで得られるものはない」ということです。言い換えれば、すべての問題、特に教師あり学習（予測モデリングなど）に最適なアルゴリズムは存在しません。

たとえば、ニューラルネットワークが常に決定木よりも優れているとは言えませんし、その逆も同様です。データセットのサイズや構造など、多くの要因によって影響を受けます。

したがって、特定のテストセットでパフォーマンスを評価してアルゴリズムを選択するときは、取り組んでいる特定の問題に基づいて異なるアルゴリズムを使用する必要があります。

もちろん、選択するアルゴリズムは独自の問題に適用可能である必要があり、そのためには適切な機械学習タスクを選択する必要があります。例え話として、家を掃除する必要がある場合、掃除機、ほうき、モップは使うかもしれませんが、シャベルを取り出して掘り始めることは決してないでしょう。

2. バイアスと分散

統計学では、モデルの品質はバイアスと分散に基づいて測定されるので、まずはバイアスと分散について理解を深めましょう。

1.バイアス:予測値（推定値）の期待値 E' と真の値 Y の間のギャップを表します。偏差が大きいほど、実際のデータからの乖離が大きくなります。

2.分散:予測値 P の変動範囲、つまり予測値の分散、つまり期待値 E からの距離である分散度を表します。分散が大きいほど、データはより広範囲に広がります。

モデルの真の誤差は、次の式に示すように、2 つの誤差の合計です。

通常、トレーニングセットが小さい場合、高バイアス/低分散の分類器 (例: Naive Bayes NB) は、低バイアス/高分散の大規模な分類器 (例: KNN) よりもパフォーマンスが優れています。これは、後者が過剰適合するためです。ただし、トレーニングセットが大きくなるにつれて、モデルの元のデータの予測能力が向上し、バイアスが減少します。その時点で、低バイアス/高分散の分類器が優位になり始めます (漸近誤差が低いため)。一方、高バイアスの分類器では正確なモデルを提供するのに十分ではなくなります。

なぜナイーブベイズはバイアスが高く、分散が低いのでしょうか?

まず、トレーニングセットとテストセットの関係がわかっていると仮定します。簡単に言うと、トレーニングセットでモデルを学習し、それをテストセットで使用する必要があります。モデルの有効性は、テストセットのエラー率に基づいて測定されます。しかし、多くの場合、テストセットとトレーニングセットが同じデータ分布に準拠していると想定することしかできず、実際のテストデータを取得することはできません。トレーニングエラー率しか確認できない場合、テストエラー率をどのように測定すればよいでしょうか?

トレーニングサンプルが少ない (少なくとも十分ではない) ため、トレーニングセットを通じて取得されたモデルが必ずしも正しいとは限りません。 (トレーニングセットの精度が 100% であっても、実際のデータ分布を記述しているわけではありません。目標はトレーニングセット内の限られたデータポイントだけでなく、実際のデータ分布を記述することであることを認識する必要があります)。

さらに、現実には、トレーニングサンプルには一定のノイズエラーが含まれることがよくあります。そのため、トレーニングセットの完璧さを追求して非常に複雑なモデルを採用すると、モデルはトレーニングセットのエラーを実際のデータ分布特性と見なし、誤ったデータ分布推定値を取得します。この場合、実際のテストセットでは結果がひどく間違ってしまいます (この現象はオーバーフィッティングと呼ばれます)。ただし、モデルが単純すぎると、データ分布がより複雑になったときに、モデルがデータ分布を十分に説明できなくなります (トレーニングセットでもエラー率が高くなるという、アンダーフィッティングの現象に反映されます)。過剰適合とは、使用されるモデルが実際のデータ分布よりも複雑であることを意味し、一方、不足適合とは、使用されるモデルが実際のデータ分布よりも単純であることを意味します。

統計学習フレームワークでは、モデルの複雑さを特徴付けるときに、エラー = バイアス + 分散という見方があります。ここでのエラーは、モデルの予測誤差率として大まかに理解できます。これは 2 つの部分で構成されます。1 つは、モデルが単純すぎるために生じる不正確な推定 (バイアス) であり、もう 1 つは、モデルが複雑すぎるために生じる変動空間と不確実性 (分散) が大きくなっていることです。

したがって、Naive Bayes を分析するのは簡単です。これは単にデータが無関係であると仮定し、非常に単純化されたモデルです。したがって、このような単純なモデルでは、ほとんどの場合、バイアス部分が分散部分よりも大きくなり、つまり偏差が高く分散が低くなります。

実際には、エラーをできるだけ小さくするためには、モデルを選択するときにバイアスと分散の比率のバランスをとる必要があります。つまり、過剰適合と不足適合のバランスをとる必要があります。

モデルの複雑さが増すにつれて、バイアスは徐々に減少し、分散は徐々に増加します。

3. 一般的なアルゴリズムの長所と短所

3.1 ナイーブベイズ

ナイーブベイズは生成モデルです (生成モデルと識別モデルの違いは、主に結合分布が必要かどうかによって異なります)。これは比較的単純で、大量のカウントを行うだけで済みます。条件付き独立性の仮定（厳格な条件）を維持すると、ナイーブベイズ分類器はロジスティック回帰などの識別モデルよりも速く収束するため、必要なトレーニングデータが少なくなります。 NB 条件付き独立性の仮定が成立しない場合でも、NB 分類器は実際には非常に優れたパフォーマンスを発揮します。主な欠点は、特徴間の相互作用、つまり特徴の冗長性を学習できないことです。典型的な例を挙げると、たとえあなたがブラッド・ピットとトム・クルーズの映画が好きだったとしても、彼らが共演する映画が好きではないということを学習することはできません。

アドバンテージ：

1. ナイーブベイズモデルは古典的な数学理論に由来し、強固な数学的基礎を持ち、安定した分類効率を備えています。

2. 大量のトレーニングとクエリに対してより高速です。非常に大規模なトレーニングセットであっても、通常、各項目には比較的少数の特徴しかなく、項目のトレーニングと分類は、特徴の確率の数学的操作にすぎません。

3. 小規模データで優れたパフォーマンスを発揮し、多重分類タスクを処理でき、増分トレーニングに適しています（つまり、新しく追加されたサンプルをリアルタイムでトレーニングできます）。

4. 欠損データに対する感度が低く、アルゴリズムも比較的単純なので、テキスト分類によく使用されます。

5. ナイーブベイズにより結果の解釈がわかりやすくなります。

欠点:

1. 事前確率を計算する必要がある。

2. 分類の決定にはエラー率があります。

3. 入力データの形式に非常に敏感です。

4. サンプル属性の独立性を仮定しているため、サンプル属性が相関している場合はうまく機能しません。

ナイーブベイズの応用分野

1. 主に不正行為の検出に使用されます。

2. 電子メールがスパムであるかどうか

3. 記事は科学、政治、スポーツのどれに分類すべきでしょうか?

4. テキストは肯定的な感情を表現していますか、それとも否定的な感情を表現していますか?

5. 顔認識。

3.2 ロジスティック回帰

ロジスティック回帰は識別モデルであり、多くのモデル正規化方法 (L0、L1、L2 など) が付属しており、ナイーブベイズの場合のように特徴が相関しているかどうかを心配する必要はありません。また、決定木や SVM と比較して優れた確率的解釈が得られ、新しいデータでモデルを簡単に更新することもできます (オンライン勾配降下法を使用)。確率的フレームワークが必要な場合（分類しきい値を簡単に調整したり、不確実性を示したり、信頼区間を取得したりする場合など）、または後でより多くのトレーニングデータをモデルにすばやく組み込む場合に使用します。

シグモイド関数: 式は次のようになります。

アドバンテージ：

1. 実装が簡単で、産業上の問題に広く使用されています。

2. 分類時の計算量が非常に少なく、速度が非常に速く、ストレージリソースが少なくて済みます。

3. 便利な観測サンプル確率スコア。

4. ロジスティック回帰では多重共線性は問題にならず、L2正則化を組み合わせることで解決できます。

5. 計算コストは高くなく、理解しやすく実装しやすい。

欠点:

1. 特徴空間が大きい場合、ロジスティック回帰のパフォーマンスはあまり良くありません。

2. アンダーフィットが発生しやすく、精度は一般的にあまり高くありません。

3. 多数のマルチクラス機能または変数を適切に処理できない。

4. 2 つの分類問題のみを処理でき（これから導出されるソフトマックスは、複数の分類に使用できます）、線形に分離可能でなければなりません。

5. 非線形機能の場合、変換が必要です。

ロジスティック回帰の応用分野:

1. バイナリ分類の分野で使用され、確率値を取得できます。検索ランキングなど、分類確率に応じて順位付けされる分野に適しています。

2. ロジスティック回帰の拡張ソフトマックスは、手書き認識などの多分類分野に適用できます。

3. 信用評価

4. マーケティングの成功を測定する。

5. 製品の収益を予測する。

6. 特定の日に地震が発生するかどうか。

3.3 線形回帰

線形回帰は回帰に使用されます。ロジスティック回帰のように分類には使用されません。基本的な考え方は、最小二乗法の形式で勾配降下法を使用してエラー関数を最適化することです。もちろん、正規方程式を使用してパラメーターの解を直接取得することもできます。結果は次のとおりです。

LWLR（局所加重線形回帰）では、パラメータの計算式は次のようになります。

LWLR は LR とは異なることがわかります。LWLR は、各回帰計算でトレーニングサンプルを少なくとも 1 回走査する必要があるため、非パラメトリックモデルです。

利点: 実装と計算が簡単です。

欠点: 非線形データを適合できません。

3.4 最近傍アルゴリズム - KNN

KNN は最近傍アルゴリズムであり、その主なプロセスは次のとおりです。

1. トレーニングサンプルとテストサンプル内の各サンプルポイント間の距離を計算します (一般的な距離メトリックには、ユークリッド距離、マハラノビス距離などがあります)。

2. 上記の距離値をすべて並べ替えます（昇順）。

3. 距離が最も小さい最初の k 個のサンプルを選択します。

4. これらの k 個のサンプルのラベルに基づいて投票し、最終的な分類カテゴリを取得します。

最適な K 値を選択する方法はデータによって異なります。一般的に、K 値が大きいほど分類中のノイズの影響を軽減できますが、カテゴリ間の境界が曖昧になります。 K の適切な値は、クロス検証などのさまざまなヒューリスティック手法を通じて取得できます。さらに、ノイズや非相関の固有ベクトルの存在により、K 最近傍アルゴリズムの精度が低下します。最近傍アルゴリズムは、結果の一貫性が強いです。データが無限大に近づくにつれて、アルゴリズムはエラー率がベイズアルゴリズムのエラー率の 2 倍を超えないことを保証します。 K の値が適切であれば、K 近傍法によってエラー率がベイズの理論上のエラー率を超えないことが保証されます。

KNNアルゴリズムの利点

1. 理論は成熟しており、アイデアはシンプルです。分類と回帰の両方に使用できます。

2. 非線形分類に使用できます。

3. トレーニング時間の計算量はO(n)です。

4. データに関する仮定がなく、精度が高く、外れ値の影響を受けない。

5. KNN はオンライン技術であり、再トレーニングなしで新しいデータをデータセットに直接追加できます。

6. KNN理論はシンプルで実装が簡単です。

欠点

1. サンプルの不均衡の問題（つまり、一部のカテゴリのサンプル数が多いのに、他のカテゴリのサンプル数が少ない）により、結果が悪くなります。

2. 大量のメモリを必要とします。

3. サンプルサイズが大きいデータセットの場合、計算量は比較的大きくなります（距離計算に反映されます）。

4. サンプルが不均衡な場合、予測バイアスは比較的大きくなります。たとえば、あるカテゴリのサンプル数は少ないが、他のカテゴリのサンプル数は多いなどです。

5. KNN は各分類に対して再度グローバル操作を実行します。

6. k のサイズには理論的な最適な選択肢はありません。最適な k 値は、多くの場合、K 分割交差検証を組み合わせることで得られます。

KNNアルゴリズムの応用分野

テキスト分類、パターン認識、クラスター分析、多分類分野

3.5 決定木

決定木の大きな利点の 1 つは、解釈が容易なことです。特徴間の相互作用を簡単に処理でき、非パラメトリックであるため、外れ値やデータが線形に分離可能かどうかを心配する必要がありません (たとえば、決定木は、クラス A が特徴次元 x の末尾にあり、クラス B が中央にあり、クラス A が特徴次元 x の先頭に現れる状況を簡単に処理できます)。欠点の 1 つは、オンライン学習をサポートしていないため、新しいサンプルが到着すると、決定木を完全に再構築する必要があることです。もう 1 つの欠点は、過剰適合になりやすいことですが、ここでランダムフォレスト RF (またはブーストツリー) などのアンサンブル手法が役立ちます。さらに、ランダムフォレストは多くの分類問題で優れた結果を出すことが多く (通常、サポートベクターマシンよりもわずかに優れています)、トレーニングが速く、調整可能で、サポートベクターマシンのように多くのパラメーターの調整を気にする必要がないため、これまで常に人気がありました。

決定木では分岐する属性を選択することが重要なポイントとなるため、情報ゲインの計算式に注目して深く理解しましょう。

情報エントロピーの計算式は以下のとおりです。

ここでの n は分類カテゴリの数を表します (たとえば、2 つのカテゴリの問題の場合は n = 2)。これら2種類のサンプルがそれぞれ全体のサンプルに現れる確率を計算します。

そして

選択されていない属性ブランチの前の情報エントロピーを計算できるようにします。

物件を選択してください

分岐に使用される分岐ルールは次の通りです:

等しい場合、サンプルはツリーの 1 つのブランチに分割され、等しくない場合は、他のブランチに入ります。明らかに、ブランチ内のサンプルには 2 つのカテゴリが含まれる可能性があります。これら 2 つのブランチのエントロピーを個別に計算します。

そして

分岐後の総情報エントロピーを計算する

、この時の情報利得は

。情報ゲインの原則に基づいて、すべての属性がテストされ、最大のゲインを持つ属性がこのブランチの属性として選択されます。

決定木の利点

1. 決定木は理解しやすく説明しやすく、視覚的に分析でき、ルールを簡単に抽出できます。

2. 名目データと数値データの両方を処理できます。

3. 属性が欠落しているサンプルの処理に適しています。

4. 無関係な機能を処理する能力。

5. データセットをテストする場合、実行速度は比較的高速です。

6. 比較的短期間で大規模なデータソースに対して実用的な効果的な結果を生み出す能力。

欠点

1. 過剰適合が発生しやすい（ランダムフォレストは過剰適合を大幅に削減できます）

2. データセット内の属性間の相関関係を無視するのは簡単です。

3. 各カテゴリのサンプル数が一定でないデータの場合、決定木で属性分割を行う際に、判断基準が異なると属性選択の傾向も異なります。情報ゲイン基準では、望ましい属性の数が多い属性が優先されます (通常は ID3 アルゴリズムで表されます)。一方、ゲイン率基準 (CART) では、望ましい属性の数が少ない属性が優先されます。ただし、属性分割を行う際、CART では、ゲイン率だけで属性を分割するのではなく、ヒューリスティックルールを採用します (情報ゲインを使用する限り、RF などの欠点があります)。

4. ID3 アルゴリズムが情報ゲインを計算する場合、結果は値の大きい特徴を優先する傾向があります。

改善策

1. 決定木を剪定します。クロス検証と正規化を使用できます。

2. バギングアルゴリズムやランダムフォレストアルゴリズムなどの決定木ベースの組み合わせアルゴリズムを使用すると、過剰適合の問題を解決できます。

応用分野

企業の経営実務や投資判断においては、優れた分析能力を有することから、意思決定プロセスにおいて意思決定ツリーが広く利用されています。

3.5.1 ID3およびC4.5アルゴリズム

ID3 アルゴリズムは情報理論に基づいており、情報エントロピーと情報ゲインを測定基準として使用して、データの帰納的分類を実現します。 ID3 アルゴリズムは、各属性の情報ゲインを計算し、ゲインが最も高い属性を特定のテスト属性として選択します。 C4.5 アルゴリズムの核となるアイデアは、ID3 アルゴリズムの改良版である ID3 アルゴリズムです。改良点は次のとおりです。 - 情報ゲイン率を使用して属性を選択することで、情報ゲインを使用して属性を選択する際に多くの値を持つ属性を選択する傾向があるという欠点を克服します。 - ツリー構築中の剪定。 - 非離散データを処理する機能。 - 不完全なデータを処理する機能。

アドバンテージ

生成された分類ルールは理解しやすく、精度も高いです。

欠点

1. ツリーを構築するプロセスでは、データセットを複数回スキャンして順番にソートする必要があり、アルゴリズムの非効率性につながります。

2. C4.5 はメモリ内に保存できるデータセットにのみ適しています。トレーニングセットが大きすぎてメモリに収まらない場合、プログラムは実行できません。

3.5.2 CART分類と回帰ツリー

これは、最小距離ベースのジニ指数推定関数を使用して、サブデータセットによって生成された決定木の拡張形状を決定する決定木分類方法です。ターゲット変数が名目変数の場合は分類ツリーと呼ばれ、ターゲット変数が連続変数の場合は回帰ツリーと呼ばれます。分類ツリーは、ツリー構造アルゴリズムを使用してデータを個別のクラスに分類する方法です。

アドバンテージ

1. 非常に柔軟で、部分的な誤分類コストを考慮し、事前確率分布を指定し、自動コスト複雑性プルーニングを使用して、より一般化可能なツリーを取得します。

2. CART は、欠損値や変数の数が多いなどの問題に直面しても非常に堅牢です。

3.6 アダブースト

Adaboost は加法モデルです。各モデルは、前のモデルのエラー率に基づいて構築されます。誤って分類されたサンプルに過度に注意を払い、正しく分類されたサンプルにはあまり注意を払いません。連続した反復の後、比較的良好なモデルが得られます。このアルゴリズムは典型的なブースティングアルゴリズムであり、その総和理論における利点は Hoeffding 不等式を使用して説明できます。

アドバンテージ

1. Adaboost は高精度の分類器です。

2. サブ分類子の構築にはさまざまな方法を使用できますが、Adaboost アルゴリズムはフレームワークを提供します。

3. 単純な分類器を使用する場合、計算結果は理解しやすく、弱い分類器の構築は極めて簡単です。

4. シンプルで、機能のスクリーニングは不要です。

5. 過剰適合が発生する可能性が低くなります。

欠点

外れ値に対してより敏感です。

3.7 サポートベクターマシン

サポートベクターマシンは、実績のある高精度のアルゴリズムであり、過剰適合を回避するための優れた理論的保証を提供します。データが元の特徴空間で線形に分離できない場合でも、適切なカーネル関数が指定されている限り、うまく機能します。これは、非常に高次元のテキスト分類問題で特に人気があります。残念ながら、メモリを大量に消費し、説明が難しく、実行や調整が少々面倒です。一方、ランダムフォレストはこれらの欠点を回避し、より実用的です。

アドバンテージ

1. 高次元の問題、つまり大きな特徴空間を解くことができる。

2. 小規模サンプルでの機械学習の問題を解決する。

3. 非線形機能の相互作用を処理する能力。

4. 局所最小値問題がない（ニューラルネットワークなどのアルゴリズムと比較して）

5. データ全体に依存する必要はありません。

6. 強力な一般化能力。

欠点

1. 観測サンプル数が多い場合、効率はあまり高くありません。

2. 非線形問題には一般的な解法はなく、適切なカーネル関数を見つけることが難しい場合があります。

3. カーネル関数の高次元マッピング、特にラジアル基底関数は十分に説明されていません。

4. 従来の SVM はバイナリ分類のみをサポートします。

5. 欠損データの影響を受けやすい。

カーネルを選択するためのテクニックもあります (libsvm には、線形カーネル、多項式カーネル、RBF、シグモイドカーネルの 4 つのカーネル関数が付属しています)。

まず、サンプル数が特徴数より少ない場合、非線形カーネルを選択する必要はなく、線形カーネルをそのまま使用できます。

2 番目に、サンプル数が特徴数よりも多い場合、非線形カーネルを使用してサンプルをより高い次元にマッピングすることができ、通常はより良い結果が得られます。

3 番目に、サンプル数と特徴数が等しい場合は、非線形カーネルを使用できます。原理は 2 番目と同じです。

最初のケースでは、まずデータの次元を削減してから、非線形カーネルを使用するという方法もあります。

SVMの応用分野

テキスト分類、画像認識（主にバイナリ分類、結局のところ、従来の SVM はバイナリ分類の問題しか解決できません）

3.8 人工ニューラルネットワークの利点と欠点

人工ニューラルネットワークの利点:

1. 高い分類精度

2. 強力な並列分散処理機能、分散ストレージおよび学習機能。

3. ノイズニューラルネットワークに対する強力な堅牢性と耐障害性。

4. 連想記憶機能を持ち、複雑な非線形関係を完全に近似できます。

人工ニューラルネットワークの欠点:

1. ニューラルネットワークには、ネットワークトポロジ、重み、しきい値の初期値など、多数のパラメータが必要です。

2. ブラックボックスプロセスでは、学習プロセスを観察できず、出力結果を説明することが困難であり、結果の信頼性と受容性に影響を与えます。

3. 学習時間が長すぎると、局所的最小値に陥り、学習の目的を達成できない可能性もあります。

人工ニューラルネットワークの応用分野:

現在、ディープニューラルネットワークは、コンピュータービジョン、自然言語処理、音声認識などの分野に応用されており、優れた成果を上げています。

3.9 K平均法クラスタリング

これは、n 個のオブジェクトをその属性 (k < n) に応じて k 個のパーティションに分割する単純なクラスタリングアルゴリズムです。アルゴリズムの中核は、歪み関数 J を最適化して、局所最小値には収束するが、大域最小値には収束しないようにすることです。

K-Means クラスタリングに関する記事については、「機械学習アルゴリズム - K-Means クラスタリング」を参照してください。 K-Means の導出には多くの知識があり、そこには強力な EM のアイデアが含まれています。

アドバンテージ

1. アルゴリズムはシンプルで実装が簡単です。

2. アルゴリズムは非常に高速です。

3. このアルゴリズムは、複雑さがおよそ O(nkt) であるため、大規模なデータセットを処理するのに比較的スケーラブルで効率的です。ここで、n はすべてのオブジェクトの数、k はクラスターの数、t は反復回数です。通常はk<<nです。このアルゴリズムは通常、局所的に収束します。

4. アルゴリズムは、二乗誤差関数を最小化する k 個のパーティションを見つけようとします。クラスタリングは、クラスターが密集していて、球状または塊状であり、クラスター間の違いが明確な場合に最も効果的です。

欠点

1. データ型に対する要件が高く、数値データに適しています。

2. 大規模データでは局所的最小値に収束し、ゆっくりと収束する可能性があります。

3. グループ数 k は入力パラメータであり、不適切な k では結果が悪くなる可能性があります。

4. 初期のクラスター中心値に敏感です。初期値が異なると、クラスタリング結果が異なる場合があります。

5. 非凸形状のクラスターやサイズの差が大きいクラスターを見つけるのには適していません。

6. 「ノイズ」や孤立したポイントデータに敏感です。このようなデータが少量でも平均値に大きな影響を与える可能性があります。

3.10 EM最大期待値アルゴリズム

EM アルゴリズムはモデルベースのクラスタリング手法であり、観測不可能な隠れた変数に依存する確率モデル内のパラメータの最大尤度推定値を見つけるためのアルゴリズムです。 E ステップでは潜在変数を推定し、M ステップでは他のパラメータを推定して、交互に極端な値を最大に押し上げます。

EM アルゴリズムは、K 平均法アルゴリズムよりも計算が複雑で、収束も遅くなります。大規模なデータセットや高次元データには適していませんが、計算結果は K 平均法アルゴリズムよりも安定しており、正確です。 EM は、機械学習やコンピュータービジョンにおけるデータクラスタリング分野でよく使用されます。

3.11 アンサンブルアルゴリズム（AdaBoostアルゴリズム）

AdaBoost アルゴリズムの利点:

1. カスケードのための弱い分類器の適切な使用。

2. 弱分類器としてさまざまな分類アルゴリズムを使用できます。

3. AdaBoost は精度が高いです。

4. バギングアルゴリズムやランダムフォレストアルゴリズムと比較して、AdaBoost は各分類器の重みを完全に考慮します。

Adaboost アルゴリズムの欠点:

1. AdaBoost の反復回数、つまり弱分類器の数は設定が容易ではなく、クロス検証を使用して決定できます。

2. データの不均衡により分類精度が低下します。

3. トレーニングには時間がかかり、現在の分類器の最適な分割ポイントが毎回再選択されます。

AdaBoost の応用分野:

パターン認識、コンピュータービジョン、バイナリおよびマルチ分類シナリオに使用

3.12 ランキングアルゴリズム（PageRank）

PageRank は Google のページランキングアルゴリズムであり、多数の高品質な Web ページからリンクされている Web ページは、やはり高品質な Web ページであるという回帰関係に基づいて、すべての Web ページの重要度を決定します。（つまり、素晴らしい友人が多ければ多いほど、その人は素晴らしい人である可能性が高くなります。）

PageRankの利点

クエリとは完全に独立しており、Web ページのリンク構造のみに依存し、オフラインで計算できます。

PageRankのデメリット

1. PageRank アルゴリズムは、Web ページ検索の適時性を無視します。

2. 古いウェブページはランクが高く、長い間存在し、多数のインリンクを蓄積していますが、最新情報を含む新しいウェブページはインリンクがほとんどないため、ランクが低くなります。

3.13 相関ルールアルゴリズム（アプリオリアルゴリズム）

Apriori アルゴリズムは、相関ルールをマイニングするためのアルゴリズムです。これは、暗黙的で未知だが実際のデータ関係をマイニングするために使用されます。その中核は、2 段階の頻度セットの考え方に基づく再帰アルゴリズムです。

Apriori アルゴリズムは 2 つの段階に分かれています。

1. 頻出アイテムセットを見つける。

2. 頻繁なアイテムセットから関連ルールを見つけます。

アルゴリズムの欠点:

1. 各ステップで候補アイテムセットを生成する際に、ループ内で生成される組み合わせが多すぎて、組み合わせに含めるべきでない要素が除外されない。

2. アイテムセットのサポートが計算されるたびに、データベース内のすべてのレコードがスキャンされ、比較されるため、大きな I/O 負荷が発生します。

4. アルゴリズム選択リファレンス

以前、私はいくつかの外国の記事を翻訳したことがあります。そのうちの 1 つでは、簡単なアルゴリズム選択手法が紹介されていました。

1. ロジスティック回帰が最初の選択肢になります。うまく機能しない場合は、その結果をベンチマークとして使用し、他のアルゴリズムと比較することができます。

2. 次に、決定木 (ランダムフォレスト) を試して、モデルのパフォーマンスが大幅に向上するかどうかを確認します。最終モデルとして使用しない場合でも、ランダムフォレストを使用してノイズ変数を除去し、特徴選択を行うことができます。

3. 特徴と観測サンプルの数が特に多い場合、リソースと時間が十分であれば SVM を使用するのが選択肢となります (この前提は非常に重要です)。

通常: [GBDT>=SVM>=RF>=Adaboost>=その他…]、ディープラーニングは現在非常に人気があり、多くの分野で使用されています。これはニューラルネットワークに基づいています。私も現在それを学んでいますが、私の理論的な知識はしっかりしておらず、理解も十分に深くないため、ここでは紹介しません。将来的には議論を刺激する記事を書けることを願っています。

アルゴリズムは重要ですが、優れたデータは優れたアルゴリズムよりも優れています。優れた機能を設計することは非常に役立ちます。データセットが非常に大きい場合は、どのアルゴリズムを使用しても分類のパフォーマンスに大きな影響はない可能性があります (速度と使いやすさに基づいて決定できます)。

<<: データコレクターにおける TensorFlow を使用したリアルタイム機械学習

>>: 機械学習について学びたい方はこちらをご覧ください。1ステップで専門家になる方法をお教えします！