すべてのデータサイエンティストが知っておくべき 19 の機械学習アルゴリズム

【51CTO.com 速訳】機械学習アルゴリズム入門

機械学習アルゴリズムの分野では、分類には通常次の 2 つの方法が使用されます。

1 つ目は、学習方法に基づいてアルゴリズムを分類することです。
2 つ目は、形式や機能の類似性に基づいてアルゴリズムを分類することです。

一般的に言えば、これら 2 つのカテゴリは同等に重要です。今回は、主に類似性分類に基づくアルゴリズムとそのさまざまなタイプについて説明します。

学習スタイル別に分類した機械学習アルゴリズム

一般的に言えば、同じアルゴリズムでも、異なるインタラクティブなエクスペリエンスに基づいて、問題を異なる方法でモデル化します。これは入力データの呼び出しには影響しません。同時に、機械学習や人工知能の分野では、いくつかのアルゴリズムが一般的な教科書によく登場します。

したがって、さまざまなアプリケーションシナリオに直面したときに最初に考慮する必要があるのは、アルゴリズムが適している学習方法です。以下では、機械学習アルゴリズムのいくつかの主要な学習方法と、さまざまなアルゴリズムを適用できる問題のシナリオとユースケースについて説明します。さまざまな入力データが果たす「役割」とモデル準備のさまざまなプロセスを総合的に考慮することで、問題に最も適したアルゴリズムを選択し、最終的に最良の結果を得ることができます。

3つの異なる学習方法を見てみましょう。

教師あり学習

教師あり学習では、入力データは「トレーニングデータ」と呼ばれ、「スパム」、「スパムではない」、特定の時点の株価などの既知のラベルまたは結果を持ちます。教師あり学習は、トレーニングプロセスを通じて予測モデルを構築します。彼らは、「トレーニングデータ」の実際の結果と比較することで、予測を継続的に改善します。したがって、モデルが目的のレベルに達するまでトレーニングプロセスは継続されます。

一般的なアプリケーションシナリオには、分類問題と回帰問題が含まれます。
一般的なアルゴリズムには、ロジスティック回帰とバックプロパゲーションニューラルネットワークが含まれます。

教師なし学習

教師なし学習では、入力データにはラベルが付けられておらず、結果は不明です。入力データの本質的な構造を推測して、対応するモデルを準備する必要があります。数学的なプロセスを通じて、いくつかの一般的なルールを抽出し、冗長性を削減することができます。

一般的なアプリケーションシナリオには、クラスタリング、次元削減、関連ルールの学習などがあります。
一般的なアルゴリズムには、Apriori アルゴリズムと K-means アルゴリズムがあります。

半教師あり学習

半教師あり学習では、入力データはラベル付きの例とラベルなしの例が混在したものです。望ましい予測目標も持っています。モデルは予測を行うために、さまざまな構造を学習してさまざまなデータを整理する必要があります。

一般的なアプリケーションシナリオには、分類問題と回帰問題が含まれます。
一般的なアルゴリズムには、ラベルなしデータをモデル化しようとする他の柔軟な教師あり学習アルゴリズムのいくつかの拡張が含まれます。

類似性による分類アルゴリズム

機械学習アルゴリズムは、多くの場合、機能の類似性によって分類され、(決定)ツリーベースの方法やニューラルネットワークにヒントを得た方法などがあります。個人的には、これが機械学習アルゴリズムにとって最も効果的で実用的な分類方法だと考えています。もちろん、学習ベクトル量子化など、一部のアルゴリズムは複数のカテゴリにまたがります。このアルゴリズムは、ニューラルネットワークメソッドとインスタンスベースメソッドを組み合わせたもので、回帰やクラスタリングの問題、およびアルゴリズムの種類を説明するためによく使用されます。このタイプのアルゴリズムの特徴は、同じアルゴリズムが繰り返し呼び出されないことです。

1. 回帰アルゴリズム

回帰アルゴリズムは、変数間の関係をモデル化することに関係しています。このモデルを使用すると、さまざまな予測で生成されるエラー指標を改善できます。

これらの方法は統計学の「主力」であり、統計機械学習の「武器」でもあります。「回帰」は問題の種類とアルゴリズムの問題の両方を指す可能性があるため、参照を混同しやすいです。最も人気のある回帰アルゴリズムは次のとおりです。

通常最小二乗回帰 (OLSR)
線形回帰
ロジスティック回帰
ステップワイズ回帰
多変量適応回帰スプライン (MARS)
局所推定散布図平滑化 (LOESS)

2. 例に基づくアルゴリズム

モデルは、さまざまなインスタンスからのトレーニングデータを使用して意思決定の問題を処理します。方法はサンプルデータのデータベースを構築することです。新しいデータとサンプルデータを比較し、類似性メソッドを使用して最適な一致を見つけ、予測を行います。さまざまなインスタンスのパフォーマンス状態を保存し、インスタンス間の類似性測定値を使用します。このため、インスタンスベースのアルゴリズムは、「勝者総取り学習」または「メモリベース学習」とも呼ばれます。最も人気のあるインスタンスベースのアルゴリズムは次のとおりです。

k近傍法 (kNN)
ベクトル量子化の学習 (LVQ)
自己組織化マップ (SOM)
局所重み付け学習 (LWL)

3. 正規化アルゴリズム

この方法は、他のアルゴリズム (通常は回帰アルゴリズム) の拡張です。使用する「ペナルティ」モデルはその複雑さに関係しており、つまり、モデルが単純であればあるほど、一般化が容易になります。私がこれをここで取り上げたのは、これが人気があり、強力で、他の方法を簡単に修正したものであるからです。最も人気のある正規化アルゴリズムは次のとおりです。

リッジ回帰
最小絶対収縮および選択演算子、LASSO
弾性ネット
最小角回帰 (LARS)

4. 決定木アルゴリズム

決定木法は、データ属性の実際の値に基づいて構築される決定モデルです。ツリー構造は、指定されたレコードに基づいて予測決定が行われるまで分岐し続けます。決定木は、分類問題と回帰問題の両方のデータでトレーニングされます。決定木は、その高速性と正確な結果により、最も人気のある機械学習アルゴリズムの 1 つです。最も人気のある決定木アルゴリズムは次のとおりです。

分類と回帰ツリー (CART)
反復二分法 3、ID3
C4.5 および C5.0
カイ二乗自動相互作用検出 (CHAID)
決定スタンプ（単層決定木、決定スタンプ）
M5
条件付き決定木

5. ベイズアルゴリズム

このタイプのアルゴリズムは、分類や回帰など、ベイズの定理を使用する問題に適しています。最も人気のあるベイズアルゴリズムは次のとおりです。

ナイーブベイズ
ガウス単純ベイズ
多項式ナイーブベイズ
平均 1 依存推定量、AODE
ベイジアン信念ネットワーク (BBN)
ベイジアンネットワーク (BN)

6. クラスタリングアルゴリズム

クラスタリングは、回帰と同様に、問題の種類と方法の種類を説明するために使用できます。このアプローチでは、重心ベースや階層型などのモデリング手法が使用されます。これらはすべて、データの固有の構造を利用するものです。目標は、データ間の最大の共通性に従ってデータをグループ化することです。最も人気のあるクラスタリングアルゴリズムは次のとおりです。

K平均法
k-中央値
期待最大化（EM）
階層的クラスタリング

7. 相関ルール学習アルゴリズム

相関ルール学習法は、さまざまなルールを抽出すること、つまり、観察を通じてデータ変数間の関係を最もよく記述することを目的としています。これらのルールにより、組織が活用できる大規模な多次元データセット内の重要かつ有用な関係を発見できます。最も人気のある関連ルール学習アルゴリズムは次のとおりです。

アプリオリアルゴリズム
エクラアルゴリズム

8. 人工ニューラルネットワークアルゴリズム

このアルゴリズムは、生物学的ニューラルネットワークの構造にヒントを得たモデルです。これらは、回帰や分類などの問題を解決するために使用されるパターンマッチングの一種です。何百ものアルゴリズムと変数を組み合わせるため、非常に大きなサブセットを構成することになります。最も人気のある人工ニューラルネットワークアルゴリズムは次のとおりです。

パーセプトロン
バックプロパゲーション
ホップフィールドネットワーク
ラジアル基底関数ネットワーク (RBFN)

9. ディープラーニングアルゴリズム

ディープラーニングアルゴリズムは、安価な計算能力を最大限に活用する人工ニューラルネットワークのアップグレードバージョンです。より大規模で複雑なニューラルネットワークの構築が含まれます。最も人気のあるディープラーニングアルゴリズムは次のとおりです。

ディープボルツマンマシン (DBM)
ディープビリーフネットワーク（DBN）
畳み込みニューラルネットワーク (CNN)
スタック型オートエンコーダ

10. 次元削減アルゴリズム

クラスタリング手法と同様に、次元削減アルゴリズムはデータ内の固有の構造を探します。一般的に、3 次元データを視覚化する場合に役立ちます。分類や回帰のための教師あり学習法で使用できます。最も人気のある次元削減アルゴリズムは次のとおりです。

主成分分析（PCA）
主成分回帰（PCR）
部分最小二乗回帰 (PLSR)
サモンマッピング
多次元尺度法 (MDS)
投影の追求
線形判別分析 (LDA)
混合判別分析 (MDA)
二次判別分析 (QDA)
柔軟な判別分析 (FDA)

11. モデル融合アルゴリズム

このアルゴリズムは、複数のトレーニングされた弱いモデルで構成されています。別々の予測を何らかの形で組み合わせて、より良い予測を作成します。モデル融合アルゴリズムは非常に強力で人気のある技術であることがわかります。最も人気のあるモデル融合アルゴリズムは次のとおりです。

ブースト
ブートストラップ集約（バギング）
アダブースト
積み重ねられた一般化（ブレンディング）
勾配ブースティングマシン (GBM)
勾配ブースティング回帰木 (GBRT)
ランダムフォレスト

一般的な機械学習アルゴリズムの概要

1. ナイーブベイズ分類アルゴリズム

一般的に言えば、Web ページ、ドキュメント、または電子メール、特に長いテキストメッセージが含まれており、手動での分類が必要なものを正確に分類することは困難です。ここで、まさに Naive Bayes 分類アルゴリズムが登場します。さらに、その分類器には、要素に類似度値を割り当てる機能があります。

たとえば、スパムフィルタリングは、Naive Bayes アルゴリズムの一般的な応用例です。ここでのスパムフィルターは分類子として機能し、すべての電子メールに「スパム」または「スパムではない」というラベルを割り当てます。一般的に言えば、類似性型機械学習アルゴリズムの中で最も人気のあるタイプです。その基本的な動作原理は、ベイズの定理に基づいてさまざまな単語を単純に分類し、コンテンツの主観的な分析を実現することです。

2. K平均法クラスタリングアルゴリズム

K-means は、教師なし機械学習を使用するクラスター分析アルゴリズムです。同時に、これは非決定論的な反復手法です。このアルゴリズムは、特定のデータセット内の事前に設定された数のカテゴリ (たとえば k) に対して動作します。したがって、K 平均アルゴリズムの出力は、クラスタリングで入力データから分離された k 個の分割されたクラスターになります。

3. サポートベクターマシンアルゴリズム

このアルゴリズムは、分類と回帰分析に使用できる教師あり機械学習アルゴリズムです。 SVM (サポートベクターマシン、https://data-flair.training/blogs/svm-support-vector-machine-tutorial/) は、あらゆる新しいデータセットを分類できます。その動作原理は、トレーニングデータセットをさまざまなカテゴリに分割して線形特徴を検出し、複数の線形特徴からいくつかの超平面を構築することです。したがって、SVM では、さまざまなカテゴリ間の距離を最大化する必要があります。つまり、識別されたマージンを最大化して、見えないデータの確率を高める必要があります。 SVM は一般的に 2 つのカテゴリに分類されます。

線形 SVM – トレーニングデータは、超平面を介してクラスに線形に分割されます。
非線形 SVM – トレーニングデータを超平面で分離することはできません。

4. 事前アルゴリズム

このアルゴリズムは、教師なし機械学習アルゴリズムです。これを使用して、特定のデータセットから関連ルールを生成します。ここでの関連ルールは、「項目 A が発生すると、項目 B も発生する」という一定の確率を指し、通常は IF_THEN の形式で生成されます。

たとえば、iPad を購入する人は、iPad を保護するために iPad ケースも購入するでしょう。したがって、アルゴリズムは基本的に次のように機能します。何かが頻繁に発生する場合、そのサブセットもすべて頻繁に発生します。逆に、ある項目がたまにしか発生しない場合は、そのすべてのスーパーセットもまれにしか発生しません。

5. 線形回帰アルゴリズム

このアルゴリズムは、2 つの変数間の関係、つまりそれらの間の依存関係を通じて、1 つの変数 (独立変数) が別の変数 (従属変数) にどのように影響するかを示すことができます。独立変数は常に変化しているにもかかわらず、従属変数には同様の予測子が現れることがよくあります。

6. 決定木アルゴリズム

通常、グラフは意思決定ツリーを表すために、つまり分岐法を使用して意思決定のすべての可能な結果を示すために使用します。決定木では、各ブランチノードは特定の属性のテスト結果を表します。同時に、リーフノードは特定のカテゴリのラベル、つまりすべての属性を計算した後に行われた決定を表します。さらに、ルートノードからリーフノードまでのパスを通じて分類を表すこともできます。

7. ランダムフォレストアルゴリズム

これは機械学習アルゴリズムの定番のタイプです。バギングアプローチを使用して、データのランダムなサブセットを含む決定木のセットを作成します。最終的な予測効果を高めるには、ランダムフォレストアルゴリズムを使用して、モデルデータセット上のランダムサンプルに対して複数のトレーニングを実行し、すべての決定木の出力結果を統合し、各決定木の結果をポーリングする必要があります。

8. ロジスティック回帰アルゴリズム

このタイプのアルゴリズムは一般化線形回帰であり、ロジスティック関数を特定の特徴の線形結合に適用し、さまざまな予測変数を通じて分類された従属変数の結果を予測し、独立変数の加重確率も記述します。

結論は

要約すると、機械学習アルゴリズムとそのさまざまな分類について説明しました。分類には、回帰アルゴリズム、インスタンスベースアルゴリズム、正則化アルゴリズム、決定木アルゴリズム、ベイズアルゴリズム、クラスタリングアルゴリズム、関連ルール学習アルゴリズム、人工ニューラルネットワークアルゴリズム、ディープラーニングアルゴリズム、次元削減アルゴリズム、モデル融合アルゴリズム、教師あり学習、教師なし学習、半教師あり学習、ナイーブベイズ分類アルゴリズム、K 平均法クラスタリングアルゴリズム、サポートベクターマシンアルゴリズム、事前アルゴリズム、線形回帰、ロジスティック回帰が含まれます。上記の写真とテキストによる説明方法は、間違いなくあなたにとって有益であると信じています。

原題: データサイエンティストになるために知っておくべきトップ機械学習アルゴリズム、著者: Rinu Gour

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: 機械学習ニューラルネットワークとPython実装

>>: 人工知能の本質的な「差別」を排除する方法