教師なし学習のための最も重要な12のアルゴリズムとその使用例

教師なし学習は、教師あり学習とは対照的に、もう 1 つの主流の機械学習方法です。教師なし学習では、データ注釈はなく、データ自体のみです。

教師なし学習アルゴリズムにはいくつかの種類がありますが、ここでは最も重要な 12 種類を紹介します。

1. クラスタリングアルゴリズムは、類似性に基づいてデータポイントをクラスターにグループ化します。

K 平均法クラスタリングは、データを k グループに分割する一般的なクラスタリングアルゴリズムです。

2. 次元削減アルゴリズムはデータの次元を削減し、視覚化と処理を容易にします。

主成分分析 (PCA) は、データを低次元空間に投影する次元削減アルゴリズムです。PCA を使用すると、データを最も重要な特徴に削減できます。

3. 異常検出アルゴリズムは外れ値や異常なデータポイントを識別します

サポートベクターマシンは異常検出に使用できます (例)。異常検出アルゴリズムは、データセット内の異常を検出するために使用されます。異常検出にはさまざまな方法がありますが、そのほとんどは教師あり方式と教師なし方式に分けられます。教師あり法ではラベル付きのデータセットが必要ですが、教師なし法では必要ありません。

教師なし異常検出アルゴリズムは通常、密度推定に基づいており、データ空間内の密な領域の外側にあるポイントを見つけようとします。

簡単な方法は、各点から k 個の最も近い近傍点までの平均距離を計算することです。近隣の点から非常に離れた点は外れ値である可能性が高いです。

ローカル外れ値係数 (LOF) やサポートベクタードメイン記述 (SVDD) など、密度ベースの異常検出アルゴリズムも多数あります。これらのアルゴリズムは単純な k 近傍法よりも洗練されており、より微妙な異常を検出できる場合が多くあります。ほとんどの異常検出アルゴリズムでは、アルゴリズムが異常に対してどの程度敏感であるかを制御するパラメータを指定するなどの調整が必要です。パラメータが低すぎると、アルゴリズムがいくつかの異常を見逃す可能性があります。設定値が高すぎると、アルゴリズムによって誤検知（正常なポイントを異常なポイントとして識別）が発生する可能性があります。

4. セグメンテーションアルゴリズムはデータをセグメントまたはグループに分割します

セグメンテーションアルゴリズムは、画像を前景と背景に分離できます。

これらのアルゴリズムは、人間の監視を必要とせずに、データセットを意味のあるグループに自動的に分割できます。この分野で最もよく知られているアルゴリズムの 1 つは、k-means アルゴリズムです。アルゴリズムは、グループ内の距離の二乗の合計を最小化することで、データポイントを k グループに分割します。

もう一つの一般的なセグメンテーションアルゴリズムは、平均シフトアルゴリズムです。このアルゴリズムは、各データポイントをそのローカル近傍の中心に向かって繰り返し移動することによって機能します。平均シフトは外れ値に対して堅牢であり、密度が不均一なデータセットを処理できます。しかし、大規模なデータセットで実行すると、計算コストが高くなる可能性があります。

ガウス混合モデル (GMM) は、セグメンテーションに使用できる確率モデルです。以前は GMM のトレーニングに大量の計算が必要でしたが、最近の進歩により大幅に高速化されました。 GMM は非常に柔軟性が高く、あらゆる種類のデータに使用できます。しかし、必ずしも最良の結果が得られるとは限りません。単純なデータセットの場合、k-means が適切な選択ですが、複雑なデータセットの場合は gmm の方が適しています。平均シフトはどちらの場合でも使用できますが、大規模なデータセットでは計算コストが高くなる可能性があります。

5. ノイズ除去アルゴリズムはデータからノイズを削減または除去します

ウェーブレット変換は画像のノイズ除去に使用できます。しかし、ノイズはデータの破損、欠損値、外れ値など、さまざまなソースから発生する可能性があります。ノイズ除去アルゴリズムは、データ内のノイズの量を減らすことで、教師なし学習モデルの精度を向上させます。

主成分分析 (PCA)、独立成分分析 (ICA)、非負値行列因子分解 (NMF) など、既存のノイズ除去アルゴリズムは数多く存在します。

6. リンク予測アルゴリズムは、データポイント間の将来の接続を予測します（例：ネットワーク内の2つのノード間の将来の相互作用）

リンク予測は、ソーシャルネットワークでどの人が友達になるかを予測するために使用できます。最も一般的に使用されるリンク予測アルゴリズムの 1 つは、優先接続アルゴリズムです。これは、2 つのノードに既存の接続が多数ある場合、それらのノードが接続される可能性が高いと予測します。

もう 1 つの一般的なリンク予測アルゴリズムは、ローカルパスアルゴリズムです。これは、2 つのノードが共通の隣接ノードを共有している場合にリンクされる可能性が高くなると予測します。このアルゴリズムは「構造的等価性」の概念を捉えることができるため、生物学的ネットワークで頻繁に使用されます。

最後に、ランダムウォークとリスタートアルゴリズムは、ネットワーク上を歩くランダムな人物をシミュレートし、ランダムなノードで歩行者をリスタートさせるリンク予測アルゴリズムです[17]。次に、歩行者が特定のノードに到達する確率を使用して、2 つのノード間に接続が存在する可能性を測定します。

7. 強化学習アルゴリズムは試行錯誤を通じて学習する

Q 学習は価値ベースの学習アルゴリズムの一例であり、実装が簡単で汎用的です。しかし、Q 学習は最適ではない解に収束することがあります。もう 1 つの例は TD 学習です。これは Q 学習よりも計算量が多くなりますが、多くの場合、より優れたソリューションを見つけることができます。

8. 生成モデル: アルゴリズムはトレーニングデータを使用して新しいデータを生成します

オートエンコーダーは、画像データセットから一意の画像を作成するために使用できる生成モデルです。機械学習において、生成モデルとは、データセットの統計的特性を捉えるモデルです。これらのモデルは、トレーニングに使用されたデータと同じように新しいデータを生成するために使用できます。

生成モデルは、教師なし学習、データ圧縮、ノイズ除去などのさまざまなタスクで使用されます。生成モデルには、隠れマルコフモデルやボルツマンマシンなど、さまざまな種類があります。各モデルには長所と短所があり、さまざまなタスクに適しています。

隠れマルコフモデルはシーケンシャルデータのモデリングに適しており、ボルツマンマシンは高次元データのモデリングに適しています。生成モデルは、ラベルなしデータでトレーニングすることにより、教師なし学習に使用できます。モデルがトレーニングされると、それを使用して新しいデータを生成することができます。生成されたデータは、人間または他の機械学習アルゴリズムによってラベル付けされます。このプロセスは、生成モデルが目的の出力に似たデータを生成することを学習するまで繰り返すことができます。

9. ランダムフォレストは、教師あり学習と教師なし学習に使用できる機械学習アルゴリズムです。

教師なし学習の場合、ランダムフォレストは類似した項目のグループを見つけ、外れ値を識別し、データを圧縮できます。

ランダムフォレストは、教師ありタスクと教師なしタスクの両方において、他の一般的な機械学習アルゴリズム (サポートベクターマシンなど) よりも優れていることが示されています。ランダムフォレストは、多くの特徴を持つ高次元データを処理できるため、教師なし学習の強力なツールです。また、過剰適合にも耐性があり、新しいデータにうまく一般化されます。

10. DBSCANは教師なし学習に使用できる密度ベースのクラスタリングアルゴリズムです。

これは密度、つまり領域あたりのポイント数に基づいています。 DBSCAN グループ内のポイントが近い場合はグループに誘導され、ポイントが離れている場合は無視されます。 DBSCAN には、他のクラスタリングアルゴリズムに比べていくつかの利点があります。さまざまなサイズや形状のクラスターを見つけることができ、ユーザーがクラスターの数を事前に指定する必要がありません。さらに、DBSCAN は外れ値の影響を受けないため、他のデータセットでは適切に表現されないデータを見つけるために使用できます。しかし、DBSCAN にはいくつかの欠点もあります。たとえば、ノイズの多いデータセットでは適切なクラスターを見つけるのが難しい場合があります。もう 1 つは、DBSCAN には密度しきい値が必要であり、これはすべてのデータセットに適用できるわけではないということです。