この記事では、さまざまな教師なしクラスタリングアルゴリズムのPython実装について簡単に説明します。

教師なし学習は、データ内のパターンを見つけるために使用される機械学習技術の一種です。教師なし学習アルゴリズムで使用される入力データはすべてラベルなしです。つまり、データは入力変数 (独立変数 X) のみを提供し、対応する出力変数 (従属変数) は提供しません。教師なし学習では、アルゴリズム自体がデータ内の興味深い構造を発見します。

人工知能研究の第一人者であるヤン・ルカン氏は次のように説明しています。「教師なし学習は、行うことすべてが正しいかどうかを明示的に指示されなくても、自ら学習することができます。」これが真の人工知能を実現するための鍵です！

教師あり学習と教師なし学習

教師あり学習では、システムは以前に与えられた例から学習しようとします。 (教師なし学習では、システムは与えられた例から直接パターンを見つけようとします。) したがって、データセットにラベルが付いている場合は、これは教師あり学習の問題であり、データにラベルが付いていない場合は、これは教師なし学習の問題です。

上の図は、回帰手法を使用してさまざまな特徴間の最適な曲線を見つける教師あり学習の例です。一方、教師なし学習では、入力データは特徴に基づいて分割され、データが属するクラスターに基づいて予測が行われます。

重要な用語

機能: 予測を行うときに使用する入力変数。
予測値: 入力例を与えられたモデルの出力。
例: データセット内の行。例は、1 つ以上の機能と、場合によってはラベルで構成されます。
ラベル: 特徴に対応する実際の結果 (予測に対応)。

教師なし学習のためのデータの準備

この記事では、Iris データセットを使用して基本的な予測作業を完了します。このデータセットには 150 件のレコードが含まれており、各レコードは花弁の長さ、花弁の幅、萼片の長さ、萼片の幅、花のカテゴリの 5 つの特徴で構成されています。花の種類には、アイリス・セトサ、アイリス・バージニカ、アイリス・ベルシカラーなどがあります。この論文では、教師なしアルゴリズムにアヤメの花の 4 つの特徴を与え、それがどのカテゴリに属するかを予測します。

この記事では、Python 環境の sklearn ライブラリを使用して Iris データセットを読み込み、matplotlib を使用してデータを視覚化します。データセットを探索するためのコードスニペットは次のとおりです。

 # モジュールのインポート
sklearnからデータセットをインポートする
matplotlib.pyplot を plt としてインポートします。 
 
 # データセットを読み込んでいます
iris_df =データセット.load_iris () 
 
 # データセットで利用可能なメソッド
印刷(dir(iris_df)) 
 
 ＃ 特徴
iris_df.feature_names を印刷します。 
 
 # ターゲット
iris_df.target を印刷します
 
 # ターゲット名
iris_df.target_names を印刷します。
ラベル= {0: '赤'、1: '青'、2: '緑'} 
 
 # データセットのスライス
x_axis = iris_df .data[:, 0] # 萼片の長さ
y_axis = iris_df .data[:, 2] # 萼片の幅
 
 # プロット
plt.scatter(x_axis, y_axis, c = iris_df .target)
 plt.show()

 ['DESCR', 'データ', '機能名', 'ターゲット', 'ターゲット名']
 ['萼片の長さ (cm)'、'萼片の幅 (cm)'、'花弁の長さ (cm)'、'花弁の幅 (cm)']
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
 ['setosa' 'versicolor' 'virginica']

紫: セトサ、緑: バーシカラー、黄: バージニカ

クラスター分析

クラスター分析では、データはいくつかの異なるグループに分割されます。つまり、このステップの目的は、全体のデータから類似した特性を持つグループを分離し、それらをクラスターに割り当てることです。

視覚化の例:

上図の左側は分類前の元のデータ、右側はクラスタリング後のデータ（データが自身の特性に応じて分類されている）です。予測する入力が与えられると、その特徴に基づいてどのクラスターに属するかを調べ、それに基づいて予測を行います。

Python での K 平均法クラスタリング

K-means は、各反復で局所的最大値を見つけることを目的とする反復クラスタリングアルゴリズムです。アルゴリズムでは、最初にクラスターの数を選択する必要があります。この問題には 3 つのカテゴリの花が関係していることがわかっているので、パラメータ「n_clusters」を K-means モデルに渡して、データを 3 つのカテゴリにグループ化するアルゴリズムを作成します。ここで、3 つのデータポイント (入力) をランダムに 3 つのクラスターに分割します。次に、特定の入力データポイントは、各ポイント間の重心距離に基づいて個別のクラスターに分割されます。次に、すべてのクラスターの重心を再計算します。

各クラスターの重心は、結果セットを定義する固有値の集合です。重心の特徴の重みを調べることで、各クラスターがどのようなタイプのグループを表すかを定性的に解釈できます。

sklearn ライブラリから K-means モデルをインポートし、特徴を適合させて予測を行います。

K-means アルゴリズムの Python 実装:

 # モジュールのインポート
sklearnからデータセットをインポートする
sklearn.clusterからKMeansをインポートする
 
 # データセットを読み込んでいます
iris_df =データセット.load_iris () 
 
 # モデルの宣言
モデル= KMeans ( n_clusters = 3 ) 
 
 # フィッティングモデル
モデルをフィット(iris_df.data) 
 
 # 単一の入力を予測する
予測ラベル=モデル.predict([[7.2, 3.5, 0.8, 1.6]]) 
 
 # データ全体の予測
すべての予測= model.predict (iris_df.data) 
 
 # 印刷予測
print(予測ラベル)
印刷(すべての予測)

 [0]
 [0 ...2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 1 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 1 2 1 1 2 1 1 2]

階層的クラスタリング

階層的クラスタリングは、その名前が示すように、階層的なクラスターを構築できるアルゴリズムです。このアルゴリズムの開始時には、各データポイントはクラスターです。次に、最も近い 2 つのクラスターが 1 つにマージされます。最終的に、すべてのポイントが 1 つのクラスターにマージされると、アルゴリズムは停止します。

階層的クラスタリングの実装は、デンドログラムを使用して表示できます。次に、穀物データの階層的クラスタリングの例を見てみましょう。データセットリンク:

https://raw.githubusercontent.com/vihar/unsupervised-learning-with-python/master/seeds-less-rows.csv

1. 階層的クラスタリングの Python 実装:

 # モジュールのインポート
scipy.cluster.hierarchy から linkage, dendrogram をインポートします
matplotlib.pyplot を plt としてインポートします。
 pandasをpdとしてインポートする
 
 # データフレームの読み取り
seeds_df = pd.read_csv (
 「https://raw.githubusercontent.com/vihar/unsupervised-learning-with-python/master/seeds-less-rows.csv」 
 
 # DataFrame から穀物の種類を削除し、後で保存します
品種=リスト(seeds_df.pop('grain_variety')) 
 
 # 測定値をNumPy配列として抽出する
サンプル= seeds_df.values 
 
 「」
サンプルに対して階層的クラスタリングを実行するには、
 method = 'complete'キーワード引数を持つ linkage() 関数。
結果をマージに割り当てます。
 「」
マージ=リンク(サンプル、方法= '完全' ) 
 
 「」
 dendrogram() 関数を使用して、マージ時に樹形図をプロットします。
キーワード引数を指定すると、 labels = variety 、 leaf_rotation = 90 、
そしてleaf_font_size = 6です。
 「」
樹形図（併合、
ラベル=品種、
葉の回転= 90 、
リーフフォントサイズ= 6 、
 ） 
 
 plt.show()

2. K平均法と階層的クラスタリングの違い

階層的クラスタリングは大規模なデータではうまく機能しませんが、K-means クラスタリングは機能します。その理由は、K 平均法アルゴリズムの時間計算量は線形、つまり O(n) であるのに対し、階層的クラスタリングの時間計算量は二次、つまり O(n2) であるためです。
K-means クラスタリングでは、最初にクラスターをランダムに選択するため、アルゴリズムを複数回実行して得られる結果は大きく異なる可能性があります。階層的クラスタリングの結果は再現可能です。
研究によると、クラスターの形状が超球面（たとえば、2 次元空間では円、3 次元空間では球）の場合、K 平均法アルゴリズムのパフォーマンスが良好であることがわかっています。
K-means アルゴリズムはノイズデータに対する耐性が低い (ノイズデータに対する堅牢性が低い) のに対し、階層的クラスタリングではノイズデータを直接クラスタリング分析に使用できます。

t-SNEクラスタリング

これは視覚的な教師なし学習法です。 t-SNE は t 分布の確率的近傍埋め込みを指します。高次元空間を視覚化された 2 次元または 3 次元空間にマッピングします。具体的には、2 次元または 3 次元のデータポイントを使用して高次元空間内のオブジェクトをモデル化します。つまり、類似のオブジェクトは近くのポイントを使用して高い確率でモデル化され、類似しないオブジェクトは遠くのポイントを使用してモデル化されます。

Iris データセットの t-SNE クラスタリングの Python 実装:

 # モジュールのインポート
sklearnからデータセットをインポートする
sklearn.manifold から TSNE をインポート
matplotlib.pyplot を plt としてインポートします。 
 
 # データセットを読み込んでいます
iris_df =データセット.load_iris () 
 
 # モデルの定義
モデル= TSNE (学習率= 100 ) 
 
 # フィッティングモデル
変換された=モデル.fit_transform(iris_df.data) 
 
 # 2d t-Sne のプロット
x_axis =変換された[:, 0]
 y_axis =変換された[:, 1] 
 
 plt.scatter(x_axis, y_axis, c = iris_df .target)
 plt.show()

紫: セトサ、緑: バーシカラー、黄: バージニカ

ここでは、4 つの特徴 (4 次元) を持つ Iris データセットが 2D 空間に変換され、2D 画像に表示されます。同様に、t-SNE モデルは n 個の特徴を持つデータセットに使用できます。

DBSCAN クラスタリング

DBSCAN (ノイズ付き密度ベース空間クラスタリング) は、予測分析で K 平均アルゴリズムの代わりに使用される一般的なクラスタリングアルゴリズムです。実行するクラスターの数を入力する必要はありません。ただし、他の 2 つのパラメータを調整する必要があります。

scikit-learn の DBSCAN アルゴリズム実装では、デフォルトの「eps」および「min_samples」パラメータが提供されますが、通常はユーザーがそれらを調整する必要があります。パラメータ「eps」は、2 つのデータポイントが同じ近傍にあると見なされるための最大距離です。パラメータ「min_samples」は、同じクラスター内にある必要がある近傍のデータポイントの最小数です。

1. DBSCAN クラスタリングの Python 実装:

 # モジュールのインポート
sklearn.datasetsからload_irisをインポートする
matplotlib.pyplot を plt としてインポートします。
 sklearn.clusterからDBSCANをインポートする
sklearn.decomposition から PCA をインポート
 
 # データセットをロード
アイリス= load_iris () 
 
 # モデルの宣言
dbscan = DBSCAN () 
 
 ＃フィッティング
dbscan.fit(iris.data) 
 
 # PCA を使用した変換
pca = PCA ( n_components = 2 ).fit(iris.data)
 pca pca_2d = pca.transform(iris.data) 
 
 # クラスに基づくプロット
iが範囲(0, pca_2d.shape[0])内にある場合:
 dbscan.labels_[i] == 0の場合:
 c1 = plt .scatter(pca_2d[i, 0], pca_2d[i, 1], c = 'r' 、マーカー= '+' )
 elif dbscan.labels_[i] == 1:
 c2 = plt .scatter(pca_2d[i, 0], pca_2d[i, 1], c = 'g' 、マーカー= 'o' )
 elif dbscan.labels_[i] == -1:
 c3 = plt .scatter(pca_2d[i, 0], pca_2d[i, 1], c = 'b' 、マーカー= '*' ) 
 
 plt.legend([c1, c2, c3], ['クラスター1', 'クラスター2', 'ノイズ'])
 plt.title('DB