ハルビン工科大学の修士課程の学生が11の古典的なデータ次元削減アルゴリズムをPythonで実装し、ソースコードライブラリが公開されました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

インターネット上のさまざまな次元削減アルゴリズムに関する情報は混在しており、そのほとんどはソースコードを提供していません。こちらは、PCA、LDA、MDS、LLE、TSNEなどを含む11の古典的なデータ抽出（データ次元削減）アルゴリズムをPythonで実装したGitHubプロジェクトで、関連資料とデモンストレーション効果も含まれています。機械学習の初心者やデータマイニングを始めたばかりの人に最適です。

[[283851]]

なぜデータの次元を削減する必要があるのでしょうか?

いわゆる次元削減とは、DベクトルXiに含まれる有用な情報をdベクトルZiの集合で表現することである。ここでd

通常、ほとんどのデータセットの次元は数百または数千にもなりますが、従来の MNIST の次元は 64 です。

MNIST 手書き数字データセット

しかし、実際のアプリケーションでは、使用する有用な情報にそれほど高い次元は必要なく、各追加次元に必要なサンプル数は指数関数的に増加し、巨大な「次元災害」に直接つながる可能性があります。データの次元削減により、これを実現できます。

データセットを使いやすくする
変数が互いに独立していることを確認する
アルゴリズムの計算コストを削減
ノイズ除去

この情報を正しく処理し、次元削減を正確かつ効果的に実行できるようになれば、計算量を大幅に削減し、機械操作の効率を向上させることができます。データの次元削減は、テキスト処理、顔認識、画像認識、自然言語処理などの分野でもよく使用されます。

データ次元削減の原則

多くの場合、高次元空間のデータはまばらに分布しているため、次元削減のプロセスでは通常、冗長データ、無効な情報、繰り返し表現などを含むデータの削除が行われます。

例えば、1024×1024の画像があるとします。中央の50×50の領域を除いて、他の位置はすべてゼロです。これらのゼロ情報は役に立たない情報として分類でき、対称図形の場合は、対称部分の情報が重複情報として分類できます。

したがって、古典的な次元削減手法のほとんどもこの内容に基づいています。次元削減方法は線形次元削減と非線形次元削減に分けられ、非線形次元削減はさらにカーネル関数ベースの方法と固有値ベースの方法に分けられます。

線形次元削減法:

PCA、ICA LDA、LFA、LPP（LEの線形表現）

非線形次元削減法:

カーネル関数に基づく非線形次元削減法——KPCA、KICA、KDA

固有値ベースの非線形次元削減法（フロー型学習） - ISOMAP、LLE、LE、LPP、LTSA、MVU

ハルビン工業大学でコンピューター技術を専攻する修士課程の学生であるHeucoder氏は、PCA、KPCA、LDA、MDS、ISOMAP、LLE、TSNE、AutoEncoder、FastICA、SVD、LE、LPPなど12の古典的な次元削減アルゴリズムを分類し、関連情報、コード、デモンストレーションを提供しました。以下では、主にPCAアルゴリズムを例に、次元削減アルゴリズムの具体的な操作を紹介します。

主成分分析 (PCA) 次元削減アルゴリズム

PCA は、高次元空間から低次元空間へのマッピングに基づくマッピング方法です。また、最も基本的な教師なし次元削減アルゴリズムでもあります。その目的は、データが最も変化する方向、または再構築エラーが最小になる方向に投影することです。これは 1901 年にカールピアソンによって提案され、線形次元削減法に属します。 PCA に関連する原理は、最大分散理論または最小誤差理論と呼ばれることがよくあります。これら 2 つの目標は同じですが、プロセスの焦点は異なります。

最大分散理論次元削減原理

N 次元ベクトルのセットを K 次元に縮小します (K は 0 より大きく N より小さい)。目標は、各フィールド間の COV(X,Y) が 0 になり、フィールドの分散が可能な限り大きくなるように、K 単位直交基底を選択することです。したがって、最大分散とは、投影されたデータの分散を最大化することです。このプロセスでは、データセットXmxnの最適な投影空間Wnxk、共分散行列などを見つける必要があります。アルゴリズムの流れは次のとおりです。

アルゴリズム入力: データセット Xmxn;
データセット X の平均 Xmean を列ごとに計算し、Xnew=X−Xmean と設定します。
行列Xnewの共分散行列を解き、それをCovとして記録します。
共分散行列 COv の固有値と対応する固有ベクトルを計算します。
固有値を大きい順に並べ替え、最大のkを選択し、対応するk個の固有ベクトルを列ベクトルとして使用して、固有ベクトル行列Wnxkを形成します。
XnewW を計算します。つまり、データセット Xnew を選択した固有ベクトルに投影して、必要な低次元データセット XnewW を取得します。

最小誤差理論次元削減原理

最小誤差は平均投影コストを最小化する線形投影です。このプロセスでは、二乗誤差評価関数 J0(x0) などのパラメータを見つける必要があります。

詳細な手順については、「主成分分析 (PCA) アルゴリズムを最初から実装する」を参照してください。
https://blog.csdn.net/u013719780/article/details/78352262

主成分分析（PCA）コードの実装

PCA アルゴリズムのコードは次のとおりです。

 __future__ からprint_functionをインポートする
 
 sklearnからデータセットをインポートする
 
 matplotlib.pyplot を plt としてインポートします。 
 
 matplotlib.cm を cmx としてインポートします。 
 
 matplotlib.colorsをcolorsとしてインポートする
 
 numpyをnpとしてインポートする
 
 %matplotlib インライン
 
 def shuffle_data(X, y, シード=なし): 
 
シードの場合: 
 
 np.random.seed(シード) 
 
 idx = np.arange(X.shape[ 0 ]) 
 
 np.ランダムシャッフル(idx) 
 
 X[idx]、y[idx]を返す
 
 # データセットXを正規化する
 
 def normalize(X, 軸=- 1 , p= 2 ): 
 
 lp_norm = np.atleast_1d(np.linalg.norm(X, p, 軸)) 
 
 lp_norm[lp_norm == 0 ] = 1   
 
 X / np.expand_dims(lp_norm, axis)を返す
 
 # データセットXを正規化する
 
 def標準化(X): 
 
 X_std = np.zeros(X.shape) 
 
平均 = X.平均(軸= 0 ) 
 
 std = X.std(軸= 0 ) 
 
 # 割り算をするときは、分母が0にならないことを常に覚えておいてください
 
 # X_std = (X - X.mean(axis= 0 )) / X.std(axis= 0 ) 
 
範囲(np.shape(X)[ 1 ])内の列の場合: 
 
 std[col]の場合: 
 
 X_std[:, col] = (X_std[:, col] - 平均[col]) / std[col] 
 
 X_stdを返す
 
 # データセットをトレーニングセットとテストセットに分割する
 
 def train_test_split(X, y, test_size= 0.2 , shuffle=True, seed=None): 
 
シャッフルの場合: 
 
 X, y = shuffle_data(X, y, シード) 
 
 n_train_samples = int (X.shape[ 0 ] * ( 1- test_size)) 
 
 x_train、x_test = X[:n_train_samples]、X[n_train_samples:] 
 
 y_train、y_test = y[:n_train_samples]、y[n_train_samples:] 
 
 x_train、x_test、y_train、y_testを返す
 
 # 行列Xの共分散行列を計算する
 
 def calculate_covariance_matrix(X, Y=np.empty(( 0 , 0 ))): 
 
そうでない場合: 
 
 Y = X 
 
 n_samples = np.shape(X)[ 0 ] 
 
共分散行列 = ( 1 / (n_samples - 1 )) * (X - X.mean(axis= 0 )).T.dot(Y - Y.mean(axis= 0 )) 
 
 np.array(共分散行列、dtype= float )を返します。 
 
 # データセットXの各列の分散を計算する
 
 def calculate_variance(X): 
 
 n_samples = np.shape(X)[ 0 ] 
 
分散 = ( 1 / n_samples ) * np.diag((X - X.mean(axis= 0 )).T.dot(X - X.mean(axis= 0 ))) 
 
リターンの差異
 
 # データセットXの各列の標準偏差を計算する
 
 def calculate_std_dev(X): 
 
 std_dev = np.sqrt(calculate_variance(X)) 
 
 std_devを返す
 
 # 相関係数行列を計算する
 
 def calculate_correlation_matrix(X, Y=np.empty([ 0 ])): 
 
 # 最初に共分散行列を計算する
 
共分散行列 = 共分散行列を計算する(X, Y) 
 
 # X、Yの標準偏差を計算する
 
 std_dev_X = np.expand_dims(calculate_std_dev(X), 1 ) 
 
 std_dev_y = np.expand_dims(calculate_std_dev(Y), 1 ) 
 
相関行列 = np.divide(共分散行列、std_dev_X.dot(std_dev_y.T)) 
 
 np.array(correlation_matrix, dtype= float )を返します。 
 
クラスPCA: 
 
 「」 「 」 
 
主成分分析アルゴリズム PCA、教師なし学習アルゴリズム。 
 
 「」 「 」 
 
 __init__(self)を定義します。 
 
 self.eigen_values = なし
 
 self.eigen_vectors = なし
 
自己.k = 2   
 
 def transform(self, X): 
 
 「」 「 」 
 
元のデータセットXはPCAによって次元が縮小される
 
 「」 「 」 
 
共分散 = calculate_covariance_matrix(X) 
 
 # 固有値と固有ベクトルを解く
 
 self.eigen_values、self.eigen_vectors = np.linalg.eig(共分散) 
 
 # 固有値を大きい順に並べます。固有ベクトルは列ごとに並べられていることに注意してください。つまり、self.eigen_vectors の k 番目の列は、self.eigen_values の k 番目の固有値に対応する固有ベクトルです。 
 
 idx = 自己.固有値.argsort[::- 1 ] 
 
固有値 = self.eigen_values[idx][:self.k] 
 
固有ベクトル = self.eigen_vectors[:, idx][:, :self.k] 
 
 # 元のデータセットXを低次元空間にマッピングする
 
 X_transformed = X.dot(固有ベクトル) 
 
 X_transformedを返す
 
定義メイン: 
 
 # データセットをロードする
 
データ = datasets.load_iris 
 
 X = データ.データ
 
 y = データ.ターゲット
 
 # データセットXをより低次元の空間にマッピングする
 
 X_trans = PCA.transform(X) 
 
 x1 = X_trans[:, 0 ] 
 
 x2 = X_trans[:, 1 ] 
 
 cmap = plt.get_cmap( 'viridis' ) 
 
 colors = [cmap(i) は iをnp.linspace( 0 , 1 , len(np.unique(y)))]に格納します。 
 
クラス_ディストリビューション = 
 
 # 異なるクラス分布をプロットする
 
 i, l が enumerate(np.unique(y)) の場合: 
 
 _x1 = x1[y == l] 
 
 _x2 = x2[y == l] 
 
 _y = y[y == l] 
 
 class_distr.append(plt.scatter(_x1, _x2, 色=colors[i])) 
 
 # 凡例を追加する
 
 plt.legend(class_distr, y, loc= 1 ) 
 
 # 軸ラベル
 
 plt.xlabel( '主成分1' ) 
 
 plt.ylabel( '主成分2' ) 
 
 plt.show 
 
 __name__ == "__main__"の場合: 
 
主要

最終的に、次のような次元削減結果が得られます。その中で、特徴数 (D) がサンプル数 (N) よりもはるかに大きい場合は、ちょっとしたトリックを使って PCA アルゴリズムの複雑さの変換を実現できます。

PCA 次元削減アルゴリズムのデモンストレーション

もちろん、このアルゴリズムは古典的でよく使用されていますが、その欠点も非常に明白です。線形相関を効果的に排除できますが、高次の相関に直面した場合、その効果は低くなります。同時に、PCA 実装の前提は、データの主な特徴が直交方向に分布していると仮定することです。したがって、非直交方向に大きな分散を持つ方向がいくつかある場合、PCA の効果は大幅に低下します。

その他の次元削減アルゴリズムとコードアドレス

KPCA (カーネル PCA)

KPCA はカーネル技術と PCA を組み合わせたものです。PCA との主な違いは、共分散行列を計算するときにカーネル関数が使用されること、つまりカーネル関数によってマッピングされた後の共分散行列が使用されることです。

カーネル関数の導入により、非線形データマッピングの問題を効果的に解決できます。 kPCA は非線形データを高次元空間にマッピングし、高次元空間で標準 PCA を使用してそれを別の低次元空間にマッピングすることができます。

KPCA 次元削減アルゴリズムのデモンストレーション

詳細については、「Python 機械学習」の特徴抽出 - kPCA を参照してください。
https://blog.csdn.net/weixin_40604987/article/details/79632888
コードアドレス:
https://github.com/heucoder/dimensionality_reduction_alo_codes/blob/master/codes/PCA/KPCA.py

LDA（線形判別分析）

LDA は、分類などのタスクで異なるクラスのサンプルを効果的に分離できるように、クラス間の差を最大化し、クラス内の差を最小化することを目的とした特徴抽出手法です。 LDA は、データ分析プロセスにおける計算効率を向上させ、正規化されていないモデルの次元の呪いによって引き起こされる過剰適合を軽減することができます。

LDA 次元削減アルゴリズムのデモンストレーション

詳細については、「データの次元削減 - 線形判別分析 (LDA)」を参照してください。
https://blog.csdn.net/ChenVast/article/details/79227945
コードアドレス:
https://github.com/heucoder/dimensionality_reduction_alo_codes/tree/master/codes/LDA

MDS（多次元尺度法）

MDS（多次元尺度法）は、直感的な空間グラフを使用して研究対象の認識や好みを表す従来の次元削減手法です。この方法では、任意の 2 つのサンプルポイント間の距離を計算し、低次元空間への投影後に相対距離を維持して投影を実現します。

sklearn の MDS は反復最適化を使用するため、反復手法と非反復手法の両方が以下で実装されています。

MDS 次元削減アルゴリズムのデモンストレーション

詳細については、「MDSアルゴリズム」を参照してください。
https://blog.csdn.net/zhangweiguo_717/article/details/69663452
コードアドレス:
https://github.com/heucoder/dimensionality_reduction_alo_codes/tree/master/codes/MDS

ISOマップ

Isomap は等尺性マッピングアルゴリズムであり、非線形構造データセットにおける MDS アルゴリズムの欠点を効果的に解決できます。

MDS アルゴリズムは次元削減後もサンプル間の距離を変更しませんが、Isomap アルゴリズムは近傍グラフを導入します。近傍グラフではサンプルが隣接するサンプルにのみ接続され、隣接するポイント間の距離が計算され、これに基づいて次元削減が実行され、距離が維持されます。

ISOMAP 次元削減アルゴリズムのデモンストレーション

詳細についてはIsomapを参照してください。
https://blog.csdn.net/zhangweiguo_717/article/details/69802312
コードアドレス:
https://github.com/heucoder/dimensionality_reduction_alo_codes/tree/master/codes/ISOMAP

LLE (局所線形埋め込み)

LLE は Local Linear Embedding の略で、非線形次元削減アルゴリズムです。アルゴリズムの核となる考え方は、各ポイントは複数の隣接ポイントの線形結合によって近似的に再構築でき、その後、高次元データを低次元空間に投影して、データポイント間のローカル線形再構築関係が維持されるようにする、つまり同じ再構築係数が得られるというものです。いわゆる多様体次元削減を扱う場合、PCA よりもはるかにうまく機能します。

LLE 次元削減アルゴリズムのデモンストレーション

詳細については、「LLEの原理と導出プロセス」を参照してください。
https://blog.csdn.net/scott198510/article/details/76099630
コードアドレス:
https://github.com/heucoder/dimensionality_reduction_alo_codes/tree/master/codes/LLE

t-SNE

t-SNE は非線形次元削減アルゴリズムでもあり、高次元データを 2 次元または 3 次元に削減して視覚化するのに非常に適しています。これは、データの元の傾向に基づいて、低次元 (2 次元または 3 次元) でのデータ傾向を再構築する、教師なし機械学習アルゴリズムです。

以下に示す結果はソースコードを参照しており、Tensorflow を使用して実装することもできます (パラメータを手動で更新する必要はありません)。

t-SNE 次元削減アルゴリズムのデモンストレーション

詳細については、「t-SNE の使用上の注意点」を参照してください。
http://bindog.github.io/blog/2018/07/31/t-sne-tips/
コードアドレス:
https://github.com/heucoder/dimensionality_reduction_alo_codes/tree/master/codes/T-SNE

LE (ラプラシアン固有マップ)

LE は Laplace Eigenmap の略で、LLE アルゴリズムに多少似ており、ローカルな観点からデータ間の関係を構築します。直感的な考え方としては、関連する点（グラフ内の接続された点）を縮小された次元空間内で可能な限り近くに保つことです。このようにして、多様体の幾何学的構造を反映した解を得ることができます。

LE次元削減アルゴリズムのデモンストレーション

詳細については、「ラプラシアン特徴マップの次元削減とその Python 実装」を参照してください。
https://blog.csdn.net/HUSTLX/article/details/50850342
コードアドレス:
https://github.com/heucoder/dimensionality_reduction_alo_codes/tree/master/codes/LE

LPP（局所保存投影）

LPP は局所性保存投影アルゴリズムです。その考え方はラプラス固有マップに似ています。中心となる考え方は、データセットの近傍構造情報を最適に保存して投影マッピングを構築することです。ただし、LPP は投影結果を直接取得するという点で LE とは異なります。投影行列を解く必要があります。

LPP 次元削減アルゴリズムのデモンストレーション

詳細については、「局所保存投影アルゴリズム (LPP) の詳細説明」を参照してください。
https://blog.csdn.net/qq_39187538/article/details/90402961
コードアドレス:
https://github.com/heucoder/dimensionality_reduction_alo_codes/tree/master/codes/LPP

*プロジェクト「dimensionality_reduction_alo_codes」の作者について

Heucoder は現在、ハルビン工業大学のコンピューター技術の修士課程に在籍しています。主にインターネット分野で活躍しています。彼の Zhihu でのニックネームは「Super Love Learning」です。彼の github ホームページアドレスは https://github.com/heucoder です。