次元削減アルゴリズムについて: PCA主成分分析

次元削減アルゴリズムについて: PCA主成分分析

機械学習の分野では、生データから特徴を抽出する際に、高次元の特徴ベクトルが得られることが多いです。これらの多機能高次元空間には、ある程度の冗長性とノイズが含まれています。そのため、次元削減を通じてデータの内部特性を見つけ出し、特徴表現能力を向上させ、モデルのトレーニングコストを削減したいと考えています。 PCA は古典的な次元削減アルゴリズムであり、線形、教師なし、グローバルな次元削減方法です。

1. PCAの原則

PCA の原理は線形マッピングです。簡単に言えば、高次元空間のデータを低次元空間に投影し、多くの情報を含む主成分を保持し、データの説明に重要でない二次情報を無視します。直交属性空間内のサンプルの場合、すべてのサンプルを適切に表現するために超平面をどのように使用できますか? このような超平面が存在する場合、次の 2 つのプロパティが必要です。

  • すべてのサンプル点と超平面間の距離は最短である
  • この超平面上のサンプル点の投影は可能な限り離れている

上記の 2 つの特性は、主成分分析の 2 つの同等の導出、つまり PCA 最小二乗誤差理論と PCA 最大分散理論です。この記事では、主に最大分散理論について説明します。 PCA の次元削減操作は、データの分散度が最も大きい方向 (分散が最も大きい方向) を第 1 主成分として選択し、第 2 主成分は第 1 主成分と直交する 2 番目に分散が大きい方向を選択します。このプロセスは、k 個の主成分が見つかるまで繰り返されます。

データ ポイントは主成分の方向で最も離散的であり、主成分ベクトルは互いに直交します。

2. PCAアルゴリズムの実装手順

1. すべてのデータ特徴を中央揃えして正規化し、サンプルの重心が原点になるように移動し、異なる特徴値の影響を排除して、統一された次元に変換します。

2. サンプルの共分散行列を計算する

共分散は、2 つのランダム変数の結合分布間の線形相関の度合いを測る尺度です。

3. 共分散行列の固有値と固有ベクトルを解く

注:1。対称マトリックスの固有ベクトルは相互に直交し、ドット製品は0。2。 2番目の最大の固有値に対応する固有ベクトルなど、最大の投影方向のスペース。同時に、主成分ベクトルの投影の分散を満たし、kの選択を決定する総分散の99%以上を説明します。

3. 次元削減のPython実装

1. 環境を設定し、関連パッケージをインポートする

2. データの読み取り

3. 特徴とラベルの列を読み取り、中心化と正規化を実行し、主成分の数を選択し、最初の2つの主成分の分散の合計が95%を超える

4. 次元削減後の機能を視覚化します。水平軸と垂直軸は 2 つの主成分を表し、色は結果のラベル分類を表します。その後の分析とモデリングは、主成分に基づいて実行できます。

以上でPCA主成分分析は終了です。この記事では、サンプルポイントの投影を超平面上でできるだけ分離するという導出原理について説明します。興味のある方は、サンプルポイントと超平面の距離が最短になるという別の同等の導出を学習してください。

<<:  単一のニューロンでも DNN 機能を実現でき、画像分類の精度は 98% です。

>>:  ウクライナ、写真を通じて殺害されたロシア兵の家族を発見?顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

Google: 2020年5月のコアアルゴリズムアップデート、多数のウェブサイトに影響

Google のアルゴリズムは毎年何百回も更新されます (Google は通常、これらの更新について...

...

...

オタクのためのオープンソースドローンプロジェクト4つ

[[178638]] [51CTO.com クイック翻訳]過去数年間で、民間および商用ドローンへの関...

...

2019年にロボット競争は減速するでしょうか?

[[253005]] 「中国製造2025」の実施に伴い、ロボット産業は社会への参入を加速し始めてい...

AIを安全で信頼できるものにするためには、まずアルゴリズムの一般化能力を理解することから始める

ディープラーニング システムは、新しいデータに対してどの程度のパフォーマンス (一般化) を発揮しま...

アルゴリズム学者: 複雑なデータ世界のブラックボックスを開く人々

この記事は、Viktor Mayer-Schönberger と Kennedy Cukier によ...

...

AIが自動運転データセンターを構築する方法

人工知能 (AI) に関する議論のほとんどは、自動運転車、チャットボット、デジタルツイン、ロボット工...

自動車学校がロボットコーチカーを導入:全行程を通じて優しい音声ガイド、コーチに怒鳴られる必要はもうない

[[356945]]人工知能技術の急速な発展により、SF映画のシーンが現実のものとなった。メディアの...

リスト管理?機械学習のためのデータセット

[[440033]]データが機械学習において重要な役割を果たすことは否定できません。各機械学習モデル...

...

...