次元削減アルゴリズムについて: PCA主成分分析

次元削減アルゴリズムについて: PCA主成分分析

機械学習の分野では、生データから特徴を抽出する際に、高次元の特徴ベクトルが得られることが多いです。これらの多機能高次元空間には、ある程度の冗長性とノイズが含まれています。そのため、次元削減を通じてデータの内部特性を見つけ出し、特徴表現能力を向上させ、モデルのトレーニングコストを削減したいと考えています。 PCA は古典的な次元削減アルゴリズムであり、線形、教師なし、グローバルな次元削減方法です。

1. PCAの原則

PCA の原理は線形マッピングです。簡単に言えば、高次元空間のデータを低次元空間に投影し、多くの情報を含む主成分を保持し、データの説明に重要でない二次情報を無視します。直交属性空間内のサンプルの場合、すべてのサンプルを適切に表現するために超平面をどのように使用できますか? このような超平面が存在する場合、次の 2 つのプロパティが必要です。

  • すべてのサンプル点と超平面間の距離は最短である
  • この超平面上のサンプル点の投影は可能な限り離れている

上記の 2 つの特性は、主成分分析の 2 つの同等の導出、つまり PCA 最小二乗誤差理論と PCA 最大分散理論です。この記事では、主に最大分散理論について説明します。 PCA の次元削減操作は、データの分散度が最も大きい方向 (分散が最も大きい方向) を第 1 主成分として選択し、第 2 主成分は第 1 主成分と直交する 2 番目に分散が大きい方向を選択します。このプロセスは、k 個の主成分が見つかるまで繰り返されます。

データ ポイントは主成分の方向で最も離散的であり、主成分ベクトルは互いに直交します。

2. PCAアルゴリズムの実装手順

1. すべてのデータ特徴を中央揃えして正規化し、サンプルの重心が原点になるように移動し、異なる特徴値の影響を排除して、統一された次元に変換します。

2. サンプルの共分散行列を計算する

共分散は、2 つのランダム変数の結合分布間の線形相関の度合いを測る尺度です。

3. 共分散行列の固有値と固有ベクトルを解く

注:1。対称マトリックスの固有ベクトルは相互に直交し、ドット製品は0。2。 2番目の最大の固有値に対応する固有ベクトルなど、最大の投影方向のスペース。同時に、主成分ベクトルの投影の分散を満たし、kの選択を決定する総分散の99%以上を説明します。

3. 次元削減のPython実装

1. 環境を設定し、関連パッケージをインポートする

2. データの読み取り

3. 特徴とラベルの列を読み取り、中心化と正規化を実行し、主成分の数を選択し、最初の2つの主成分の分散の合計が95%を超える

4. 次元削減後の機能を視覚化します。水平軸と垂直軸は 2 つの主成分を表し、色は結果のラベル分類を表します。その後の分析とモデリングは、主成分に基づいて実行できます。

以上でPCA主成分分析は終了です。この記事では、サンプルポイントの投影を超平面上でできるだけ分離するという導出原理について説明します。興味のある方は、サンプルポイントと超平面の距離が最短になるという別の同等の導出を学習してください。

<<:  単一のニューロンでも DNN 機能を実現でき、画像分類の精度は 98% です。

>>:  ウクライナ、写真を通じて殺害されたロシア兵の家族を発見?顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

米国の自動車所有者調査:自動運転車に楽観的な自動車所有者が増えている

一般の人々は自動運転車についてどう思っているのだろうか?市場調査会社CarGurusは最近、将来の自...

...

機械学習におけるアルゴリズムとモデルの違い

[[333414]]機械学習における「アルゴリズム」とは何ですか?機械学習における「アルゴリズム」と...

なぜSoraはOpenAIから生まれたのでしょうか?最前線で働く従業員の勤務と休息のタイムラインの秘密:私たちは

OpenAI が最初に Sora を作成した理由は何ですか?現在、世界中の研究者、エンジニア、投資家...

ASP.NET データ暗号化を実現する対称暗号化アルゴリズム

対称暗号化アルゴリズムはどのようにして ASP.NET データ暗号化を実装するのでしょうか?それでは...

...

...

TensorFlow を使用したコンテキスト チャットボットの実装

日常のチャットでは、文脈が重要です。 TensorFlow を使用してチャットボット フレームワーク...

サイバー犯罪者はAIを利用してマルウェア攻撃ソフトウェアにサンドボックスを作成

2020 年に世界中の企業の 42% がサイバー攻撃を受けたことをご存知ですか? サイバー犯罪者が...

5 つの主要分野をカバーする、知っておくべき 21 のオープンソース機械学習ツール

この記事では、まだ使ったことがないかもしれないオープンソースの機械学習ツールを21個紹介します。各オ...

...

体験談まとめ VB.NET 暗号化アルゴリズムの分類

家が施錠されていなければ、誰でも勝手に入ることができ、暗号化なしでデータを勝手に変更できてしまうと、...

顔認識の速度に影響を与える要因は何ですか?

実際のアプリケーションでは、顔認識は認識精度に対する要求が高いだけでなく、高い効率も求められます。特...

人工知能は本当に人間の仕事を置き換えるのでしょうか?

今年に入ってから、新型コロナウイルス感染症の継続的な感染拡大により世界的に景気が低迷し、多くの国や地...

マイクロソフト、2023年までに8つの人工知能プロジェクトをオープンソース化へ

著者 | ツァミア・アンサリ企画 | ヤン・ジェンマイクロソフトは、ソフトウェア大手の元CEO、ステ...