次元削減アルゴリズムについて: PCA主成分分析

次元削減アルゴリズムについて: PCA主成分分析

機械学習の分野では、生データから特徴を抽出する際に、高次元の特徴ベクトルが得られることが多いです。これらの多機能高次元空間には、ある程度の冗長性とノイズが含まれています。そのため、次元削減を通じてデータの内部特性を見つけ出し、特徴表現能力を向上させ、モデルのトレーニングコストを削減したいと考えています。 PCA は古典的な次元削減アルゴリズムであり、線形、教師なし、グローバルな次元削減方法です。

1. PCAの原則

PCA の原理は線形マッピングです。簡単に言えば、高次元空間のデータを低次元空間に投影し、多くの情報を含む主成分を保持し、データの説明に重要でない二次情報を無視します。直交属性空間内のサンプルの場合、すべてのサンプルを適切に表現するために超平面をどのように使用できますか? このような超平面が存在する場合、次の 2 つのプロパティが必要です。

  • すべてのサンプル点と超平面間の距離は最短である
  • この超平面上のサンプル点の投影は可能な限り離れている

上記の 2 つの特性は、主成分分析の 2 つの同等の導出、つまり PCA 最小二乗誤差理論と PCA 最大分散理論です。この記事では、主に最大分散理論について説明します。 PCA の次元削減操作は、データの分散度が最も大きい方向 (分散が最も大きい方向) を第 1 主成分として選択し、第 2 主成分は第 1 主成分と直交する 2 番目に分散が大きい方向を選択します。このプロセスは、k 個の主成分が見つかるまで繰り返されます。

データ ポイントは主成分の方向で最も離散的であり、主成分ベクトルは互いに直交します。

2. PCAアルゴリズムの実装手順

1. すべてのデータ特徴を中央揃えして正規化し、サンプルの重心が原点になるように移動し、異なる特徴値の影響を排除して、統一された次元に変換します。

2. サンプルの共分散行列を計算する

共分散は、2 つのランダム変数の結合分布間の線形相関の度合いを測る尺度です。

3. 共分散行列の固有値と固有ベクトルを解く

注:1。対称マトリックスの固有ベクトルは相互に直交し、ドット製品は0。2。 2番目の最大の固有値に対応する固有ベクトルなど、最大の投影方向のスペース。同時に、主成分ベクトルの投影の分散を満たし、kの選択を決定する総分散の99%以上を説明します。

3. 次元削減のPython実装

1. 環境を設定し、関連パッケージをインポートする

2. データの読み取り

3. 特徴とラベルの列を読み取り、中心化と正規化を実行し、主成分の数を選択し、最初の2つの主成分の分散の合計が95%を超える

4. 次元削減後の機能を視覚化します。水平軸と垂直軸は 2 つの主成分を表し、色は結果のラベル分類を表します。その後の分析とモデリングは、主成分に基づいて実行できます。

以上でPCA主成分分析は終了です。この記事では、サンプルポイントの投影を超平面上でできるだけ分離するという導出原理について説明します。興味のある方は、サンプルポイントと超平面の距離が最短になるという別の同等の導出を学習してください。

<<:  単一のニューロンでも DNN 機能を実現でき、画像分類の精度は 98% です。

>>:  ウクライナ、写真を通じて殺害されたロシア兵の家族を発見?顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

ブログ    

推薦する

...

人工知能とビッグデータを完璧に組み合わせる方法

[[271155]]ビッグデータと AI ツールを組み合わせることで、新しい形式の分析と自動化が可能...

...

世界で最も引用率の高い中国の AI ジャーナルではどのような研究が行われていますか?

[[410109]]人工知能(AI)研究に関しては、中国が現在最もホットな国です。清華大学人工知能...

...

国産大型モデルの推論能力がGPT-3.5を超えた! OpenAI評価リストの第1層に入る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

マイクロソフト、データセンターに十分なAIチップが供給されない場合、サービスが中断すると警告

7月29日のニュース、海外メディアの報道によると、マイクロソフトは投資家に対し、グラフィックス・プロ...

人工知能によって人々の仕事が失われることは確実だが、仕事がなくなることはないと言われているのはなぜでしょうか。

1956年に人工知能の概念が提案されて以来、人工知能と労働市場の関係については議論されてきました。...

2021 年に備えるべきビジネス インテリジェンスのトレンド トップ 10

2020 年には多くの業界セクターが根本的な変化を経験しましたが、ビジネス インテリジェンス業界も...

CVとNLPにおける対照学習の研究の進展

[[423166]]対照学習(CV)比較学習は何をするのでしょうか?教師ありトレーニングの典型的な問...

MITは液体のような動的変化に適応できるLiquid機械学習システムを提案

自動運転などの多くの重要なアプリケーションでは、データはリアルタイムかつ動的であり、予期しない状況が...

...

デジタルビジネスにおける AI の 6 つの設計原則

人工知能 (AI) は、現在人間が行っている意思決定やタスクを補強し、自動化する機能を備えているため...

...

脳とコンピューターのインターフェースのための新しい「接着剤」が発明され、人間と機械の融合「サイボーグ」における新たな進歩がもたらされる

マスク氏の脳コンピューターインターフェースは「人間でテスト」されようとしているが、侵襲的な脳コンピュ...