機械学習の分野では、生データから特徴を抽出する際に、高次元の特徴ベクトルが得られることが多いです。これらの多機能高次元空間には、ある程度の冗長性とノイズが含まれています。そのため、次元削減を通じてデータの内部特性を見つけ出し、特徴表現能力を向上させ、モデルのトレーニングコストを削減したいと考えています。 PCA は古典的な次元削減アルゴリズムであり、線形、教師なし、グローバルな次元削減方法です。 1. PCAの原則PCA の原理は線形マッピングです。簡単に言えば、高次元空間のデータを低次元空間に投影し、多くの情報を含む主成分を保持し、データの説明に重要でない二次情報を無視します。直交属性空間内のサンプルの場合、すべてのサンプルを適切に表現するために超平面をどのように使用できますか? このような超平面が存在する場合、次の 2 つのプロパティが必要です。
上記の 2 つの特性は、主成分分析の 2 つの同等の導出、つまり PCA 最小二乗誤差理論と PCA 最大分散理論です。この記事では、主に最大分散理論について説明します。 PCA の次元削減操作は、データの分散度が最も大きい方向 (分散が最も大きい方向) を第 1 主成分として選択し、第 2 主成分は第 1 主成分と直交する 2 番目に分散が大きい方向を選択します。このプロセスは、k 個の主成分が見つかるまで繰り返されます。 データ ポイントは主成分の方向で最も離散的であり、主成分ベクトルは互いに直交します。 2. PCAアルゴリズムの実装手順1. すべてのデータ特徴を中央揃えして正規化し、サンプルの重心が原点になるように移動し、異なる特徴値の影響を排除して、統一された次元に変換します。 2. サンプルの共分散行列を計算する 共分散は、2 つのランダム変数の結合分布間の線形相関の度合いを測る尺度です。 3. 共分散行列の固有値と固有ベクトルを解く 注:1。対称マトリックスの固有ベクトルは相互に直交し、ドット製品は0。2。 2番目の最大の固有値に対応する固有ベクトルなど、最大の投影方向のスペース。同時に、主成分ベクトルの投影の分散を満たし、kの選択を決定する総分散の99%以上を説明します。 3. 次元削減のPython実装1. 環境を設定し、関連パッケージをインポートする 2. データの読み取り 3. 特徴とラベルの列を読み取り、中心化と正規化を実行し、主成分の数を選択し、最初の2つの主成分の分散の合計が95%を超える 4. 次元削減後の機能を視覚化します。水平軸と垂直軸は 2 つの主成分を表し、色は結果のラベル分類を表します。その後の分析とモデリングは、主成分に基づいて実行できます。 以上でPCA主成分分析は終了です。この記事では、サンプルポイントの投影を超平面上でできるだけ分離するという導出原理について説明します。興味のある方は、サンプルポイントと超平面の距離が最短になるという別の同等の導出を学習してください。 |
<<: 単一のニューロンでも DNN 機能を実現でき、画像分類の精度は 98% です。
>>: ウクライナ、写真を通じて殺害されたロシア兵の家族を発見?顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている
一般の人々は自動運転車についてどう思っているのだろうか?市場調査会社CarGurusは最近、将来の自...
[[333414]]機械学習における「アルゴリズム」とは何ですか?機械学習における「アルゴリズム」と...
OpenAI が最初に Sora を作成した理由は何ですか?現在、世界中の研究者、エンジニア、投資家...
対称暗号化アルゴリズムはどのようにして ASP.NET データ暗号化を実装するのでしょうか?それでは...
日常のチャットでは、文脈が重要です。 TensorFlow を使用してチャットボット フレームワーク...
2020 年に世界中の企業の 42% がサイバー攻撃を受けたことをご存知ですか? サイバー犯罪者が...
この記事では、まだ使ったことがないかもしれないオープンソースの機械学習ツールを21個紹介します。各オ...
家が施錠されていなければ、誰でも勝手に入ることができ、暗号化なしでデータを勝手に変更できてしまうと、...
実際のアプリケーションでは、顔認識は認識精度に対する要求が高いだけでなく、高い効率も求められます。特...
今年に入ってから、新型コロナウイルス感染症の継続的な感染拡大により世界的に景気が低迷し、多くの国や地...
著者 | ツァミア・アンサリ企画 | ヤン・ジェンマイクロソフトは、ソフトウェア大手の元CEO、ステ...