機械学習でよく使われる7つの線形次元削減手法の概要

前回の記事では主に非線形次元削減手法についてまとめました。この記事では、一般的な線形次元削減手法についてまとめます。

1. 主成分分析（PCA）

主成分分析 (PCA) は、データセットの主な特徴を保持しながら、高次元データセットを低次元表現に変換するために使用される、一般的に使用される次元削減手法です。 PCA の目的は、データ内の最大分散の方向 (主成分) を見つけ、その方向にデータを投影することで次元削減を実現することです。

PCA の主な考え方は、線形変換を通じて元のデータを新しい座標系にマッピングし、新しい座標系でのデータの分散を最大化することです。これらの新しい軸は主成分と呼ばれ、元の特徴の線形結合です。分散が最も大きい主成分を保持することで、データ内の最も重要な情報を保持でき、分散が小さい主成分を破棄することで次元削減の効果を実現できます。

PCA の手順は次のとおりです。

標準化されたデータ: 各特徴の平均が 0、分散が 1 になるように元のデータを標準化します。
共分散行列の計算: 標準化されたデータの共分散行列を計算します。
固有値と固有ベクトルを計算する: 共分散行列に対して固有値分解を実行して、固有値と対応する固有ベクトルを取得します。
主成分の選択: 固有値のサイズに応じて、最初の k 個の固有ベクトルを主成分として選択します。ここで、k は次元削減後の次元です。
投影データ: 元のデータを選択した主成分に投影して、次元が削減されたデータセットを取得します。

PCA は、データの視覚化、ノイズ除去、計算量の削減などに使用できます。ただし、PCA ではデータが線形に分離可能であると想定されるため、PCA を適用する前にデータの前処理と理解が必要になることに注意してください。

2. 因子分析（FA）

因子分析 (FA) は、観測された変数間の根本的な構造または因子を調査するために使用される統計的手法です。観測された変数間の共通の変動を説明する潜在的な要因を見つけ、それらをより少数の無関係な変数に減らそうとします。

FA と PCA は多少似ていますが、いくつか重要な違いがあります。

目的: PCA は最大分散の方向を見つけることを目的とし、FA は観測された変数間の共通の変動を説明できる潜在変数 (要因) を見つけることを目的とします。
仮定: PCA では、観測変数は観測された元の特徴であると想定しますが、FA では、観測変数は潜在因子とランダム誤差の線形結合の合計であると想定します。
解釈可能性: PCA は、主成分が元の特徴の線形結合であるため、より簡単な傾向があります。一方、FA 因子は、生の特徴ではなく観測変数の線形結合であるため、解釈が難しい場合があります。
回転: FA では、解釈を容易にするために因子が回転されることがよくあります。

FA は、心理学、社会科学、市場調査など、多くの分野に応用されています。データセットを簡素化したり、潜在的な構造を識別したり、測定エラーを削減したりするために使用できます。ただし、結果の解釈可能性と妥当性を確保するには、適切な因子数と因子回転方法を慎重に選択する必要があります。

3. 線形判別分析（LDA）

線形判別分析 (LDA) は、次元削減と特徴抽出のための教師あり学習手法です。データの分散構造だけでなく、データのカテゴリ情報も考慮する点で、主成分分析 (PCA) とは異なります。 LDA は、異なるクラス間の距離 (クラス間拡散) を最大化し、同じクラス内の距離 (クラス内拡散) を最小化する投影方向を見つけることを目指します。

LDA の主な手順は次のとおりです。

カテゴリの平均ベクトルを計算します。各カテゴリについて、そのカテゴリ内のすべてのサンプルの平均ベクトルを計算します。
クラス内散布行列を計算します。クラスごとに、そのクラス内のすべてのサンプルとその平均ベクトル間の散布行列を計算し、それらを合計します。
クラス間散布行列を計算する: すべてのクラスの平均ベクトルと全体の平均ベクトル間の散布行列を計算します。
固有値と固有ベクトルの計算：行列の逆行列にクラス間散布行列を乗算し、結果の行列に対して固有値分解を実行し、固有値と固有ベクトルを取得します。
投影方向を選択: 最大の固有値を持つ最初の k 個の固有ベクトルを投影方向として選択します。ここで、k は次元削減後の次元です。
投影データ: 元のデータを選択した投影方向に投影して、次元が削減されたデータを取得します。

LDA の利点は、データのカテゴリ情報を考慮に入れるため、生成された投影が異なるカテゴリ間の違いをより適切に区別できることです。パターン認識、顔認識、音声認識などの分野で幅広い用途があります。 LDA は、複数クラスおよびクラスの不均衡な状況に対処する際にいくつかの問題が発生する可能性があり、特別な注意が必要です。

4. 固有値分解

固有値分解（固有値分解）は、行列を分解する数学的な手法です。正方行列を固有ベクトルと固有値の積の集合に分解します。固有ベクトルは変換中に方向が変化しない方向を表し、固有値は変換中にそれらの方向に沿ったスケーリングを表します。

正方行列 AA が与えられた場合、その固有値分解は次のように表されます。

このうち、QはAの固有ベクトルから構成される行列であり、Λは対角要素がAの固有値である対角行列です。

固有値分解には、主成分分析 (PCA)、固有顔認識、スペクトルクラスタリングなど、多くの用途があります。 PCA では、固有値分解を使用してデータ共分散行列の固有ベクトルを見つけ、データの主成分を見つけます。スペクトルクラスタリングでは、クラスタリングの類似性グラフの固有ベクトルを見つけるために、固有値分解が使用されます。固有顔認識では、固有値分解を使用して顔画像内の重要な特徴を識別します。

固有値分解は多くのアプリケーションで非常に役立ちますが、すべての正方行列を分解できるわけではありません。たとえば、特異行列や非正方行列は固有値分解できません。固有値分解は、大規模な行列では計算コストが高くなる可能性があります。

5. 特異値分解（SVD）

特異値分解 (SVD) は行列分解の重要な手法です。行列を、直交行列、対角行列、および別の直交行列の転置の 3 つの行列の積に分解します。

m × n 行列 AA が与えられた場合、その特異値分解は次のように表されます。

このうち、U は m × m の直交行列で、左特異ベクトル行列と呼ばれます。Σ は m × n の対角行列で、その対角要素は特異値と呼ばれます。VT は n × n の直交行列の転置で、右特異ベクトル行列と呼ばれます。

特異値分解は、データ圧縮、次元削減、逆行列解法、推奨システムなど、幅広い用途に使用されます。次元削減では、特異値の大きい項目のみが保持されるため、データの効果的な圧縮と表現を実現できます。推奨システムでは、ユーザーとアイテムの関係を特異値分解によってモデル化できるため、パーソナライズされた推奨を提供できます。

特異値分解は、特に特異行列の逆行列を解くためにも使用できます。大きな特異値を持つ項目を保持することで、逆行列を近似的に解くことができ、特異行列を反転する問題を回避できます。

6. 切り捨て特異値分解（TSVD）

切り捨て特異値分解 (TSVD) は、特異値分解 (SVD) の変形です。計算で最も重要な特異値と対応する特異ベクトルのみを保持することで、次元削減とデータ圧縮を実現します。

m × n 行列 AA が与えられた場合、その切り捨て特異値分解は次のように表されます。

このうち、Ukはm×k直交行列、Σkはk×k対角行列、VkTはk×n直交行列の転置行列であり、最も重要なk個の特異値とそれに対応する特異ベクトルを保持することに対応しています。

TSVD の主な利点は、最も重要な特異値と特異ベクトルを保持することでデータの次元削減と圧縮を実現し、ストレージと計算コストを削減できることです。これは、必要なストレージスペースと計算時間を大幅に削減できるため、大規模なデータセットを扱う場合に特に便利です。

TSVD は、画像処理、信号処理、推奨システムなど、多くの分野で応用されています。これらのアプリケーションでは、TSVD を使用して、データの次元を削減したり、ノイズを除去したり、主要な特徴を抽出したりすることができます。

7. 非負値行列分解（NMF）

非負値行列因子分解 (NMF) は、分解された行列とベクトルが非負であるデータ分解と次元削減の手法です。これにより、NMF は多くのアプリケーション、特にテキストマイニング、画像処理、推奨システムなどの分野で役立ちます。

非負行列 VV が与えられると、NMF はそれを 2 つの非負行列 WW と HH の積に分解します。

このうち、W は基底行列または特徴行列と呼ばれる m × k の非負行列であり、H は係数行列と呼ばれる k × n の非負行列です。ここでkは次元削減後の次元です。

NMF の利点は、すべての要素が非負であるため、物理的に意味のある分解結果を得ることができることです。これにより、NMF はテキストマイニングで潜在的なトピックを発見し、画像処理で画像の特徴を抽出できるようになります。さらに、NMF にはデータ次元削減機能もあり、データの次元と保存スペースを削減できます。

NMF のアプリケーションには、テキストトピックモデリング、画像のセグメンテーションと圧縮、オーディオ信号処理、推奨システムなどがあります。これらの分野では、NMF はデータ分析や特徴抽出、情報検索や分類タスクに広く使用されています。

要約する

線形次元削減技術は、高次元データセットを低次元空間にマッピングするために使用される技術の一種です。その中心となる考え方は、線形変換によってデータセットの主な特徴を保持することです。これらの線形次元削減手法には、さまざまなアプリケーションシナリオで独自の利点と適用性があり、データの性質とタスクの要件に応じて適切な方法を選択できます。たとえば、PCA は教師なしデータの次元削減に適していますが、LDA は教師あり学習タスクに適しています。

前回の記事と合わせて、非線形次元削減手法 10 個と線形次元削減手法 7 個を紹介しました。以下にまとめてみましょう。

線形次元削減技術: 線形変換に基づいてデータを低次元空間にマッピングし、線形に分離可能なデータセットに適しています。たとえば、データポイントが線形サブスペースに分散している場合などです。アルゴリズムが単純なため、計算効率が高く、理解と実装が容易です。通常、データ内の非線形構造をキャプチャできず、情報損失が発生する可能性があります。

非線形次元削減技術: 非線形変換によってデータを低次元空間にマッピングします。データポイントが多様体上に分散している場合など、非線形構造を持つデータセットに適しています。データ内の非線形構造とローカル関係をより適切に保持し、より優れた視覚化効果を提供できます。計算の複雑さが高く、通常はより多くの計算リソースと時間が必要です。

データが線形に分離可能であるか、計算リソースが限られている場合は、線形次元削減手法を選択できます。データに複雑な非線形構造が含まれている場合、またはより優れた視覚化が必要な場合は、非線形次元削減手法の使用を検討できます。実際には、さまざまな方法を試して、実際の結果に基づいて最も適切な次元削減手法を選択することもできます。

<<:

>>: AI企業は米国政府に安全性テストを報告することが義務付けられる