機械学習における次元削減とは何ですか?

【51CTO.com クイック翻訳】機械学習アルゴリズムは、数十行の表や数百万ピクセルの画像など、多くの特徴を持つデータから関連情報を抽出できることで知られています。クラウドコンピューティングの進歩により、組織は、その背後でどれだけのコンピューティング能力が必要かを心配することなく、大規模な機械学習モデルを簡単に実行できるようになりました。

ただし、組織がモデルに新しい機能を追加するたびにモデルの複雑さが増し、機械学習アルゴリズムが解決するのが難しくなります。データサイエンティストは、機械学習モデルから余分な機能や無関係な機能を削除する一連の技術である次元削減技術を使用して簡素化することでこれを実現します。

次元削減により機械学習のコストが削減され、複雑な問題をより単純なモデルで解決できるようになる場合もあります。

次元の問題

[[401035]]

機械学習モデルは特徴を結果にマッピングします。たとえば、ある組織が 1 か月の降雨量を予測する機械モデルを作成したいとします。組織には、さまざまな都市からさまざまな月に収集されたさまざまな情報のデータセットがあります。データポイントには、気温、湿度、都市の人口、交通量、市内で開催されるコンサートの数、風速、風向、気圧、降雨量、購入されたバスチケットの数などが含まれます。この情報のすべてが降雨予報に関連するわけではありません。

一部の機能はターゲット変数と相関しない可能性があります。バスチケットの購入数や都市の人口が降雨量に影響を与えないことは明らかです。その特徴はターゲット変数と相関関係にある可能性がありますが、ターゲット変数との因果関係はありません。たとえば、屋外コンサートの数は降雨量と相関関係にあるかもしれませんが、降雨量を予測する良い指標にはなりません。その他のケース（炭素排出量など）では、特徴とターゲット変数の間に関係がある可能性がありますが、その影響はごくわずかです。

この例では、どの機能がより価値があり、どの機能が役に立たないかが明らかです。他のユースケースでは、多数の機能が明らかではない可能性があり、さらにデータ分析が必要になる場合があります。

しかし、なぜ冗長な機能を削除するのでしょうか? 機能が多すぎると、より複雑なモデルが必要になります。また、モデルが複雑になるということは、モデルを許容レベルまでトレーニングするために、組織がより多くのトレーニングデータとより多くの計算能力を必要とすることを意味します。

機械学習は因果関係を理解しません。しかし、因果関係がない場合でも、機械学習モデルはデータセットに含まれるすべての特徴をターゲット変数にマッピングしようとします。そうすると、モデルの不正確さとエラーが発生します。一方、特徴の数を減らすと、機械学習モデルはよりシンプルで効率的になり、データ集約度が低くなります。

機能が多すぎることによって引き起こされる問題は、しばしば「次元の呪い」と呼ばれ、表形式のデータに限定されません。たとえば、画像を分類する機械学習モデル。データセットが 100×100 ピクセルの画像で構成されている場合、問題空間には各ピクセルに 1 つずつ、合計 10,000 個の特徴が含まれます。ただし、画像分類の問題であっても、一部の機能は冗長であり、削除することができます。

次元削減により、機械学習モデルのパフォーマンスを低下させたり、精度に貢献しない特徴を識別して削除できます。次元削減手法は数多くあり、それぞれが特定の状況で役立ちます。

特徴選択

基本的かつ非常に効果的な次元削減手法は、ターゲット変数と最も相関する特徴のサブセットを識別して選択することです。この手法は「特徴選択」と呼ばれます。特徴選択は、各列が特定の種類の情報を表す表形式のデータを扱う場合に特に効果的です。

特徴を選択する際、データサイエンティストは次の 2 つのことを行う必要があります。1 つ目は、ターゲット変数と相関性の高い特徴を保持すること、2 つ目は、データセットの分散寄与を最大化することです。 Python の Scikit-learn などのライブラリには、機械学習モデルに適した特徴を分析、視覚化、選択するための優れた機能が数多くあります。

たとえば、データサイエンティストは散布図やヒートマップを使用して、さまざまな機能の共分散を視覚化できます。 2 つの特徴が相互に高い相関関係にある場合、それらはターゲット変数に同様の影響を与えるため、機械学習モデルに両方の特徴を含める必要はありません。したがって、モデルのパフォーマンスに悪影響を与えることなく、機能の 1 つを削除することができます。

ヒートマップは、さまざまな機能間の共分散を示し、冗長な機能を見つけて排除するための優れたガイドとなります。

同じツールを使用すると、特徴とターゲット変数間の相関関係を視覚化できます。これは、ターゲットに影響を与えない変数を削除するのに役立ちます。たとえば、データセット内の 25 個の特徴のうち、7 個の特徴がターゲット変数への影響の 95% を占めていることがわかります。これにより、他の 18 個の機能が削除され、モデルの精度に大きな影響を与えることなく、機械学習モデルの使用がはるかに簡単になります。

プロジェクション技術

場合によっては、組織に単一の機能を削除するオプションがないことがあります。しかし、これは機械学習モデルを簡素化できないという意味ではありません。「特徴抽出」とも呼ばれる投影技術は、複数の特徴をより低次元の空間に圧縮することでモデルを簡素化します。

投影技術を表すために使用される一般的な例は「スイスロール」（下図）です。これは、3 次元の周りをロール上で回転するデータポイントのセットです。このデータセットには 3 つの特徴があります。各ポイント（ターゲット変数）の値は、「スイスロール」の中心からの複雑なパスに沿った距離に基づいて測定されます。下の図では、赤い点はリールに近く、黄色い点はリールから遠く離れています。

現状では、スイスロールポイントの特徴をその価値にマッピングする機械学習モデルを作成することは困難な作業であり、多くのパラメータを持つ複雑なモデルが必要です。しかし、次元削減技術の助けを借りれば、これらのポイントは、単純な機械学習モデルによって学習できる低次元空間に投影することができます。

データサイエンティストはさまざまな予測手法を開発してきました。上記の例では、局所線形埋め込みアルゴリズムが使用されており、データポイントの値を分離する主要な要素を保持しながら、問題空間の次元を削減しています。データが Locally Linear Embedding (LLE) を使用して処理されると、結果は次の画像のようになり、展開された「スイスロール」のように見えます。各色のドットが集まっています。実際、この問題は単一の特徴に簡略化し、線形回帰（最も単純な機械学習アルゴリズム）を使用してモデル化することができます。

この例は仮説的ですが、特徴をより低次元の空間に投影すると、簡略化できる問題に遭遇することがよくあります。たとえば、一般的な次元削減アルゴリズム「主成分分析」(PCA) は、機械学習の問題を簡素化するために多くの有用な用途が見出されています。

書籍『Machine Learning with Python』では、データサイエンティストの Aurelien Geron が、「主成分分析」(PCA) を使用して、MNIST データセットを 95% の分散を維持しながら 784 個の特徴 (28×28 ピクセル) から 150 個の特徴に削減する方法を説明しています。この次元削減技術は、人工ニューラルネットワークのトレーニングと実行のコストの削減に大きな影響を与えます。

投影技術に関しても考慮すべき点がいくつかあります。投影技術を採用したら、新しいデータポイントを機械学習モデルに通す前に、まず低次元空間に変換する必要があります。ただし、この前処理手順のコストは、軽量モデルを使用することによるメリットとは比較になりません。考慮すべき 2 番目の問題は、変換されたデータポイントが元の特徴を直接表すものではなく、元の空間に戻すのが難しく、場合によっては不可能になる可能性があることです。これにより、モデルの推論を解釈することが困難になる可能性があります。