機械学習の次元削減手法で「次元の呪い」を打破する

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

機械学習を使用する際、無関係な特徴が多すぎてモデルのパフォーマンスが低下することに悩まされることがよくありますか?

実際、次元削減は機械学習においてこの問題を解決する良い方法です。

有名なテクノロジーブロガーのBen Dickson氏がこの件について議論し、TechTalks に「機械学習: 次元削減とは何か」というタイトルのブログを公開しました。この記事の編集と編集はBen Dickson 氏本人の許可を得ています。

彼は、機械学習アルゴリズムが人気を集めているのは、数十行の表や数百万ピクセルの画像など、多くの特徴を持つデータセットから関連情報を見つけることができるためだと指摘した。

クラウドコンピューティングの進歩により、ユーザーは舞台裏のコンピューティング能力を気にすることなく、大規模な機械学習モデルを実行できるようになります。

ただし、新しい機能が追加されるたびに複雑さが増し、機械学習アルゴリズムの使用が難しくなります。

データサイエンティストは、機械学習モデルから冗長な機能や無関係な機能を削除するための一連の手法である次元削減をよく使用します。

次元削減により機械学習のコストが削減され、複雑な問題をより単純なモデルで解決できる場合もあります。

以下の彼の記事を見てみましょう。

次元の呪い

機械学習モデルは、特徴を結果にマッピングできます。

たとえば、1 か月間の降雨量を予測するモデルを作成するとします。

気温、湿度、都市の人口、交通量、都市で開催されるコンサートの数、風速、風向、気圧、購入されたバスチケットの数、降雨量など、さまざまな都市からさまざまな月に収集されたさまざまな情報のデータセットがあります。

明らかに、この情報のすべてが降雨予報に関連しているわけではありません。

一部の機能はターゲット変数とは何の関係もない場合があります。

たとえば、人口やバスチケットの購入数は降雨量に影響しません。
その他の特徴はターゲット変数と相関関係にあるかもしれませんが、因果関係はありません。
たとえば、屋外コンサートの数は降雨量と相関関係にあるかもしれませんが、降雨量を予測する良い指標にはなりません。
炭素排出量などの他のケースでは、特徴とターゲット変数の間に関係がある可能性がありますが、その影響はごくわずかです。

この例では、どの機能が価値があり、どの機能が役に立たないかは明らかです。

他の問題では、過剰に表現された特徴が明らかではない可能性があり、さらなるデータ分析が必要になる場合があります。

しかし、なぜ余分な次元を削除する手間をかけるのでしょうか?

機能が多すぎると、より複雑なモデルも必要になり、モデルを許容できるレベルまでトレーニングするには、より多くのトレーニングデータとより多くの計算能力が必要になります。

機械学習は因果関係を理解していないため、因果関係がない場合でもモデルはデータセット内のあらゆる特徴をターゲット変数にマッピングしようとし、モデルエラーが発生する可能性があります。

一方、特徴の数を減らすと、機械学習モデルはよりシンプルで効果的になり、データ集約度が低くなります。

多くの機能によって引き起こされる問題は、しばしば「次元の呪い」と呼ばれ、表形式のデータに限定されません。

画像を分類する機械学習モデルを考えてみましょう。データセットが 100×100 ピクセルの画像で構成されている場合、ピクセルごとに 1 つの特徴があるため、問題空間には 10,000 個の特徴が含まれます。ただし、画像分類の問題であっても、一部の特徴は過剰であり、削除することができます。

次元削減により、機械学習モデルのパフォーマンスを低下させたり、精度に貢献しない特徴を識別して削除できます。

次元削減手法はいくつかあり、それぞれに独自の有用な適用範囲があります。

機能選択

基本的かつ効果的な次元削減方法は「特徴選択」であり、これはターゲット変数に最も関連性の高い特徴のサブセットを識別して選択することです。

特徴選択は、各列が特定の情報を表す表形式のデータを扱う場合に非常に有効です。

特徴選択を実行する際、データサイエンティストは次の 2 つのことを行います。

ターゲット変数と高い相関関係にある特徴と、データセットの分散に最も寄与する特徴を保持します。

Python の Scikit-learn ライブラリは、機械学習モデルを実装するために適切な機能を分析、視覚化し、選択するための多くの関数を開発しました。

たとえば、データサイエンティストは散布図やヒートマップを使用して、さまざまな機能の共分散を視覚化できます。

2 つの特徴の相関性が高い場合、それらはターゲット変数に同様の影響を与えるため、モデルに悪影響を与えることなく、そのうちの 1 つを削除できます。

これらのツールは、特徴間の相関関係を視覚化し、ターゲット変数を分析するのにも役立ち、それによってターゲット変数に影響を与えない変数を削除するのにも役立ちます。

たとえば、データセット内の 25 個の特徴のうち、7 個がターゲット変数への影響の 95% を占めていることがわかる場合があります。

そのため、モデルの精度にあまり影響を与えることなく、18 個の機能を削除して機械学習モデルを簡素化することができました。

プロジェクション技術

個々の機能を削除できない場合もありますが、だからといって機械学習モデルを簡素化できないわけではありません。

投影技術は「特徴抽出」とも呼ばれる優れた方法であり、いくつかの特徴を低次元空間に圧縮することでモデルを簡素化できます。

投影技術を表すためによく使用される例は「スイスロール」です。

これは、3 次元の焦点の周りを回転するデータポイントのセットです。このデータセットには 3 つの機能があります。各ポイント（ターゲット変数）の値は、スイスロールの中心からのカール経路に沿った距離に基づいて測定されます。下の図では、赤い点は中心に近く、黄色い点はスクロール方向に沿って遠くにあります。

スイスロールポイントの特徴をその値にマッピングする機械学習モデルを作成することは非常に難しく、多くのパラメータを持つ複雑なモデルが必要です。ただし、次元削減技術を導入することで、これらのポイントをより低次元の空間に投影し、単純な機械学習モデルで学習できるようになります。

投影手法にはさまざまなものがあります。上記の例では、データポイントの値を分離する重要な要素を保持しながら、問題空間の次元を削減するアルゴリズムであるLocally Linear Embedding (LLE)と呼ばれる手法を使用しました。データが LLE で処理されると、結果は下の画像のようになり、広げられたスイスロールに似たものになります。

各色のポイントがまとまっていることがわかります。したがって、この問題は単一の特徴にまで縮小され、最も単純な機械学習アルゴリズム (線形回帰) を使用してモデル化できます。

この例は仮説的ですが、特徴をより低次元の空間に投影すると、簡略化できる問題に直面することがよくあります。

たとえば、主成分分析 (PCA)は、機械学習の問題を簡素化する上で多くの有用な用途を持つ、一般的な次元削減アルゴリズムです。

優れた書籍『Hands-on Machine Learning with Python』では、データサイエンティストの Aurelien Geron が、PCA を使用して MNIST データセットを 95% の分散を維持しながら 784 個の特徴 (28×28 ピクセル) から 150 個の特徴に削減する方法を説明しています。

このレベルの次元削減は、人工ニューラルネットワークのトレーニングと実行コストに特に大きな影響を与えます。

投影技術に関しては、考慮すべき点がいくつかあります。

投影手法を開発したら、新しいデータポイントを機械学習モデルに実行する前に、より低次元の空間に変換する必要があります。しかし、この前処理手順のコストが高すぎて、最終モデルの利点が小さすぎる場合は、その価値がない可能性があります。

2 番目の問題は、変換されたデータポイントが元の特徴を直接表していない可能性があり、元の空間に戻すのが面倒だったり、場合によっては不可能だったりするため、モデルの推論を解釈することが困難になる可能性があることです。