機械学習で知っておくべき 8 つの次元削減手法、最後の手法は超ハードコアです!

機械学習で知っておくべき 8 つの次元削減手法、最後の手法は超ハードコアです!

次元削減とは、高次元のデータ セットを同等の低次元空間に変換するプロセスです。実際のデータ セットには通常、多くの冗長な機能があります。次元削減技術を使用すると、これらの冗長な機能を削除したり、n 次元データ セットを視覚化のために 2 次元または 3 次元空間に変換したりできます。

この記事では、データセットの次元を削減するためにさまざまなユースケースで使用できる 8 つの次元削減手法について説明します。

1. 欠損値

実際のデータセットには、データの記録時にデータが破損したり保存に失敗したりしたために、欠落したレコードが多数含まれていることがよくあります。欠落しているレコードを埋めるためにさまざまなデータ補完手法を試すことができますが、これは欠落している機能の数が限られている場合にのみ機能します。

欠損している特徴値の数が指定されたしきい値より大きい場合は、その特徴をトレーニング データから削除するのが最適です。しきい値(例:50%)を超える欠落した特徴レコードを持つすべての特徴を削除することで、データの次元を削減できます。


欠損値の視覚化: 白い線は欠損値の存在を示します

上記の欠損値の説明画像は、themissingno パッケージを使用してタイタニック号のデータに対して生成されました。特徴「年齢」と「キャビン」には多数の欠損レコードがあり、最終的にはトレーニング サンプルから削除できます。

2. 相関フィルタ

1 つ以上の特徴間の相関が高い場合、それらの特徴には同様の変化傾向があり、同様の情報が含まれている可能性があります。これにより、独立変数の統計的有意性が失われます。他の独立した特徴に関連する特徴を削除したり、ターゲット クラス ラベルに関連しない特徴を削除したりすることもできます。

独立した特徴間の相関関係を計算するためのさまざまな手法があり、その中にはピアソン検定、スピアマン検定、ケンドール検定、カイ二乗検定などがあります。


相関行列のヒートマップ

上記の相関行列ヒートマップ (タイタニック データセット用) は、df.corr() 関数を使用して計算されました。

3. 分散フィルタ

特徴カテゴリが 1 つだけのカテゴリ特徴、または分散が非常に小さい数値特徴変数では、モデルがある程度改善されないため、トレーニング サンプルから削除できます。

関数 DataFrame.var() は、Pandas データフレームのすべての特徴の分散を計算できます。 DataFrame.value_counts() 関数は、各特徴の分布を計算できます。

4. 前方/後方特徴選択

前方特徴選択手法は、最適な特徴セットを選択するためのラッパー手法です。これは、前のステップからの推論に基づいて特徴が選択される段階的なプロセスです。前方特徴選択技術の手順は次のとおりです。

1. 各機能を個別に使用して機械学習モデルをトレーニングし、各モデルのパフォーマンスを測定します。

2. 最もパフォーマンスの高い特徴を選択し、残りの特徴を使用して単一のモデルを再トレーニングします。

3. このプロセスを繰り返し、一度に 1 つの機能を追加し、最高のパフォーマンスを生み出す機能が保持されます。

4. モデルのパフォーマンスに大きな改善が見られなくなるまで、手順 2 と 3 を繰り返します。


前方特徴選択

後方特徴選択手法は前方特徴選択と似ていますが、逆の方法で動作し、最初にすべての特徴を選択し、各ステップで最も冗長な特徴を削除します。

5. 主成分分析

主成分分析 (PCA) は非常に古い次元削減手法です。 PCA は、特徴の分散を保存することで特徴ベクトルをより低次元の空間に投影し、最大分散の方向を見つけて最適な特徴のリストを取得します。 PCA を使用すると、非常に高次元のデータを目的の次元に投影できます。 PCA アルゴリズムの手順は次のとおりです。

  • 標準化されたデータセット
  • 正規化されたデータセットの共分散行列を計算する
  • 共分散行列の固有値と固有ベクトルを計算する
  • 固有ベクトルと高い固有値を持つ固有ベクトルのドット積をとります。

6. t-SNE

t-SNE (t-Distributed Stochastic Neighbor Embedding) は、主にデータの視覚化に使用される次元削減手法です。 t-SNE は、高次元データセットを、さらに視覚化できる 2 次元または 3 次元のベクトルに変換します。

t-SNE は、データのローカル構造を保持し、近傍のローカル構造を保持することで各データ ポイントを高次元から低次元の空間に埋め込むため、PCA よりもパフォーマンスが優れています。

詳細については、https://distill.pub/2016/misread-tsne/ をご覧ください。

7. ユーマップ

UMAP (Uniform Manifold approximation) は、新しい次元削減手法です。これは、t-SNE と同様に機能する非常に効果的な視覚化およびスケーラブルな次元削減アルゴリズムですが、よりグローバルな構造を保持し、優れたパフォーマンスと優れたスケーラビリティを備えています。

詳細: https://umap-learn.readthedocs.io/en/latest/basic_usage.html

8. オートエンコーダ

オートエンコーダは、単層パーセプトロンに基づく次元削減手法です。圧縮 (エンコーダー) と拡張 (デコーダー) の 2 つのコンポーネントがあります。入力層と出力層のノード数は同じですが、中間層のニューロン数は入力層と出力層よりも少なくなります。

データセットはオートエンコーダ ニューラル ネットワーク モデルに渡され、低次元の隠し層にエンコードされます。次に、簡略化されたエンコーディングから、元の入力に可能な限り近い表現を生成しようとします。中間層は、同等の低次元のベクトルに縮小されます。

要約する

この記事では、特徴選択ベースの次元削減法、コンポーネントベースの次元削減技術、投影ベースの方法、そして最後にニューラル ネットワーク ベースのオートエンコーダーについて説明しました。 ISOMAP は、UMAP や t-SNE と同様に機能する別の投影ベースの次元削減方法です。 SVD と ISO は、他のコンポーネントベースの次元削減手法です。

<<:  AIはCOVID-19検査の欠陥を明らかにし、647のAIツールが臨床使用に適していないことが研究で判明

>>:  「無人時代」が来ます。準備はできていますか?

推薦する

LLM収益化プラットフォームが登場! LangChain+DemoGPT 協力: アイデアがあればお金が稼げる、「プログラマーが足りない」時代は終わった

大規模な言語モデルのサポートにより、開発者は多くの新しい機能を実装し、より幅広いアプリケーション シ...

[ディープラーニングシリーズ] PaddlePaddle と Tensorflow を使用したクラシック CNN ネットワーク Vgg の実装

先週は、古典的な CNN ネットワーク AlexNet が画像分類に与える影響についてお話ししました...

...

自動化された機械学習: よく使われる 5 つの AutoML フレームワークの紹介

AutoML フレームワークによって実行されるタスクは、次のように要約できます。データを前処理して...

AIは、DevOps開発者が新世代のランサムウェアに対抗するために不可欠である

Android オペレーティング システムを含むすべての主要なオペレーティング システムにおいて、人...

AIの今後の4つの動向、人類は集団的に失業するのか?

人工知能、特に機械学習とディープラーニングは 2018 年にあらゆるところで話題になりましたが、今後...

インテルは世界的なIT需要爆発の機会を無駄にしない

危機に対処する最善の方法は常に変化を求めることです。 国連は5月18日、最新の世界経済情勢予測を発表...

より強力なLlama 2はオープンソースであり、商用目的で直接使用できます。一夜にして、ビッグモデルの風景は変わりました。

一夜にして、ビッグモデルの状況は再び劇的に変化しました。写真Llama は常に AI コミュニティで...

人工知能分野で最も有望な技術トップ10

2018年世界ロボット会議が北京で開催され、ロボット産業の最先端技術が披露されました。世界的なロボ...

目標駆動型システムモデルは、人工汎用知能 (AGI) を実現するための鍵となるでしょうか?

人工知能の登場以来、研究者たちはロボットに人間とゲームをさせることで機械システムの知能をテストしよう...

ロボットセンサー市場は2026年までに40億ドルを超える

AIとIoTをロボットシステムに統合することで、その応用範囲が大幅に拡大すると期待されています。市場...

「質問の海」戦略を取り除き、モデルに人間のように考えることを学習させる

[[395305]]最近、Ant Security Tianzhu Labのセキュリティ専門家である...

自動化によって、採用担当者が大規模な適格な人材を特定する方法

AI ベースの自動化ツールは、候補者データを収集して処理し、候補者の調達、スクリーニング、多様性、そ...

YOLOはまだ死んでいません! YOLOv9がリリースされました:パフォーマンスと速度SOTA〜

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...