機械学習の次元削減手法で「次元の呪い」を打破する

機械学習の次元削減手法で「次元の呪い」を打破する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

機械学習を使用する際、無関係な特徴が多すぎてモデルのパフォーマンスが低下することに悩まされることがよくありますか?

[[402586]]

実際、次元削減は機械学習においてこの問題を解決する良い方法です。

有名なテクノロジー ブロガーのBen Dickson氏がこの件について議論し、TechTalks に「機械学習: 次元削減とは何か」というタイトルのブログを公開しました。この記事の編集と編集はBen Dickson 氏本人の許可を得ています

彼は、機械学習アルゴリズムが人気を集めているのは、数十行の表や数百万ピクセルの画像など、多くの特徴を持つデータセットから関連情報を見つけることができるためだと指摘した。

クラウド コンピューティングの進歩により、ユーザーは舞台裏のコンピューティング能力を気にすることなく、大規模な機械学習モデルを実行できるようになります。

ただし、新しい機能が追加されるたびに複雑さが増し、機械学習アルゴリズムの使用が難しくなります。

データ サイエンティストは、機械学習モデルから冗長な機能や無関係な機能を削除するための一連の手法である次元削減をよく使用します。

次元削減により機械学習のコストが削減され、複雑な問題をより単純なモデルで解決できる場合もあります。

以下の彼の記事を見てみましょう。

次元の呪い

[[402587]]

機械学習モデルは、特徴を結果にマッピングできます。

たとえば、1 か月間の降雨量を予測するモデルを作成するとします。

気温、湿度、都市の人口、交通量、都市で開催されるコンサートの数、風速、風向、気圧、購入されたバスチケットの数、降雨量など、さまざまな都市からさまざまな月に収集されたさまざまな情報のデータセットがあります。

明らかに、この情報のすべてが降雨予報に関連しているわけではありません。

一部の機能はターゲット変数とは何の関係もない場合があります。

たとえば、人口やバスチケットの購入数は降雨量に影響しません。

その他の特徴はターゲット変数と相関関係にあるかもしれませんが、因果関係はありません。

たとえば、屋外コンサートの数は降雨量と相関関係にあるかもしれませんが、降雨量を予測する良い指標にはなりません。

炭素排出量などの他のケースでは、特徴とターゲット変数の間に関係がある可能性がありますが、その影響はごくわずかです。

この例では、どの機能が価値があり、どの機能が役に立たないかは明らかです。

他の問題では、過剰に表現された特徴が明らかではない可能性があり、さらなるデータ分析が必要になる場合があります。

しかし、なぜ余分な次元を削除する手間をかけるのでしょうか?

機能が多すぎると、より複雑なモデルも必要になり、モデルを許容できるレベルまでトレーニングするには、より多くのトレーニング データとより多くの計算能力が必要になります。

機械学習は因果関係を理解し​​ていないため、因果関係がない場合でもモデルはデータセット内のあらゆる特徴をターゲット変数にマッピングしようとし、モデルエラーが発生する可能性があります。

一方、特徴の数を減らすと、機械学習モデルはよりシンプルで効果的になり、データ集約度が低くなります。

多くの機能によって引き起こされる問題は、しばしば「次元の呪い」と呼ばれ、表形式のデータに限定されません。

画像を分類する機械学習モデルを考えてみましょう。データセットが 100×100 ピクセルの画像で構成されている場合、ピクセルごとに 1 つの特徴があるため、問題空間には 10,000 個の特徴が含まれます。ただし、画像分類の問題であっても、一部の特徴は過剰であり、削除することができます。

次元削減により、機械学習モデルのパフォーマンスを低下させたり、精度に貢献しない特徴を識別して削除できます。

次元削減手法はいくつかあり、それぞれに独自の有用な適用範囲があります。

機能選択

基本的かつ効果的な次元削減方法は「特徴選択」であり、これはターゲット変数に最も関連性の高い特徴のサブセットを識別して選択することです。

特徴選択は、各列が特定の情報を表す表形式のデータを扱う場合に非常に有効です。

特徴選択を実行する際、データ サイエンティストは次の 2 つのことを行います。

ターゲット変数と高い相関関係にある特徴と、データセットの分散に最も寄与する特徴を保持します。

Python の Scikit-learn ライブラリは、機械学習モデルを実装するために適切な機能を分析、視覚化し、選択するための多くの関数を開発しました。

たとえば、データ サイエンティストは散布図やヒート マップを使用して、さまざまな機能の共分散を視覚化できます。

2 つの特徴の相関性が高い場合、それらはターゲット変数に同様の影響を与えるため、モデルに悪影響を与えることなく、そのうちの 1 つを削除できます。

これらのツールは、特徴間の相関関係を視覚化し、ターゲット変数を分析するのにも役立ち、それによってターゲット変数に影響を与えない変数を削除するのにも役立ちます。

たとえば、データセット内の 25 個の特徴のうち、7 個がターゲット変数への影響の 95% を占めていることがわかる場合があります。

そのため、モデルの精度にあまり影響を与えることなく、18 個の機能を削除して機械学習モデルを簡素化することができました。

プロジェクション技術

個々の機能を削除できない場合もありますが、だからといって機械学習モデルを簡素化できないわけではありません。

投影技術は「特徴抽出」とも呼ばれる優れた方法であり、いくつかの特徴を低次元空間に圧縮することでモデルを簡素化できます。

投影技術を表すためによく使用される例は「スイスロール」です。

これは、3 次元の焦点の周りを回転するデータ ポイントのセットです。このデータ セットには 3 つの機能があります。各ポイント(ターゲット変数)の値は、スイスロールの中心からのカール経路に沿った距離に基づいて測定されます。下の図では、赤い点は中心に近く、黄色い点はスクロール方向に沿って遠くにあります。

スイスロールポイントの特徴をその値にマッピングする機械学習モデルを作成することは非常に難しく、多くのパラメータを持つ複雑なモデルが必要です。ただし、次元削減技術を導入することで、これらのポイントをより低次元の空間に投影し、単純な機械学習モデルで学習できるようになります。

投影手法にはさまざまなものがあります。上記の例では、データ ポイントの値を分離する重要な要素を保持しながら、問題空間の次元を削減するアルゴリズムであるLocally Linear Embedding (LLE)と呼ばれる手法を使用しました。データが LLE で処理されると、結果は下の画像のようになり、広げられたスイスロールに似たものになります。

各色のポイントがまとまっていることがわかります。したがって、この問題は単一の特徴にまで縮小され、最も単純な機械学習アルゴリズム (線形回帰) を使用してモデル化できます。

この例は仮説的ですが、特徴をより低次元の空間に投影すると、簡略化できる問題に直面することがよくあります。

たとえば、主成分分析 (PCA)は、機械学習の問題を簡素化する上で多くの有用な用途を持つ、一般的な次元削減アルゴリズムです。

優れた書籍『Hands-on Machine Learning with Python』では、データ サイエンティストの Aurelien Geron が、PCA を使用して MNIST データセットを 95% の分散を維持しながら 784 個の特徴 (28×28 ピクセル) から 150 個の特徴に削減する方法を説明しています。

このレベルの次元削減は、人工ニューラル ネットワークのトレーニングと実行コストに特に大きな影響を与えます。

投影技術に関しては、考慮すべき点がいくつかあります。

投影手法を開発したら、新しいデータ ポイントを機械学習モデルに実行する前に、より低次元の空間に変換する必要があります。しかし、この前処理手順のコストが高すぎて、最終モデルの利点が小さすぎる場合は、その価値がない可能性があります。

2 番目の問題は、変換されたデータ ポイントが元の特徴を直接表していない可能性があり、元の空間に戻すのが面倒だったり、場合によっては不可能だったりするため、モデルの推論を解釈することが困難になる可能性があることです。

機械学習ツールボックスにおける次元削減

簡単にまとめてみましょう。

機能が多すぎると機械学習モデルの効率が低下しますが、機能が多すぎると削除するのも良くありません。

データ サイエンティストは、次元削減をツールボックスとして使用して優れた機械学習モデルを生成できますが、他のツールと同様に、次元削減を使用する場合には多くの問題があり、注意が必要な領域も多数あります。

著者について

[[402591]]

有名なテクノロジーブロガーでありソフトウェアエンジニアでもある Ben Dickson 氏は、TechTalks の創設者です。

<<:  清華大学の唐潔氏のチームは、ダル・イーよりも優れた成果を挙げた「中国のAIデザイナー」を作成した。

>>:  機械学習は産業界においてどのように機能するのでしょうか?

ブログ    
ブログ    

推薦する

ALPHGOがイ・セドルを破ってから500日が経ち、BATは人工知能のために何をしたのか?

[[201115]] 2016年3月15日、ALPHGOが韓国の囲碁プレイヤー、イ・セドルを4対1...

顧客サービスの革命: 現代のビジネスにおける広報ロボットの役割

人工知能 (AI) の登場により、企業の運営方法は劇的に変化し、PR ボットが顧客サービスの革命にお...

AI モデルの 3 種類のバイアスとその修正方法

自動化された意思決定ツールは組織内でますます一般的になりつつあります。しかし、顔認識システムからオン...

シーメンスとマイクロソフトが共同でAIアシスタントを立ち上げ、製造業における人間と機械の連携を強化

シーメンスとマイクロソフトは協力し、人間と機械のコラボレーションを強化し、生産性を向上させるように設...

将来、自動運転車が世界をどのように変えるか

北京時間12月6日、海外メディアの報道によると、克服すべき障害はまだ多くあるものの、自動運転車の技術...

ロボットは「職業を変える」、新しいトレンドは新しい機会をもたらす

ドイツ特派員 青木「昨年、北米のロボット受注の大半は初めて自動車工場で受注されなかった」ロイター通信...

クラウド コンピューティングの 10 年間のベテランが、ディープラーニング手法をゼロから始める

[[206505]]人工知能は現在、熱く議論されている業界であり、ディープラーニングは最もホットな、...

今日の人工知能は単なる「狭義のAI」なのでしょうか?

1956 年、若い数学助教授ジョン・マッカーシーが率いる科学者グループがニューハンプシャー州のダー...

Appleは、来年の製品発売を目標に、独自の大規模モデルフレームワークをベースにしたApple GPTを秘密裏に開発していると噂されている。

Apple の大規模言語モデルと AI チャットボットに関する最新ニュースが届きました。本日、ブル...

Oracle データベース初期化パラメータの分析: システム構成を最適化するための究極のガイド!

Oracle データベースでは、初期化パラメータは非常に重要な構成項目であり、データベースのパフォ...

流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる

全国的な「オンライン授業」が始まって1か月、湖北省以外の省では新型コロナウイルスの新規感染者もそれほ...

海外メディア:人工知能はすでに自身のミスを警告できる

[[354534]]海外メディアは、人工知能は急速に発展しており、この分野における最新の技術的成果が...

NLP がヘルスケアにおける AI の価値を実現する方法

複雑な AI モデルを学習するには膨大な量のデータが必要であり、ヘルスケア データは全データのほぼ ...

...

レッドハットのCEOがAIの取り組みとソースコードの混乱について語る

今年初めの Red Hat Summit で、Red Hat は OpenShift AI によるプ...