この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 機械学習を使用する際、無関係な特徴が多すぎてモデルのパフォーマンスが低下することに悩まされることがよくありますか? 実際、次元削減は機械学習においてこの問題を解決する良い方法です。 有名なテクノロジー ブロガーのBen Dickson氏がこの件について議論し、TechTalks に「機械学習: 次元削減とは何か」というタイトルのブログを公開しました。この記事の編集と編集はBen Dickson 氏本人の許可を得ています。 彼は、機械学習アルゴリズムが人気を集めているのは、数十行の表や数百万ピクセルの画像など、多くの特徴を持つデータセットから関連情報を見つけることができるためだと指摘した。 クラウド コンピューティングの進歩により、ユーザーは舞台裏のコンピューティング能力を気にすることなく、大規模な機械学習モデルを実行できるようになります。 ただし、新しい機能が追加されるたびに複雑さが増し、機械学習アルゴリズムの使用が難しくなります。 データ サイエンティストは、機械学習モデルから冗長な機能や無関係な機能を削除するための一連の手法である次元削減をよく使用します。 次元削減により機械学習のコストが削減され、複雑な問題をより単純なモデルで解決できる場合もあります。 以下の彼の記事を見てみましょう。 次元の呪い機械学習モデルは、特徴を結果にマッピングできます。 たとえば、1 か月間の降雨量を予測するモデルを作成するとします。
明らかに、この情報のすべてが降雨予報に関連しているわけではありません。 一部の機能はターゲット変数とは何の関係もない場合があります。
この例では、どの機能が価値があり、どの機能が役に立たないかは明らかです。 他の問題では、過剰に表現された特徴が明らかではない可能性があり、さらなるデータ分析が必要になる場合があります。 しかし、なぜ余分な次元を削除する手間をかけるのでしょうか? 機能が多すぎると、より複雑なモデルも必要になり、モデルを許容できるレベルまでトレーニングするには、より多くのトレーニング データとより多くの計算能力が必要になります。 機械学習は因果関係を理解していないため、因果関係がない場合でもモデルはデータセット内のあらゆる特徴をターゲット変数にマッピングしようとし、モデルエラーが発生する可能性があります。 一方、特徴の数を減らすと、機械学習モデルはよりシンプルで効果的になり、データ集約度が低くなります。 多くの機能によって引き起こされる問題は、しばしば「次元の呪い」と呼ばれ、表形式のデータに限定されません。 画像を分類する機械学習モデルを考えてみましょう。データセットが 100×100 ピクセルの画像で構成されている場合、ピクセルごとに 1 つの特徴があるため、問題空間には 10,000 個の特徴が含まれます。ただし、画像分類の問題であっても、一部の特徴は過剰であり、削除することができます。 次元削減により、機械学習モデルのパフォーマンスを低下させたり、精度に貢献しない特徴を識別して削除できます。 次元削減手法はいくつかあり、それぞれに独自の有用な適用範囲があります。 機能選択基本的かつ効果的な次元削減方法は「特徴選択」であり、これはターゲット変数に最も関連性の高い特徴のサブセットを識別して選択することです。 特徴選択は、各列が特定の情報を表す表形式のデータを扱う場合に非常に有効です。 特徴選択を実行する際、データ サイエンティストは次の 2 つのことを行います。
Python の Scikit-learn ライブラリは、機械学習モデルを実装するために適切な機能を分析、視覚化し、選択するための多くの関数を開発しました。 たとえば、データ サイエンティストは散布図やヒート マップを使用して、さまざまな機能の共分散を視覚化できます。 2 つの特徴の相関性が高い場合、それらはターゲット変数に同様の影響を与えるため、モデルに悪影響を与えることなく、そのうちの 1 つを削除できます。 これらのツールは、特徴間の相関関係を視覚化し、ターゲット変数を分析するのにも役立ち、それによってターゲット変数に影響を与えない変数を削除するのにも役立ちます。 たとえば、データセット内の 25 個の特徴のうち、7 個がターゲット変数への影響の 95% を占めていることがわかる場合があります。 そのため、モデルの精度にあまり影響を与えることなく、18 個の機能を削除して機械学習モデルを簡素化することができました。 プロジェクション技術個々の機能を削除できない場合もありますが、だからといって機械学習モデルを簡素化できないわけではありません。 投影技術は「特徴抽出」とも呼ばれる優れた方法であり、いくつかの特徴を低次元空間に圧縮することでモデルを簡素化できます。 投影技術を表すためによく使用される例は「スイスロール」です。 これは、3 次元の焦点の周りを回転するデータ ポイントのセットです。このデータ セットには 3 つの機能があります。各ポイント(ターゲット変数)の値は、スイスロールの中心からのカール経路に沿った距離に基づいて測定されます。下の図では、赤い点は中心に近く、黄色い点はスクロール方向に沿って遠くにあります。 スイスロールポイントの特徴をその値にマッピングする機械学習モデルを作成することは非常に難しく、多くのパラメータを持つ複雑なモデルが必要です。ただし、次元削減技術を導入することで、これらのポイントをより低次元の空間に投影し、単純な機械学習モデルで学習できるようになります。 投影手法にはさまざまなものがあります。上記の例では、データ ポイントの値を分離する重要な要素を保持しながら、問題空間の次元を削減するアルゴリズムであるLocally Linear Embedding (LLE)と呼ばれる手法を使用しました。データが LLE で処理されると、結果は下の画像のようになり、広げられたスイスロールに似たものになります。 各色のポイントがまとまっていることがわかります。したがって、この問題は単一の特徴にまで縮小され、最も単純な機械学習アルゴリズム (線形回帰) を使用してモデル化できます。 この例は仮説的ですが、特徴をより低次元の空間に投影すると、簡略化できる問題に直面することがよくあります。 たとえば、主成分分析 (PCA)は、機械学習の問題を簡素化する上で多くの有用な用途を持つ、一般的な次元削減アルゴリズムです。 優れた書籍『Hands-on Machine Learning with Python』では、データ サイエンティストの Aurelien Geron が、PCA を使用して MNIST データセットを 95% の分散を維持しながら 784 個の特徴 (28×28 ピクセル) から 150 個の特徴に削減する方法を説明しています。 このレベルの次元削減は、人工ニューラル ネットワークのトレーニングと実行コストに特に大きな影響を与えます。 投影技術に関しては、考慮すべき点がいくつかあります。 投影手法を開発したら、新しいデータ ポイントを機械学習モデルに実行する前に、より低次元の空間に変換する必要があります。しかし、この前処理手順のコストが高すぎて、最終モデルの利点が小さすぎる場合は、その価値がない可能性があります。 2 番目の問題は、変換されたデータ ポイントが元の特徴を直接表していない可能性があり、元の空間に戻すのが面倒だったり、場合によっては不可能だったりするため、モデルの推論を解釈することが困難になる可能性があることです。 機械学習ツールボックスにおける次元削減簡単にまとめてみましょう。
著者について有名なテクノロジーブロガーでありソフトウェアエンジニアでもある Ben Dickson 氏は、TechTalks の創設者です。 |
<<: 清華大学の唐潔氏のチームは、ダル・イーよりも優れた成果を挙げた「中国のAIデザイナー」を作成した。
>>: 機械学習は産業界においてどのように機能するのでしょうか?
[[405121]] 【51CTO.com クイック翻訳】企業の AI プロジェクトの失敗率が 85...
シナリオ: Redis インタビュー[[264477]] (インターネットからの写真)面接官: あな...
AIは再び人間の世界チャンピオンを破り、ネイチャー誌の表紙を飾りました。 AlphaGo が前回囲碁...
教室に人工知能機器を導入することは、「スマート教育」の重要な形態の一つです。江蘇省宿遷市泗洪県第一実...
具現化された知能は、ビッグモデルの将来の応用にとって重要な方向性です。現在、大規模なモデルでサポート...
9月10日、ファーウェイHarmonyOSテクノロジーコミュニティの年間優秀共同構築パートナー選定結...
[[233888]] AIの未来は私たち自身のニューラルネットワークを複製することにある私たちは、チ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされたが、数ヶ月の回復期...
[[211061]] STATWORX チームは最近、Google Finance API から S...
[51CTO.com クイック翻訳] 現在、世界中のあらゆる場所で大量のデータが絶えず生成されており...
第四次産業革命が急速に起こりつつあります。人工知能はこの産業革命の中核となる内容の一つです。産業革命...