この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 機械学習を使用する際、無関係な特徴が多すぎてモデルのパフォーマンスが低下することに悩まされることがよくありますか? 実際、次元削減は機械学習においてこの問題を解決する良い方法です。 有名なテクノロジー ブロガーのBen Dickson氏がこの件について議論し、TechTalks に「機械学習: 次元削減とは何か」というタイトルのブログを公開しました。この記事の編集と編集はBen Dickson 氏本人の許可を得ています。 彼は、機械学習アルゴリズムが人気を集めているのは、数十行の表や数百万ピクセルの画像など、多くの特徴を持つデータセットから関連情報を見つけることができるためだと指摘した。 クラウド コンピューティングの進歩により、ユーザーは舞台裏のコンピューティング能力を気にすることなく、大規模な機械学習モデルを実行できるようになります。 ただし、新しい機能が追加されるたびに複雑さが増し、機械学習アルゴリズムの使用が難しくなります。 データ サイエンティストは、機械学習モデルから冗長な機能や無関係な機能を削除するための一連の手法である次元削減をよく使用します。 次元削減により機械学習のコストが削減され、複雑な問題をより単純なモデルで解決できる場合もあります。 以下の彼の記事を見てみましょう。 次元の呪い機械学習モデルは、特徴を結果にマッピングできます。 たとえば、1 か月間の降雨量を予測するモデルを作成するとします。
明らかに、この情報のすべてが降雨予報に関連しているわけではありません。 一部の機能はターゲット変数とは何の関係もない場合があります。
この例では、どの機能が価値があり、どの機能が役に立たないかは明らかです。 他の問題では、過剰に表現された特徴が明らかではない可能性があり、さらなるデータ分析が必要になる場合があります。 しかし、なぜ余分な次元を削除する手間をかけるのでしょうか? 機能が多すぎると、より複雑なモデルも必要になり、モデルを許容できるレベルまでトレーニングするには、より多くのトレーニング データとより多くの計算能力が必要になります。 機械学習は因果関係を理解していないため、因果関係がない場合でもモデルはデータセット内のあらゆる特徴をターゲット変数にマッピングしようとし、モデルエラーが発生する可能性があります。 一方、特徴の数を減らすと、機械学習モデルはよりシンプルで効果的になり、データ集約度が低くなります。 多くの機能によって引き起こされる問題は、しばしば「次元の呪い」と呼ばれ、表形式のデータに限定されません。 画像を分類する機械学習モデルを考えてみましょう。データセットが 100×100 ピクセルの画像で構成されている場合、ピクセルごとに 1 つの特徴があるため、問題空間には 10,000 個の特徴が含まれます。ただし、画像分類の問題であっても、一部の特徴は過剰であり、削除することができます。 次元削減により、機械学習モデルのパフォーマンスを低下させたり、精度に貢献しない特徴を識別して削除できます。 次元削減手法はいくつかあり、それぞれに独自の有用な適用範囲があります。 機能選択基本的かつ効果的な次元削減方法は「特徴選択」であり、これはターゲット変数に最も関連性の高い特徴のサブセットを識別して選択することです。 特徴選択は、各列が特定の情報を表す表形式のデータを扱う場合に非常に有効です。 特徴選択を実行する際、データ サイエンティストは次の 2 つのことを行います。
Python の Scikit-learn ライブラリは、機械学習モデルを実装するために適切な機能を分析、視覚化し、選択するための多くの関数を開発しました。 たとえば、データ サイエンティストは散布図やヒート マップを使用して、さまざまな機能の共分散を視覚化できます。 2 つの特徴の相関性が高い場合、それらはターゲット変数に同様の影響を与えるため、モデルに悪影響を与えることなく、そのうちの 1 つを削除できます。 これらのツールは、特徴間の相関関係を視覚化し、ターゲット変数を分析するのにも役立ち、それによってターゲット変数に影響を与えない変数を削除するのにも役立ちます。 たとえば、データセット内の 25 個の特徴のうち、7 個がターゲット変数への影響の 95% を占めていることがわかる場合があります。 そのため、モデルの精度にあまり影響を与えることなく、18 個の機能を削除して機械学習モデルを簡素化することができました。 プロジェクション技術個々の機能を削除できない場合もありますが、だからといって機械学習モデルを簡素化できないわけではありません。 投影技術は「特徴抽出」とも呼ばれる優れた方法であり、いくつかの特徴を低次元空間に圧縮することでモデルを簡素化できます。 投影技術を表すためによく使用される例は「スイスロール」です。 これは、3 次元の焦点の周りを回転するデータ ポイントのセットです。このデータ セットには 3 つの機能があります。各ポイント(ターゲット変数)の値は、スイスロールの中心からのカール経路に沿った距離に基づいて測定されます。下の図では、赤い点は中心に近く、黄色い点はスクロール方向に沿って遠くにあります。 スイスロールポイントの特徴をその値にマッピングする機械学習モデルを作成することは非常に難しく、多くのパラメータを持つ複雑なモデルが必要です。ただし、次元削減技術を導入することで、これらのポイントをより低次元の空間に投影し、単純な機械学習モデルで学習できるようになります。 投影手法にはさまざまなものがあります。上記の例では、データ ポイントの値を分離する重要な要素を保持しながら、問題空間の次元を削減するアルゴリズムであるLocally Linear Embedding (LLE)と呼ばれる手法を使用しました。データが LLE で処理されると、結果は下の画像のようになり、広げられたスイスロールに似たものになります。 各色のポイントがまとまっていることがわかります。したがって、この問題は単一の特徴にまで縮小され、最も単純な機械学習アルゴリズム (線形回帰) を使用してモデル化できます。 この例は仮説的ですが、特徴をより低次元の空間に投影すると、簡略化できる問題に直面することがよくあります。 たとえば、主成分分析 (PCA)は、機械学習の問題を簡素化する上で多くの有用な用途を持つ、一般的な次元削減アルゴリズムです。 優れた書籍『Hands-on Machine Learning with Python』では、データ サイエンティストの Aurelien Geron が、PCA を使用して MNIST データセットを 95% の分散を維持しながら 784 個の特徴 (28×28 ピクセル) から 150 個の特徴に削減する方法を説明しています。 このレベルの次元削減は、人工ニューラル ネットワークのトレーニングと実行コストに特に大きな影響を与えます。 投影技術に関しては、考慮すべき点がいくつかあります。 投影手法を開発したら、新しいデータ ポイントを機械学習モデルに実行する前に、より低次元の空間に変換する必要があります。しかし、この前処理手順のコストが高すぎて、最終モデルの利点が小さすぎる場合は、その価値がない可能性があります。 2 番目の問題は、変換されたデータ ポイントが元の特徴を直接表していない可能性があり、元の空間に戻すのが面倒だったり、場合によっては不可能だったりするため、モデルの推論を解釈することが困難になる可能性があることです。 機械学習ツールボックスにおける次元削減簡単にまとめてみましょう。
著者について有名なテクノロジーブロガーでありソフトウェアエンジニアでもある Ben Dickson 氏は、TechTalks の創設者です。 |
<<: 清華大学の唐潔氏のチームは、ダル・イーよりも優れた成果を挙げた「中国のAIデザイナー」を作成した。
>>: 機械学習は産業界においてどのように機能するのでしょうか?
[[201115]] 2016年3月15日、ALPHGOが韓国の囲碁プレイヤー、イ・セドルを4対1...
人工知能 (AI) の登場により、企業の運営方法は劇的に変化し、PR ボットが顧客サービスの革命にお...
自動化された意思決定ツールは組織内でますます一般的になりつつあります。しかし、顔認識システムからオン...
シーメンスとマイクロソフトは協力し、人間と機械のコラボレーションを強化し、生産性を向上させるように設...
北京時間12月6日、海外メディアの報道によると、克服すべき障害はまだ多くあるものの、自動運転車の技術...
ドイツ特派員 青木「昨年、北米のロボット受注の大半は初めて自動車工場で受注されなかった」ロイター通信...
[[206505]]人工知能は現在、熱く議論されている業界であり、ディープラーニングは最もホットな、...
1956 年、若い数学助教授ジョン・マッカーシーが率いる科学者グループがニューハンプシャー州のダー...
Apple の大規模言語モデルと AI チャットボットに関する最新ニュースが届きました。本日、ブル...
Oracle データベースでは、初期化パラメータは非常に重要な構成項目であり、データベースのパフォ...
全国的な「オンライン授業」が始まって1か月、湖北省以外の省では新型コロナウイルスの新規感染者もそれほ...
[[354534]]海外メディアは、人工知能は急速に発展しており、この分野における最新の技術的成果が...
複雑な AI モデルを学習するには膨大な量のデータが必要であり、ヘルスケア データは全データのほぼ ...
今年初めの Red Hat Summit で、Red Hat は OpenShift AI によるプ...