データマイニングの分野でトップ 10 の古典的なアルゴリズムの 1 つ - K-Means アルゴリズム (コード付きで非常に詳細)

データマイニングの分野でトップ 10 の古典的なアルゴリズムの 1 つ - K-Means アルゴリズム (コード付きで非常に詳細)

k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラスターを表すために使用されます。k-means アルゴリズムの収束は、すべての重心が変化しなくなることと同等であることが簡単に証明できます。基本的な k-means アルゴリズムのプロセスは次のとおりです。

導入

K 平均法アルゴリズムとも呼ばれ、教師なし学習におけるクラスタリング アルゴリズムです。

基本的な考え方

k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラスターを表すために使用されます。k-means アルゴリズムの収束は、すべての重心が変化しなくなることと同等であることが簡単に証明できます。基本的な k-means アルゴリズムのプロセスは次のとおりです。

k 個の初期重心を選択します (初期クラスターとして、各初期クラスターには 1 つのポイントのみが含まれます)。

繰り返す:

  • 各サンプル ポイントについて、最も近い重心を計算し、そのカテゴリを重心に対応するクラスターとしてマークします。
  • k 個のクラスターに対応する重心を再計算します (重心はクラスター内のサンプル ポイントの平均です)。
  • 重心が変化しなくなるまで 12345

繰り返し回数によってアルゴリズムの反復回数が決まります。実際、k-means の本質は、各点からそのクラスターの重心までの距離の二乗の合計である目的関数を最小化することです。

  • Nは要素の数、xは要素を表し、c(j)はj番目のクラスターの重心を表す。
  • アルゴリズムの複雑さ
  • 時間の計算量は O(nkt) です。ここで、n は要素の数、t はアルゴリズムの反復回数、k はクラスターの数を表します。

長所と短所

  • アドバンテージ
  • シンプルで高速。
  • 大規模なデータセットに対して効率的かつスケーラブルです。
  • 時間の計算量は線形に近いため、大規模なデータセットのマイニングに適しています。

欠点

  • K-means はローカル *** であるため、初期重心の選択に敏感です。
  • 目的関数の最高のパフォーマンスを達成できる k 値を選択することは非常に困難です。

コード

コードはgithubに実装されており、ここにも投稿されています。

テストデータセットの取得アドレスはtestSetです

<<:  すべての携帯電話にAIが搭載されているのに、なぜそれを軽蔑するのですか?

>>:  Apple、Googleなど大企業のAI面接の質問を入手しました。あなたは挑戦してみますか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

IoTセキュリティにおける人工知能の重要性

[[423901]]画像ソース: https://pixabay.com/images/id-601...

ブロックチェーンと機械学習はどのようにして最も強力な人工知能を生み出すのでしょうか?

ブロックチェーン市場のデータに基づいて機械学習モデルをトレーニングすることで、世界で最も影響力のある...

画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案

画像スタイルの転送?声の感情移入?いいえ、それはイメージの感情的な伝達です。コンピュータビジョンの分...

Scikit-Learn を使用して、MNIST データセットを分類するための K 近傍法アルゴリズムを構築する

K 最近傍アルゴリズム、K-NN とも呼ばれます。今日のディープラーニングの時代では、この古典的な機...

独自のデータを使ってシンプルな畳み込みニューラルネットワークを構築する

この記事では、花、車、猫、馬、人、自転車、犬の 7 種類の何千もの画像でトレーニングされ、特定の画像...

AIはインフルエンサーマーケティングにどのような影響を与えているのでしょうか?

2017年10月、ケンブリッジ・アナリティカのスキャンダルが発覚した直後、FacebookはIns...

人工知能を世界で初めて活用し、特発性肺線維症治療薬の新たなメカニズムを発見

Insilico Medicine は、人工知能を使用して特発性肺線維症治療薬の新しいメカニズムを世...

中国人民政治協商会議全国委員会委員、PCIテクノロジー会長の劉偉氏:公安部門は顔認識アプリケーションを一律に承認することを推奨する。

2021年全国二会議において、中国人民政治協商会議全国委員会委員でPCIテクノロジー会長の劉偉氏は...

PyTorch を使用したノイズ除去拡散モデルの実装

ノイズ除去拡散確率モデル (DDPM) の仕組みを詳しく検討する前に、生成 AI の進歩、具体的には...

2018 年 4 月の最も人気のある AI 機械学習プロジェクト トップ 5

データサイエンスと機械学習に関しては、GitHub と Reddit が最も人気のある 2 つのプラ...

人工知能がソフトウェアテストに混乱をもたらす4つの方法

ソフトウェアテストにおける人工知能の使用はますます一般的になりつつあり、それには十分な理由があります...

...

人工知能を始めるときに尋ねるべき10の質問

人工知能 (AI) と機械学習 (ML) のテクノロジーは、世界中のほぼすべての業界に革命をもたらし...