データマイニングの分野でトップ 10 の古典的なアルゴリズムの 1 つ - K-Means アルゴリズム (コード付きで非常に詳細)

データマイニングの分野でトップ 10 の古典的なアルゴリズムの 1 つ - K-Means アルゴリズム (コード付きで非常に詳細)

k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラスターを表すために使用されます。k-means アルゴリズムの収束は、すべての重心が変化しなくなることと同等であることが簡単に証明できます。基本的な k-means アルゴリズムのプロセスは次のとおりです。

導入

K 平均法アルゴリズムとも呼ばれ、教師なし学習におけるクラスタリング アルゴリズムです。

基本的な考え方

k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラスターを表すために使用されます。k-means アルゴリズムの収束は、すべての重心が変化しなくなることと同等であることが簡単に証明できます。基本的な k-means アルゴリズムのプロセスは次のとおりです。

k 個の初期重心を選択します (初期クラスターとして、各初期クラスターには 1 つのポイントのみが含まれます)。

繰り返す:

  • 各サンプル ポイントについて、最も近い重心を計算し、そのカテゴリを重心に対応するクラスターとしてマークします。
  • k 個のクラスターに対応する重心を再計算します (重心はクラスター内のサンプル ポイントの平均です)。
  • 重心が変化しなくなるまで 12345

繰り返し回数によってアルゴリズムの反復回数が決まります。実際、k-means の本質は、各点からそのクラスターの重心までの距離の二乗の合計である目的関数を最小化することです。

  • Nは要素の数、xは要素を表し、c(j)はj番目のクラスターの重心を表す。
  • アルゴリズムの複雑さ
  • 時間の計算量は O(nkt) です。ここで、n は要素の数、t はアルゴリズムの反復回数、k はクラスターの数を表します。

長所と短所

  • アドバンテージ
  • シンプルで高速。
  • 大規模なデータセットに対して効率的かつスケーラブルです。
  • 時間の計算量は線形に近いため、大規模なデータセットのマイニングに適しています。

欠点

  • K-means はローカル *** であるため、初期重心の選択に敏感です。
  • 目的関数の最高のパフォーマンスを達成できる k 値を選択することは非常に困難です。

コード

コードはgithubに実装されており、ここにも投稿されています。

テストデータセットの取得アドレスはtestSetです

<<:  すべての携帯電話にAIが搭載されているのに、なぜそれを軽蔑するのですか?

>>:  Apple、Googleなど大企業のAI面接の質問を入手しました。あなたは挑戦してみますか?

ブログ    
ブログ    
ブログ    

推薦する

スマートビルディングテクノロジーを導入する前に考慮すべき7つのこと

スマートビルディングの設備やシステムを評価する際には、体系的なアプローチを取る必要があります。これら...

自然言語処理がCOVID-19に対する世界的な戦いに貢献

インターネットの普及と膨大な情報の出現により、人工知能の分野における重要な方向性としての自然言語処理...

LK-99の完全懸架映像が初めて物議を醸した。ネットユーザー:本当なら画期的

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI モデルの 3 種類のバイアスとその修正方法

自動化された意思決定ツールは組織内でますます一般的になりつつあります。しかし、顔認識システムからオン...

マイクロソフトは、重大なセキュリティ脆弱性を97%の精度で特定できるAIシステムを開発した。

Microsoft は、テストにおいてセキュリティ脆弱性と非セキュリティ脆弱性を 99% の精度で...

...

ベイズ最適化の美しさ: 素晴らしいアルゴリズムの背後にある直感

[[345174]]計算コストが高く、必ずしも解析的な表現ではなく、導関数が不明な関数 f(x) が...

フードデリバリーロボット市場は11.6億規模に到達。美団は「台頭」するか?

近年、ロボット産業は急速に発展しており、工業、農業、サービスなど多くの分野でロボットが見られるように...

AIがタンパク質構造を予測し、サイエンス誌とネイチャー誌の年間技術革新として掲載され、無限の可能性を秘めている

2021 年に AI 分野で最も画期的な賞を授与するとしたら、誰を選びますか? 「サイエンス」と「ネ...

AIを使って古い写真をカラー化するのは本当に正確なのでしょうか?技術界と歴史界は1,000のポストを主張した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2024 年の AI セキュリティに関するトップ 10 の予測

水曜日、英国、米国、中国(および欧州連合)を含む約30カ国がAI安全サミットで初の世界的なAI安全合...

...

オフライン小売業で AI 自動チェックアウト サービスを構築するにはどうすればよいでしょうか?

翻訳者 | 邱凱校正 | 梁哲、孫淑娟列に並ぶ必要がなく、遅延もなく、便利に購入できるという顧客体験...

開発ボードはこのように使えますか?アメリカの学者は、義肢のサポートと各指の制御に Jetson Nano を使用しています

近年、ディープラーニングベースのニューラルデコーダーは、神経補綴物の器用かつ直感的な制御を実現するた...

デザイナーのための人工知能ガイド: 基本概念

Google が開発した AlphaGo が囲碁の名人に勝利したとき、シンシナティ大学の Psibe...