クラスタリング分析は、データ ポイントを複数の特定のクラスターまたはグループに分割する教師なし学習手法です。これにより、ある意味では、同じグループ内のデータ ポイントは類似したプロパティを持ち、異なるグループ内のデータ ポイントは異なるプロパティを持ちます。 クラスター分析には、さまざまな距離メトリックに基づくさまざまな方法が含まれます。例えば。 K-means (ポイント間の距離)、Affinity propagation (グラフ間の距離)、平均シフト (ポイント間の距離)、DBSCAN (最近接ポイント間の距離)、ガウス混合 (中心までのマハラノビス距離)、スペクトルクラスタリング (グラフ間の距離) など。 2014 年、DBSCAN アルゴリズムは、主要なデータ マイニング カンファレンス ACM SIGKDD で Test of Time Award (理論と実践の両方で広く注目を集めたアルゴリズムに授与される賞) を受賞しました。 すべてのクラスタリング方法では、最初に類似性を計算し、次に類似性を使用してデータ ポイントをグループまたはクラスターにクラスタ化するという同じアプローチが使用されます。この記事では、ノイズを含む密度ベースクラスタリング法 (DBSCAN) に焦点を当てます。 すでに K 平均法クラスタリングが存在しているのに、なぜ DBSCAN のような密度ベースのクラスタリング アルゴリズムが必要なのでしょうか? K 平均法クラスタリングでは、関連性の低い観測値をクラスタ化できます。観測値がベクトル空間内で離れていても、すべての観測値は最終的に何らかのクラスターの一部になります。クラスタリングはクラスター要素の平均に依存するため、各データ ポイントはクラスターの形成に役割を果たします。 データ ポイントのわずかな変更がクラスタリングの結果に影響する可能性があります。 DBSCAN では、クラスターの形成方法により、この問題は大幅に軽減されます。奇妙な形状のデータに遭遇しない限り、これは通常大きな問題にはなりません。 K-means を使用する際のもう 1 つの難点は、使用するクラスターの数 (「k」) を指定する必要があることです。多くの場合、k の適切な値が何であるかは事前にわかりません。 DBSCAN の利点は、使用するためにクラスターの数を指定する必要がないことです。必要なのは、値間の距離を計算する関数と、特定の距離を「近い」と定義するためのいくつかの指示だけです。 DBSCAN は、さまざまな分布にわたって K-means よりも合理的な結果を生成します。次の図はこの事実を示しています。 密度ベースのクラスタリングアルゴリズム 密度ベースのクラスタリングは、データ空間内のクラスターが連続した高ポイント密度領域であり、連続した低ポイント密度領域によって他のクラスターから分離されているという仮定に基づいて、データ内の一意のグループ/クラスターを識別する教師なし学習方法です。 ノイズ付き密度ベースクラスタリング (DBSCAN) は、密度クラスタリングに基づく基本的なアルゴリズムです。ノイズや外れ値を含む大量のデータから、さまざまな形状やサイズのクラスターを検出できます。 DBSCAN アルゴリズムは次の 2 つのパラメータを使用します。
これらのパラメータは、密度到達可能性と密度接続性という 2 つの概念を調べると理解できます。 密度の観点から見た到達可能性は、ある点が他の点から一定の距離 (eps) 以内にある場合、その点に別の点から到達できることを確立します。 接続性には、ポイントが特定のクラスター内に配置されているかどうかを判断するための推移性ベースのリンク メソッドが含まれます。たとえば、p->r->s->t->q の場合、p と q は接続できます。ここで、a->b は、b が a の近くにあることを意味します。 DBSCAN クラスタリングが完了すると、次の 3 種類のポイントが生成されます。
DBSCANクラスタリングアルゴリズムの手順
パラメータ推定 すべてのデータ マイニング タスクにはパラメータの問題があります。各パラメータは特定の方法でアルゴリズムに影響を与えます。 DBSCAN にはパラメータ ε と minPts が必要です。
ただし、ノイズの多いデータセットの場合、一般に値が大きいほど良くなり、より有意なクラスターが生成されます。経験則としては、minPts=2·dim を使用できますが、非常に大きなデータ、ノイズの多いデータ、または重複を多く含むデータの場合は、より大きな値を選択することをお勧めします。 sklearn を使用して Python で DBSCAN を実装する まず、DBSCAN を使用して球面データをクラスタ化します。 まず、対応するラベルを持つ 750 個の球状トレーニング データ ポイントを生成します。次に、トレーニング データの特徴が標準化され、最後に sklearn ライブラリの DBSCAN が適用されます。 球面データのクラスタリングにおける DBSCAN 黒いデータ ポイントは、上記の結果の外れ値を表します。次に、DBSCAN を使用して非球形データをクラスタ化します。
非球面データのクラスタリングにおける DBSCAN これはまさに完璧です。 K-means と比較すると、次のように完全に間違った出力が生成されます。 K平均法クラスタリングの結果 DBSCAN クラスタリング アルゴリズムの複雑さ
密度ベースのクラスタリング アルゴリズムは任意の形状のクラスターを学習できますが、レベル セット ツリー アルゴリズムは密度が大きく異なるデータセット内のクラスターを学習できます。 ただし、これらのアルゴリズムは、K-means などのパラメトリック クラスタリング アルゴリズムと比較すると、調整がやや難しいことに注意してください。 K-means のクラスタリング パラメータと比較すると、DBSCAN またはレベル セット ツリーのイプシロン パラメータは直感的に理解しにくいため、これらのアルゴリズムに適した初期パラメータ値を選択することがより困難になります。 |
中国気象局は7月29日、「人工知能気象応用作業計画(2023-2030年)」を発表し、国内の人工知能...
生成 AI は変革の原動力となり、機械が達成できるものの限界を押し広げています。テキストや画像の生成...
テスラロボットが家事を始める。マスク氏は最新の動画で、テスラのロボット「オプティマス・プライム」が服...
iResearch は、さまざまな業界におけるクラウド コンピューティング、人工知能、ビッグ モデ...
解決すべきデータ関連の問題があるとします。機械学習アルゴリズムの素晴らしさについて聞いたことがあるの...
画像マッティングとは、画像内の正確な前景を抽出することを指します。現在の自動方法では、画像内のすべて...
ボストン・ダイナミクスのロボットは見た目はかっこいいのですが、使い道がないので、好評は得られても人気...
製造業は、自動車、電子機器、医療機器、機械、その他のシステムの部品を生産する上で重要な役割を果たして...
2018年にGoogleはBERTをリリースしました。リリース後すぐに11のNLPタスクで最先端(S...
[[356945]]人工知能技術の急速な発展により、SF映画のシーンが現実のものとなった。メディアの...
AI 戦略を導入する前に、企業はプライバシーを保護し、セキュリティ標準への準拠を確保するために新しい...
[[419321]]導入私は機械学習についてはよく知りませんが、先月、GitHub で Go のサン...
狭義の人間とコンピュータの相互作用(ヒューマン・コンピュータ・インタラクション)であろうと、広義の人...