機械学習: 教師なし学習: 9 つのクラスタリング アルゴリズム

機械学習: 教師なし学習: 9 つのクラスタリング アルゴリズム

今日は、機械学習の教師なし学習における一般的なクラスタリング手法をいくつか紹介したいと思います。

教師なし学習では、データにラベルが付いていないため、教師なし学習で必要なのは、この一連のラベルなしデータをアルゴリズムに入力し、アルゴリズムにデータに暗黙的に含まれる構造を見つけさせることです。下の図のデータから、データセット内のポイントを 2 つの別々のポイント セット (クラスター) に分割できるという構造が見つかります。これらのクラスターを循環させることができるアルゴリズムは、クラスタリング アルゴリズムと呼ばれます。

クラスタリングアルゴリズムの応用

  • 市場セグメンテーション: データベース内の顧客情報を市場ごとにグループ化し、異なる市場に応じて個別に販売したりサービスを改善したりします。
  • ソーシャル ネットワーク分析: 最も頻繁にメールを送信する相手と、最も頻繁にメールを送信する相手に基づいて、親密なグループを見つけます。
  • コンピュータ クラスターの編成: データ センターでは、コンピュータ クラスターが連携して、リソースの再編成、ネットワークの再レイアウト、データ センターの最適化、データの通信を行うことがよくあります。
  • 天の川の構成について学びましょう。この情報を活用して天文学を学びましょう。

クラスター分析の目的は、同じクラスターに割り当てられた観測値間のペアワイズ差が、異なるクラスター内の観測値間の差よりも小さくなるように、観測値をグループ (「クラスター」) に分割することです。クラスタリング アルゴリズムは、組み合わせアルゴリズム、ハイブリッド モデリング、パターン検索の 3 つのカテゴリに分類されます。

一般的なクラスタリング アルゴリズムには次のようなものがあります。

  • K平均法クラスタリング
  • 階層的クラスタリング
  • 凝集型クラスタリング
  • 親和性の伝播
  • 平均シフトクラスタリング
  • K平均法の二分法
  • DBスキャン
  • 光学
  • バーチ

K平均法

K-means アルゴリズムは、最も人気のあるクラスタリング手法の 1 つです。

K 平均法は、1957 年にベル研究所のスチュアート ロイドによって提案されました。当初はパルス符号変調に使用されていましたが、アルゴリズムは 1982 年まで公開されませんでした。 1965 年に Edward W. Forgy が同じアルゴリズムを公開したため、K-Means は Lloyd-Forgy と呼ばれることもあります。

クラスタリングの問題では、ラベルのないデータセットが与えられ、アルゴリズムによってこれらのデータを自動的に一貫したサブセットまたはクラスターに分割できることを期待します。 K-means アルゴリズムは、最も人気があり、広く使用されているクラスタリング アルゴリズムです。

K-means アルゴリズムの直感的な理解:

ラベルのないデータセット(上図の左側)があり、それを 2 つのクラスターに分割するとします。次に、K 平均法アルゴリズムを実行します。具体的な操作は次のとおりです。

  • 最初のステップは、ランダムに 2 つのポイントを生成することです (データを 2 つのカテゴリにクラスタリングするため) (上の図の右側)。これらの 2 つのポイントは、クラスタ セントロイドと呼ばれます。
  • 2 番目のステップは、K 平均法アルゴリズムの内部ループを実行することです。 K-means アルゴリズムは、2 つのことを実行する反復アルゴリズムです。1 つ目はクラスターの割り当て、2 つ目は重心を移動することです。

内側のループの最初のステップは、クラスター割り当てを実行することです。つまり、各サンプルを走査し、クラスター センターからの距離に基づいて各ポイントを異なるクラスター センターに割り当てます。この例では、データ セットを走査し、各ポイントを赤または青で色付けします。

内側のループの 2 番目のステップは、クラスターの中心を移動して、赤と青のクラスターの中心をそれぞれのポイントの平均 (各ポイント グループの平均位置) に移動することです。

次のステップは、新しいクラスターの中心からの距離に基づいてすべてのポイントを新しいクラスターに割り当て、クラスターの中心の位置が反復で変化しなくなり、ポイントの色も変化しなくなるまでこのサイクルを繰り返すことです。この時点で、K 平均法が集約されたと言えます。このアルゴリズムは、データ内の 2 つのクラスターを非常にうまく見つけ出します。

K-Means アルゴリズムの利点:

理解しやすく、計算速度が速く、大規模なデータセットに適しています。

欠点:

  • 例えば、非球形クラスターの処理能力は低く、初期クラスター中心の選択の影響を受けやすく、クラスター数 K を事前に指定する必要があります。
  • さらに、データ ポイント間にノイズや外れ値がある場合、K-Means アルゴリズムによってそれらが間違ったクラスターに割り当てられる可能性があります。

階層的クラスタリング

階層的クラスタリングは、その名前が示すように、サンプル セットを特定のレベルに従ってクラスタ化します。ここでのレベルは、実際には特定の距離の定義を指します。

階層的クラスタリングの最終的な目標はカテゴリの数を減らすことなので、その動作はツリー図がリーフノードからルートノードに移動するプロセスに似ており、この動作は「ボトムアップ」とも呼ばれます。

より一般的には、階層的クラスタリングでは、初期化された複数のクラスターをツリー ノードとして扱います。各反復で、類似のクラスターが新しい大きなクラスターにマージされ、このプロセスは 1 つのクラスター (ルート ノード) だけが残るまで繰り返されます。

階層的クラスタリング戦略は、凝集型(ボトムアップ)と分割型(トップダウン)の 2 つの基本パラダイムに分けられます。

階層的クラスタリングの反対は、DIANA (Divise Analysis) とも呼ばれる分割クラスタリングで、「トップダウン」方式で動作します。

K-means を適用した結果は、検索するクラスターの数の選択と開始構成の割り当てによって異なります。対照的に、階層的クラスタリング手法ではそのような仕様は必要ありません。代わりに、ユーザーは、2 つの観測グループ間のペアワイズ非類似度に基づいて、観測の (互いに素な) グループ間の非類似度の尺度を指定する必要があります。名前が示すように、階層表現が生成され、階層の各レベルのクラスターは、次の下位レベルのクラスターをマージすることによって作成されます。最下位レベルでは、各クラスターに 1 つの観測値が含まれます。最高レベルでは、すべてのデータを含むクラスターが 1 つだけあります。

アドバンテージ:

  • 距離とルールの類似性は定義が簡単で、制限もほとんどありません。
  • クラスターの数を事前に決定する必要はありません。
  • クラスの階層関係を発見できます。
  • 他の形状にクラスター化できます。

欠点:

  • 計算の複雑さが高すぎる。
  • 特異値も大きな影響を与える可能性があります。
  • アルゴリズムはチェーン状に集まる可能性があります。

凝集型クラスタリング

凝集型クラスタリングは、各データ ポイントを初期クラスターとして扱い、停止条件に達するまで徐々にそれらをより大きなクラスターにマージするボトムアップ クラスタリング アルゴリズムです。このアルゴリズムでは、各データ ポイントは最初に個別のクラスターとして扱われ、その後、すべてのデータ ポイントが 1 つの大きなクラスターに結合されるまで、クラスターは段階的に結合されます。

アドバンテージ:

  • さまざまな形状やサイズのクラスターに適用でき、クラスターの数を事前に指定する必要はありません。
  • このアルゴリズムは、クラスター階層を出力することで、簡単に分析および視覚化することもできます。

欠点:

  • 特に大規模なデータセットを処理する場合は計算の複雑さが増し、大量の計算リソースとストレージスペースが必要になります。
  • このアルゴリズムは初期クラスターの選択にも敏感であり、異なるクラスタリング結果をもたらす可能性があります。

親和性の伝播

アフィニティ伝播 (AP) アルゴリズムは、通常、近隣伝播アルゴリズムまたはアフィニティ伝播アルゴリズムとして翻訳されます。

アフィニティ伝播は、グラフ理論に基づくクラスタリング アルゴリズムであり、データ内の「標本」(代表的なポイント) と「クラスター」(クラスター) を識別することを目的としています。 K-Means などの従来のクラスタリング アルゴリズムとは異なり、Affinity Propagation では、クラスターの数を事前に指定する必要はなく、クラスターの中心をランダムに初期化する必要もありません。代わりに、データ ポイント間の類似性を計算することで、最終的なクラスタリング結果を取得します。

アドバンテージ:

  • 最終的なクラスター数を指定する必要はありません
  • 新しいクラスター センターを生成する代わりに、既存のデータ ポイントが最終的なクラスター センターとして使用されます。
  • モデルはデータの初期値の影響を受けません。
  • 初期の類似性マトリックス データの対称性は必要ありません。
  • k-center クラスタリング法と比較すると、結果の二乗誤差は小さくなります。

欠点:

  • このアルゴリズムは計算が非常に複雑であり、大量のストレージスペースと計算リソースを必要とします。
  • ノイズポイントや外れ値を処理する能力が弱い。

平均シフトクラスタリング

平均シフト クラスタリングは、密度ベースのノンパラメトリック クラスタリング アルゴリズムです。基本的な考え方は、データ ポイントの密度が最も高い場所 (「局所的最大値」または「ピーク」と呼ばれる) を見つけることで、データ内のクラスターを識別することです。アルゴリズムの中核は、各データ ポイントに対してローカル密度推定を実行し、密度推定の結果を使用してデータ ポイントの移動方向と距離を計算することです。アルゴリズムの中核は、各データ ポイントに対してローカル密度推定を実行し、密度推定の結果を使用してデータ ポイントの移動方向と距離を計算することです。

アドバンテージ:

  • クラスターの数を指定する必要がなく、複雑な形状のクラスターにも適しています。
  • このアルゴリズムは、ノイズの多いデータも効果的に処理できます。

欠点:

  • 特に大規模なデータセットを処理する場合は計算の複雑さが増し、多くの計算リソースとストレージスペースが必要になります。
  • このアルゴリズムは初期パラメータの選択にも敏感であり、パラメータの調整と最適化が必要です。

K平均法の二分法

二分 K 平均法は、K 平均法アルゴリズムに基づく階層的クラスタリング アルゴリズムです。基本的な考え方は、すべてのデータ ポイントを 1 つのクラスターに分割し、そのクラスターを 2 つのサブクラスターに分割し、各サブクラスターに K 平均法アルゴリズムを個別に適用し、クラスターの数が所定の数に達するまでこのプロセスを繰り返すことです。

このアルゴリズムは、まずすべてのデータ ポイントを 1 つの初期クラスターと見なし、次にこのクラスターに K-Means アルゴリズムを適用し、クラスターを 2 つのサブクラスターに分割して、各サブクラスターの二乗誤差の合計 (SSE) を計算します。次に、二乗誤差の合計が最大となるサブクラスターが選択され、再度 2 つのサブクラスターに分割され、このプロセスがクラスターの所定の数に達するまで繰り返されます。

アドバンテージ:

  • 精度と安定性が高く、大規模なデータセットを効果的に処理でき、初期のクラスター数を指定する必要がありません。
  • このアルゴリズムは、クラスタリング階層を出力することもできるため、分析や視覚化が容易になります。

欠点:

  • 特に大規模なデータセットを処理する場合は計算の複雑さが増し、大量の計算リソースとストレージスペースが必要になります。
  • さらに、このアルゴリズムは初期クラスターの選択にも敏感であり、異なるクラスタリング結果が生じる可能性があります。

DBスキャン

ノイズを含むアプリケーションの密度ベース空間クラスタリング (DBSCAN) は、典型的な密度ベースの空間クラスタリング アルゴリズムです。

密度ベースの方法の特徴は、距離ではなく密度に依存するため、距離ベースのアルゴリズムでは「球状の」クラスターしか発見できないという欠点を克服できることです。

DBSCAN アルゴリズムの基本的な考え方は、特定のデータ ポイントについて、その密度が特定のしきい値に達するとクラスターに属し、それ以外の場合はノイズ ポイントとみなされるというものです。

アドバンテージ:

  • このタイプのアルゴリズムは、距離ベースのアルゴリズムでは「準円形」(凸型)のクラスターしか見つけられないという欠点を克服できます。
  • 任意の形状のクラスターを見つけることができ、ノイズの多いデータの影響を受けません。
  • クラスターの数を指定する必要はありません。
  • アルゴリズムには、スキャン半径 (eps) と含まれるポイントの最小数 (min_samples) の 2 つのパラメーターのみがあります。

欠点:

  • 計算の複雑さ: 最適化を行わない場合、アルゴリズムの時間計算量は O(N^{2}) であり、通常は R ツリー、kd ツリー、ボールを使用できます。
  • ツリーインデックスは計算を高速化し、アルゴリズムの時間計算量を O(Nlog(N)) に削減するために使用されます。
  • EPSの影響を大きく受けます。クラス内のデータ分布密度が不均一な場合、eps が小さいと、密度が小さいクラスターは類似した特性を持つ複数のクラスターに分割され、eps が大きいと、距離が近く密度が大きいクラスターは 1 つのクラスターに結合されます。高次元データでは、次元の呪いにより eps の選択が困難になります。
  • 距離の式の選択によって異なります。次元の呪いのため、距離メトリックは重要ではありません。
  • EPS とメトリックの選択が難しいため、密度差が大きいデータセットには適していません。

光学

OPTICS (Ordering Points To Identify the Clustering Structure) は、クラスターの数を自動的に決定し、任意の形状のクラスターを検出し、ノイズの多いデータを処理できる密度ベースのクラスタリング アルゴリズムです。

OPTICS アルゴリズムの中心的な考え方は、特定のデータ ポイントについて、他のポイントまでの距離を計算することで、密度の観点からの到達可能性を決定し、密度ベースの距離グラフを構築するというものです。次に、距離マップをスキャンすることで、クラスターの数が自動的に決定され、各クラスターが分割されます。

アドバンテージ:

  • クラスターの数を自動的に決定し、任意の形状のクラスターを処理し、ノイズの多いデータを効果的に処理できます。
  • このアルゴリズムは、クラスタリング階層を出力することもできるため、分析や視覚化が容易になります。

欠点:

  • 特に大規模なデータセットを処理する場合は計算の複雑さが増し、大量の計算リソースとストレージスペースが必要になります。
  • このアルゴリズムでは、密度の差が大きいデータ セットの場合、クラスタリング結果が悪くなる可能性があります。

バーチ

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) は、階層的クラスタリングに基づくクラスタリング アルゴリズムです。大規模なデータ セットを迅速に処理でき、任意の形状のクラスタに優れた効果を発揮します。

BIRCH アルゴリズムの中心的な考え方は、データセットに対して階層的クラスタリングを実行することでデータサイズを徐々に削減し、最終的にクラスター構造を取得することです。 BIRCH アルゴリズムは、CF ツリーと呼ばれる B ツリーに似た構造を使用します。これにより、サブクラスターをすばやく挿入および削除でき、クラスターの品質と効率を確保するために自動的にバランスをとることができます。

アドバンテージ:

  • 大規模なデータセットを迅速に処理でき、任意の形状のクラスターに優れた効果をもたらします。
  • このアルゴリズムは、ノイズの多いデータや外れ値に対しても優れた耐性を持っています。

欠点:

  • 密度の差が大きいデータ セットの場合、クラスタリングの結果が悪くなる可能性があります。
  • また、高次元データセットに対しては、他のアルゴリズムほど効果的ではありません。

<<:  ネット全体が「被験者3」を真似し、メッシ、アイアンマン、二次元の女の子が即勝利

>>:  ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功

ブログ    
ブログ    
ブログ    

推薦する

人工知能がビジネスの生産性を変革する方法

[[244003]]既存の AI ツールやサービスは、従業員に代わるものではなく、ワークフローの改善...

旅の途中を超えて?文脈学習に基づく画像拡散モデルのトレーニング [Frontiers]

1. 背景知識 - テキスト画像生成の現状まずは背景知識をご紹介します。テキスト画像生成モデルにつ...

調査によると、中国の従業員の88%が人間の上司よりもロボットを信頼している

[[279631]]中国の従業員は職場でロボットをより信頼しているのでしょうか?調査によると、中国の...

Tencent TRS: 産業実践におけるメタ学習とクロスドメイン推奨

1. メタ学習1. パーソナライズモデリングの問題点推奨シナリオでは、データの 80% 分布の問題に...

アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

アマゾンの幹部は7月27日、クラウドコンピューティング部門が人工知能サービス「ベッドロック」を試す顧...

機械学習を始めるときによくある5つの間違い

[[195041]]機械学習を始めるにあたって、万能のアプローチは存在しません。私たちは皆、少しずつ...

...

多くのライターがChatGPTを著作権侵害で非難した。OpenAI: 著作権の範囲を誤解している

8月31日、OpenAIは今週、原告に数人の作家を含むほぼ同一の集団訴訟2件に応じた。彼らは、Cha...

美団下華夏:「無人配達」は技術的に難しいことではない

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

2021年世界の最新人工知能技術9選

1. 自然言語生成自然言語生成は、構造化されたデータをネイティブ言語に変換する流行のテクノロジーです...

注目の話題レビュー:人工知能市場規模は100兆元を超え、爆発的な成長を導く

AI(人工知能)は、研究開発を通じて人間の理論、方法、技術、アプリケーション システムをシミュレート...

人工知能の主要技術分野のレビュー

[[441598]] AI への準備プロセスの多くは組織の変更です。人工知能の利用には、ニューカラー...

人工知能を使ったチャットボットの構築方法

今日、世界は、パーソナライズされたエクスペリエンスを提供しながら、人間が重要な決定を下したり、重要な...