データセットに適したクラスタリングアルゴリズムを選択する方法

クラスタリングアルゴリズムを適用するのは、最適なアルゴリズムを選択するよりもはるかに簡単です。それぞれのタイプには長所と短所があり、整然としたクラスター構造が必要な場合は慎重に検討する必要があります。

データのクラスタリングは、全体的なデータモデルを正しく配置するための重要なステップです。分析の目的で、情報は共通点に基づいて整理する必要があります。主な疑問は、どの共通パラメータが最良の結果をもたらすか、そして「最良の」とはどういう意味かということです。

この記事では、最も広く普及しているクラスタリングアルゴリズムとその詳細な説明を紹介します。各方法の特異性に基づいて、そのアプリケーションの使用に関する推奨事項が提供されます。

4つの基本アルゴリズムとその選択方法

クラスタリングモデルに基づいて、アルゴリズムの一般的なカテゴリを 4 つに区別できます。一般的に言えば、アルゴリズムは 100 種類以上ありますが、その人気と応用分野はそれほど広くありません。

データセット全体のオブジェクト間の距離に基づく計算は、接続ベースまたは階層ベースと呼ばれます。アルゴリズムの「方向」に応じて、情報の配列を統合したり、逆に分割したりできます。集約と分割という名前は、この正確な変化から生まれました。最も人気があり、合理的なタイプは凝集型です。凝集型では、最初にデータポイントの数を入力し、それらのデータポイントを制限に達するまでより大きなクラスターにマージします。

接続性に基づくクラスタリングの最も顕著な例は植物の分類です。データセットの「ツリー」は特定の種から始まり、いくつかの植物「界」で終わります。各界はより小さなクラスター (門、綱、目など) で構成されています。

接続性ベースのアルゴリズムの 1 つを適用すると、クラスターへの明確な分離ではなく、情報の構造を示すデータの樹形図が表示されます。このような特性には利点と欠点の両方があります。アルゴリズムの複雑さが過度になるか、階層がほとんどまたはまったくないデータセットには適用できなくなる可能性があります。パフォーマンスも低下します。繰り返し処理が多いため、処理全体に多くの時間がかかります。最も重要なことは、階層型アルゴリズムを使用して正確な構造を取得することは不可能であるということです。

同時に、カウンターから入力する必要があるデータは、最終結果に大きな影響を与えないデータポイントの数、または大まかな測定値である事前設定された距離メトリックになります。

私の経験では、中心体ベースのクラスタリングは、その単純さから最も一般的なモデルです。このモデルの目的は、データセットの各オブジェクトを特定のクラスターに分類することです。クラスターの数 (k) はランダムに選択されますが、これがおそらくこの方法の最大の「弱点」です。このアルゴリズムは、k 最近傍 (kNN) 法に似ているため、機械学習で特に人気があります。

計算プロセスはいくつかのステップで構成されます。まず、入力データと、データセットを分割するクラスターのおおよその数を選択します。クラスターの中心はできるだけ離して配置する必要があります。これにより、結果の精度が向上します。

次に、アルゴリズムはデータセットの各オブジェクトと各クラスター間の距離を計算します。最小座標によって、オブジェクトがどのクラスターに移動されるかが決まります。

その後、すべてのオブジェクト座標の平均に基づいてクラスターの中心が再計算されます。アルゴリズムの最初のステップが繰り返されますが、クラスターの新しい中心が再計算されます。このような反復は、特定の条件が満たされない限り継続されます。たとえば、クラスターの中心が最後の反復以降に移動していないか、大幅に移動していない場合に、アルゴリズムが終了することがあります。

数学的にもコーディング的にもシンプルであるにもかかわらず、k-means には、あらゆる場所で使用できるわけではないという欠点がいくつかあります。これには以下が含まれます:

優先順位は境界ではなくクラスターの中心に設定されるため、各クラスターの端は無視されます。
オブジェクトを均等に複数のクラスターに分類できるデータセット構造を作成することはできません。
このゲージを指定するには、最適な k 値を推測するか、予備計算を行う必要があります。

一方、期待最大化アルゴリズムは、それらの複雑さを回避しながら、より高い精度を提供します。つまり、各データセットポイントと指定したすべてのクラスターとの関連付けの確率を計算します。このクラスタリングモデルに使用される主な「ツール」は、データセットのポイントが一般にガウス分布に従うと想定したガウス混合モデル (GMM) です。

k-means アルゴリズムは基本的に EM 原理の簡略化されたバージョンです。これらすべてではクラスターの数を手動で入力する必要があり、これがこの方法が直面する主な問題です。それ以外では、計算原理（GMM または k-means の場合）は単純です。クラスターのおおよその範囲は、新しい反復ごとに徐々に指定されます。

重心ベースのモデルとは異なり、EM アルゴリズムでは、ポイントを 2 つ以上のクラスターに分類できます。各イベントの確率が表示されるだけなので、これをさらに分析するために使用できます。さらに重要なのは、各クラスターの境界が異なるメトリックの楕円体を形成することです。これは、クラスターが視覚的に円として表される k-means とは異なります。ただし、このアルゴリズムは、オブジェクトがガウス分布に従わないデータセットではまったく機能しません。これがこの方法の主な欠点です。実際の測定や観察よりも理論的な問題に適しています。

最終的に、密度ベースのクラスタリングは、モデルの要点、データセットのクラスターへの分割、およびイプシロンパラメーター (「近傍」距離) を入力するカウンターで構成される、データサイエンティストの間で非公式のお気に入りになりました。したがって、オブジェクトが半径 ε の円 (球) 内に存在する場合、そのオブジェクトはクラスターに関連付けられます。

DBSCAN (ノイズを含むアプリケーションの密度ベースの空間クラスタリング) アルゴリズムは、各オブジェクトを段階的にチェックし、そのステータスを「確認済み」に変更し、クラスターまたはノイズに分類して、最終的にデータセット全体を処理します。 DBSCAN を使用して決定されたクラスターは任意の形状を持つことができるため、非常に正確です。また、アルゴリズムではクラスターの数を計算する必要はなく、自動的に決定されます。

しかし、DBSCAN のような傑作にも欠点はあります。この方法では、データセットがさまざまな密度のデータセットで構成されている場合、結果は良くありません。物体が近すぎてイプシロンパラメータを簡単に推定できない場合は、これも選択肢ではありません。

要約すると、間違ったアルゴリズムの選択はありません。一部のアルゴリズムは、特定のデータセット構造に適しているというだけです。最良かつより適切なアルゴリズムを選択するには、その長所、短所、機能を総合的に理解する必要があります。

一部のアルゴリズムは、データセットの仕様に準拠していないなどの理由で、最初から除外される場合があります。繰り返しの作業を避けるために、試行錯誤するのではなく、少し時間をかけて情報を整理し、記憶することができます。

<<: AIの中心的な難しさの1つ：感情分析の一般的な種類と課題

>>: AIの新興企業が胡潤富豪リストに名を連ねる：「CVの4人の小さなドラゴン」の創業者3人がリスト入り