データセットに適したクラスタリングアルゴリズムを選択する方法

データセットに適したクラスタリングアルゴリズムを選択する方法

クラスタリング アルゴリズムを適用するのは、最適なアルゴリズムを選択するよりもはるかに簡単です。 それぞれのタイプには長所と短所があり、整然としたクラスター構造が必要な場合は慎重に検討する必要があります。

データのクラスタリングは、全体的なデータ モデルを正しく配置するための重要なステップです。分析の目的で、情報は共通点に基づいて整理する必要があります。 主な疑問は、どの共通パラメータが最良の結果をもたらすか、そして「最良の」とはどういう意味かということです。

この記事では、最も広く普及しているクラスタリング アルゴリズムとその詳細な説明を紹介します。各方法の特異性に基づいて、そのアプリケーションの使用に関する推奨事項が提供されます。

4つの基本アルゴリズムとその選択方法

クラスタリング モデルに基づいて、アルゴリズムの一般的なカテゴリを 4 つに区別できます。一般的に言えば、アルゴリズムは 100 種類以上ありますが、その人気と応用分野はそれほど広くありません。

データセット全体のオブジェクト間の距離に基づく計算は、接続ベースまたは階層ベースと呼ばれます。アルゴリズムの「方向」に応じて、情報の配列を統合したり、逆に分割したりできます。集約と分割という名前は、この正確な変化から生まれました。最も人気があり、合理的なタイプは凝集型です。凝集型では、最初にデータ ポイントの数を入力し、それらのデータ ポイントを制限に達するまでより大きなクラスターにマージします。

接続性に基づくクラスタリングの最も顕著な例は植物の分類です。データセットの「ツリー」は特定の種から始まり、いくつかの植物「界」で終わります。各界はより小さなクラスター (門、綱、目など) で構成されています。

接続性ベースのアルゴリズムの 1 つを適用すると、クラスターへの明確な分離ではなく、情報の構造を示すデータの樹形図が表示されます。このような特性には利点と欠点の両方があります。アルゴリズムの複雑さが過度になるか、階層がほとんどまたはまったくないデータセットには適用できなくなる可能性があります。パフォーマンスも低下します。繰り返し処理が多いため、処理全体に多くの時間がかかります。最も重要なことは、階層型アルゴリズムを使用して正確な構造を取得することは不可能であるということです。

同時に、カウンターから入力する必要があるデータは、最終結果に大きな影響を与えないデータ ポイントの数、または大まかな測定値である事前設定された距離メトリックになります。

私の経験では、中心体ベースのクラスタリングは、その単純さから最も一般的なモデルです。このモデルの目的は、データセットの各オブジェクトを特定のクラスターに分類することです。クラスターの数 (k) はランダムに選択されますが、これがおそらくこの方法の最大の「弱点」です。このアルゴリズムは、k 最近傍 (kNN) 法に似ているため、機械学習で特に人気があります。

計算プロセスはいくつかのステップで構成されます。まず、入力データと、データセットを分割するクラスターのおおよその数を選択します。クラスターの中心はできるだけ離して配置する必要があります。これにより、結果の精度が向上します。

次に、アルゴリズムはデータセットの各オブジェクトと各クラスター間の距離を計算します。最小座標によって、オブジェクトがどのクラスターに移動されるかが決まります。

その後、すべてのオブジェクト座標の平均に基づいてクラスターの中心が再計算されます。アルゴリズムの最初のステップが繰り返されますが、クラスターの新しい中心が再計算されます。このような反復は、特定の条件が満たされない限り継続されます。たとえば、クラスターの中心が最後の反復以降に移動していないか、大幅に移動していない場合に、アルゴリズムが終了することがあります。

数学的にもコーディング的にもシンプルであるにもかかわらず、k-means には、あらゆる場所で使用できるわけではないという欠点がいくつかあります。これには以下が含まれます:

  • 優先順位は境界ではなくクラスターの中心に設定されるため、各クラスターの端は無視されます。
  • オブジェクトを均等に複数のクラスターに分類できるデータセット構造を作成することはできません。
  • このゲージを指定するには、最適な k 値を推測するか、予備計算を行う必要があります。

一方、期待最大化アルゴリズムは、それらの複雑さを回避しながら、より高い精度を提供します。つまり、各データセット ポイントと指定したすべてのクラスターとの関連付けの確率を計算します。このクラスタリング モデルに使用される主な「ツール」は、データセットのポイントが一般にガウス分布に従うと想定したガウス混合モデル (GMM) です。

k-means アルゴリズムは基本的に EM 原理の簡略化されたバージョンです。これらすべてではクラスターの数を手動で入力する必要があり、これがこの方法が直面する主な問題です。それ以外では、計算原理(GMM または k-means の場合)は単純です。クラスターのおおよその範囲は、新しい反復ごとに徐々に指定されます。

重心ベースのモデルとは異なり、EM アルゴリズムでは、ポイントを 2 つ以上のクラスターに分類できます。各イベントの確率が表示されるだけなので、これをさらに分析するために使用できます。さらに重要なのは、各クラスターの境界が異なるメトリックの楕円体を形成することです。これは、クラスターが視覚的に円として表される k-means とは異なります。ただし、このアルゴリズムは、オブジェクトがガウス分布に従わないデータセットではまったく機能しません。これがこの方法の主な欠点です。実際の測定や観察よりも理論的な問題に適しています。

最終的に、密度ベースのクラスタリングは、モデルの要点、データセットのクラスターへの分割、およびイプシロン パラメーター (「近傍」距離) を入力するカウンターで構成される、データ サイエンティストの間で非公式のお気に入りになりました。したがって、オブジェクトが半径 ε の円 (球) 内に存在する場合、そのオブジェクトはクラスターに関連付けられます。

DBSCAN (ノイズを含むアプリケーションの密度ベースの空間クラスタリング) アルゴリズムは、各オブジェクトを段階的にチェックし、そのステータスを「確認済み」に変更し、クラスターまたはノイズに分類して、最終的にデータセット全体を処理します。 DBSCAN を使用して決定されたクラスターは任意の形状を持つことができるため、非常に正確です。また、アルゴリズムではクラスターの数を計算する必要はなく、自動的に決定されます。

しかし、DBSCAN のような傑作にも欠点はあります。この方法では、データセットがさまざまな密度のデータ セットで構成されている場合、結果は良くありません。物体が近すぎてイプシロンパラメータを簡単に推定できない場合は、これも選択肢ではありません。

要約すると、間違ったアルゴリズムの選択はありません。一部のアルゴリズムは、特定のデータセット構造に適しているというだけです。最良かつより適切なアルゴリズムを選択するには、その長所、短所、機能を総合的に理解する必要があります。

一部のアルゴリズムは、データセットの仕様に準拠していないなどの理由で、最初から除外される場合があります。繰り返しの作業を避けるために、試行錯誤するのではなく、少し時間をかけて情報を整理し、記憶することができます。

<<:  AIの中心的な難しさの1つ:感情分析の一般的な種類と課題

>>:  AIの新興企業が胡潤富豪リストに名を連ねる:「CVの4人の小さなドラゴン」の創業者3人がリスト入り

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

組織内の AI スキルを向上させる 3 つのステップ

[[350689]]今日、ほとんどの組織は人工知能が遍在する世界に向けて準備を進めています。この進化...

MoEとMambaが協力し、状態空間モデルを数百億のパラメータに拡張

状態空間モデル (SSM) は、最近注目を集めている Transformer の代替手段です。その利...

リスト発表:海雲捷雲の田良氏が「2021年科学技術影響力のある人物賞」を受賞

著名なIT技術メディア51CTOが主催する第16回中国企業年次選考活動「IT印象:イノベーションの活...

自動化戦略の6つの重要な要素

[[440295]] IT 自動化は多くの場合、自然に発生します。たとえば、システム管理者は、日常業...

写真にピクセルレベルの透かしをひっそり追加: AI による芸術作品の「盗作」を防ぐ方法が発見されました

オープンソースのAI画像生成モデル「Stable Diffusion」のリリース以来、デジタルアート...

美団の店舗ビジネスにおける異種広告混合配置の探求と実践

著者 | 屈譚旭洋 他LBS (位置情報サービス) の距離制約により、候補数が少ないと店内広告ランキ...

モデルはわずか7M:軽量で高精度な顔認識方式DBFace

わずか 7M サイズのこの顔認識モデルは、世界最大の自撮り写真に写っているほぼすべての人物を認識しま...

スマートドライビングに才能が注ぎ込む:合理性と狂気が共存

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

核酸の結果を数えるのは難しいですか?復旦大学の博士課程の学生の活動が人気に

核酸レポートの手動検証は時間がかかり、面倒で、エラーが発生しやすくなります。どうすればよいでしょうか...

AIデータサービス業界は「認知戦争」に突入。なぜYunce Dataは業界No.1の座を維持しているのか?

新しいインフラストラクチャにより、AI の実装が加速され、その背後にある「糧」である AI データ ...

...

...

リアルタイム6自由度オブジェクトトラッキングを実現するDeepACが登場

本記事では、国立国防科技大学の劉宇教授チームと浙江大学-SenseTime合同研究室の周暁偉教授チー...