素晴らしいクラスタリングアルゴリズムがサイエンス誌に掲載されました

素晴らしいクラスタリングアルゴリズムがサイエンス誌に掲載されました

著者 (Alex Rodriguez、Alessandro Laio) は、さまざまな形状のクラスターを識別でき、ハイパーパラメータを簡単に決定できる非常にシンプルでエレガントなクラスタリング アルゴリズムを提案しました。

アルゴリズムのアイデア

このアルゴリズムでは、クラスターの中心が比較的低い局所密度を持ついくつかの点に囲まれており、これらの点は他の高い局所密度を持つ点から遠く離れていると想定しています。まず、局所密度 ρi と高い局所密度の点までの距離 δi という 2 つの値を定義します。

dc はカットオフ距離で、ハイパーパラメータです。したがって、ρi は、ポイント i からの距離が dc 未満のポイントの数に相当します。アルゴリズムは ρi の相対値にのみ敏感なので、dc の選択は比較的堅牢です。推奨されるアプローチは、各ポイントの近傍の平均数がすべてのポイントの 1% ~ 2% になるように dc を選択することです。

最も密度の高いポイントについては、局所的または全体的に極端な密度を持つポイントのみ、隣接するポイント間の間隔が通常よりも大きくなることに注意してください。

クラスタリングプロセス

比較的大きな局所密度 ρi と大きな δi を持つポイントは、クラスターの中心と見なされます。局所密度は小さいが δi が大きいポイントは外れ値です。クラスターの中心を決定した後、他のすべてのポイントは、最も近いクラスターの中心によって表されるクラスターに属します。次に例を示します。

左の図は2次元空間におけるすべての点の分布を示し、右の図はρを水平座標、δを垂直座標として示しています。このような図は決定木と呼ばれます。点1と10のρiとδiはどちらも比較的大きく、クラスターの中心点であることがわかります。点26、27、28のδiも比較的大きいですが、ρiは小さいため外れ値です。

クラスター分析

クラスター分析では、通常、特定のクラスターに割り当てられる各ポイントの信頼性を判断する必要があります。このアルゴリズムでは、まず各クラスターの境界領域、つまりクラスターに割り当てられているが、他のクラスターのポイントとの差が dc 未満のポイントを定義します。次に、各クラスターについて、境界領域内で最もローカル密度が高いポイントを見つけ、そのローカル密度を ρh とします。クラスター内でローカル密度が ρh より大きいすべてのポイントは、クラスター コアの一部であると見なされます (つまり、ポイントをクラスターに割り当てる信頼性が非常に高い)。残りのポイントは、クラスターのハローであると見なされます (つまり、ノイズと見なすことができます)。次に例を示します。

図 A は生成されたデータの確率分布であり、図 B と C はそれぞれ分布から 4000 と 1000 のポイントを生成します。図 D と E はそれぞれ 2 つのデータ グループ B と C の決定木です。両方のデータ グループには、ρi と δi が比較的大きいポイントが 5 つしかないことがわかります。これらのポイントはクラスターの中心です。クラスターの中心を決定した後、各ポイントはさまざまなクラスター (色付きのポイント) またはクラスター ハロー (黒いポイント) に分割されます。図 F は、サンプリングされたポイントの数が増えるにつれて、クラスタリング エラー率が徐々に低下し、アルゴリズムが堅牢であることを示しています。

***さまざまなデータ分布に対するアルゴリズムのクラスタリング効果を示します。非常に優れています。

参考文献:

[1] 密度ピークの高速探索と発見によるクラスタリング。アレックス・ロドリゲス、アレッサンドロ・ライオ

この記事はKemaswill のブログから引用しました

<<:  機械学習アルゴリズム(1):決定木とランダムフォレスト

>>:  プログラマーを夢中にさせるソートアルゴリズムに関するビデオ

ブログ    
ブログ    

推薦する

AI 教育がアメリカの高校の授業に導入: 普遍的な AI 学習までどのくらいの距離があるのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

「中関村スマートAIパートナープログラム」の登録受付が開始

「中関村スマート人工知能パートナープログラム」(以下、プログラム)の登録は2021年3月1日に正式に...

人工知能が火星の新しいクレーターの発見に貢献

人工知能ツールによって特定された、火星の最新のクレーター群の高解像度画像。画像出典: Space.c...

...

...

顔認識技術と表情認識の最新研究の紹介

[[351523]] 1. 顔認識技術の紹介生体認証技術として、顔認証は非侵入的、非接触、フレンドリ...

2015年9月のプログラミング言語ランキング: 新しいインデックスアルゴリズムにより急上昇が解消

9月に、TIOBE Indexは改良されたアルゴリズムを使用してプログラミング言語の人気度を計算しま...

よく使われる4つの推奨アルゴリズムの一覧

[[416976]]この記事はWeChatの公開アカウント「Big Data DT」から転載したもの...

パートナーはいますか? Facebookの従業員が休暇中にロボットを家に持ち帰り、死に関する質問に答える

[[286539]]ビッグデータダイジェスト制作著者: 張大毓如、陳若夢春節が近づいてきました!叔母...

OpenAI 開発者会議: OpenAI が AI 分野で再び波を起こす方法

AI業界の実務家にとっては、眠れない夜を過ごしたかもしれない。北京時間11月7日早朝、アメリカの人工...

CPU、TPU、GPU、DPU、QPUについて学ぶ

AIの人気に伴い、CPU、TPU、GPU、DPU、QPUなどの略語がさまざまなメディアで飛び交ってい...

...

...

なぜ機械学習展開プラットフォームを Python ではなく Go で作成したのでしょうか?

Python は機械学習の分野で広く使われるようになりました。しかし、Python は、全能の神が...

Text2Image: NLP への新しいアプローチ

コンピュータービジョンと比較すると、自然言語処理 (NLP) は長い間解決が難しい問題であると考えら...