データマイニングのためのK平均法アルゴリズムのグラフィカルな説明

データマイニングのためのK平均法アルゴリズムのグラフィカルな説明

K-means クラスタリング アルゴリズム 中国語名は「K-means クラスタリング アルゴリズム」と呼ばれ、統計やデータ マイニングの分野でよく使用されるアルゴリズムです。 Wikipedia では次のように紹介されています: k 平均法クラスタリングは、n 個の観測値を k 個のクラスターに分割し、各観測値が最も近い平均値を持つクラスターに属するようにするクラスター分析の手法です (n 個の観測値を k 個のクラスに分割し、各クラスの観測値がそのクラスの平均に最も近くなり、他のクラスの平均から遠ざかるようにします)。

まず、最もシンプルで直感的な図を見てみましょう。

上の図にはたくさんの点があります。これを 3 つのクラスターに分割したいのですが、どうすればよいでしょうか。 人間であれば一目でわかりますが、コンピュータが分類するのはそれほど簡単ではありません。何らかのアルゴリズムを使用する必要がありますが、k-means はその 1 つです。 K-means は 2 次元空間でのクラスタリングだけでなく、n 次元ベクトル空間に拡張することもでき、文字、画像、音声なども扱うことができます。

上の図を例にとると、K-means アルゴリズムの基本的な手順は次のようになります。
入力: 処理対象となるデータセット(上図の点集合など)、クラスター数(3など)、平均計算方法(2点間の距離関数など)
ステップ 1. まず、各ポイントにランダムに色を付け、同じ色のポイントの座標の算術平均を計算して、対応する平均ポイントを示します。
ステップ 2. 現在計算されている平均ポイントに基づいてすべてのポイント セットを 3 つのカテゴリに分割し、各カテゴリの各ポイントを最も近い平均ポイントと同じ色でマークします。どうやって分けるの?ここでは、「タイソン多角形法」を紹介します。英語名は「ボロノイ図」です(記事参照***Wikipediaリンク)。それで、以下の写真ができました。

ステップ 3. すべてのポイントの色が変化しなくなるまで、ステップ 2 を繰り返します。
アルゴリズムが終了し、次の結果が出力されます。

上記の例は単純な2次元空間での例ですが、3次元空間に配置する場合は平均の計算方法を変更する必要があります。実際、多次元空間や文字、画像などの問題を扱う場合、問題によって計算式が異なります。この場合、mean の意味は「平均」ではない可能性があります。個体間の関係性を測るには、「類似性」と「相違点」を使用する方が良いかもしれません。詳細については、参考記事 1 を参照してください。

いつものように、私が書いた k-means アルゴリズムのコードを下に貼り付けるべきなのですが、残念ながらまだ Python の numpy ライブラリと matplotlib ライブラリを使って絵を描く方法を調べているところです。参考記事 2 に Python 言語のコードがあります。

***この記事の写真はすべて彼のスライドから取ったものなので、データマイニングの講師である Devert Alexandre 氏に感謝したいと思います。 ^_^

参考記事 1 参考記事 2Dベースk平均法 Wikipediaリンク ティーセン多角形法 Wikipediaリンク (ボロノイ図)

オリジナルリンク: http://blog.nlogn.cn/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98-k-means-%E7%AE%97%E6%B3%95/

<<:  地下鉄路線図のための高速経路探索アルゴリズム

>>:  再帰アルゴリズムにおけるリンクリスト操作

ブログ    
ブログ    

推薦する

12年後の人工知能と人間はどうなっているでしょうか? 900人の専門家の意見はこちら

[[253534]]編集:Tailang一部のアナリストは、2030年までに人々は複雑なデジタルシス...

モバイルデバイスでのリアルタイムディープラーニング

[[210219]] 2017 年には、モバイル アプリケーション向けのディープラーニングにおいて大...

絶対に対立なんかじゃない!短期的にはAIが人間に取って代わることができない5つの分野

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

コンピューターにビデオの字幕を認識させる

馬文華氏は、中国科学院自動化研究所でパターン認識と人工知能の博士号を取得しました。主に画像認識、ター...

ついに誰かがインテリジェント音声処理をわかりやすく説明してくれた

機械学習の急速な発展により、インテリジェントな音声処理のための強固な理論的および技術的基盤が築かれま...

知識をグラフに変換するには、いくつのステップが必要ですか?インターネット上で最も包括的な清華ナレッジグラフレポートの89ページ

ナレッジグラフは、人工知能の重要な分野技術です。2012年にGoogleによって提案され、大規模な知...

なぜソートするのですか?ソートアルゴリズムのパフォーマンスを向上させる方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

Redditのランキングアルゴリズムの仕組み

これは、「Hacker News のランキング アルゴリズムの仕組み」に続く、ランキング アルゴリズ...

「Nuwa」のAIバージョンが登場!テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

最近、視覚合成というタスクが大きな注目を集めています。 NVIDIA の GauGAN は数日前にバ...

...

自動運転車の未来はどうなるのか?マッキンゼーは言う

自動運転車は徐々に現実のものとなりつつありますが、まだ多くの疑問が残っています。消費者は本当に運転の...

人工知能は 5 大製造業にどのような変化をもたらすのでしょうか? AIプロジェクトを成功に導く5つのステップ

今日、デジタル変革はビジネス存続の基盤となっています。自動化された工場から人工知能 (AI) 品質管...

家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

家には鉱山も王座もありませんが、王子様やお姫様になりたいという夢を持たない人がいるでしょうか?最近、...

...

クラウド ネイティブが新たな標準になりますが、人工知能はそれに備えていますか?

テクノロジーの発展に伴い、クラウド コンピューティング テクノロジーは進歩し続け、その目的も変化して...