SQL Server データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

最近、クライアントの開発チームと SQL Server データマイニングとそのアプリケーションについて話し合い、学びました。いくつか興味深い質問があります。

データマイニングに関する基本的な知識と学習資料については、http://msdn.microsoft.com/zh-cn/library/bb510517.aspx を参照してください。

前の記事: SQL Server データマイニングにおけるいくつかの問題: 列の使用を理解する方法

この記事では、時々混乱を招く 2 つのアルゴリズム、クラスタリングとシーケンシャルクラスタリングについて説明します。

クラスタリングアルゴリズムは、非常に一般的に使用されているアルゴリズムです。その機能は、データをグループ化し、類似した特性を持つエンティティを整理して、対象エンティティの分類決定を支援することです。代表的なケースとしては、人口統計分析、顧客分析などが挙げられます。

クラスタリングアルゴリズムの一般的な効果は次のとおりです (次のカテゴリ名は、「ゴールドカスタマー」、「シルバーカスタマー」など、理解しやすいように変更および定義できます)。

クラスタリングアルゴリズムに関するよくある質問は、「同じエンティティが異なるクラスターに現れるか？」、つまり重複する可能性はあるか？ということです。

この質問に対する答えは、重複があるかどうかはアルゴリズムの設定によって決まるということです。デフォルトでは重複が可能です。

以下のアルゴリズムパラメータリストには、デフォルトで 1 に設定されている CLUSTERING_METHOD があります。これは、オーバーラップを許可する EM (期待値最大化) アルゴリズムと呼ばれるものです。

3 または 4 に設定すると、重複は許可されません。スケーラブルかどうかは、アルゴリズムがデータを読み取るためのルールを指します。スケーラブルである場合、最初に 50,000 件のレコードがモデリングのシードとして読み取られます。十分な量であれば、読み取りは停止します。それ以外の場合は、次の 50,000 を読み続けてください。非スケーラブルでは、毎回すべてのエンティティが読み取られます。

では、「シーケンシャルクラスタリング」とは何でしょうか? 実際、その正式名称は「Microsoft シーケンシャルクラスタリング」で、シーケンシャル分析とクラスター分析を組み合わせた特殊なアルゴリズムです。

#p#

このアルゴリズムがモデルを構築した後の効果はおおよそ次のようになります。

[注] 標準属性に加えて、シーケンシャルクラスタリングには、順序の概念を反映する、いわゆる「遷移」があることに注意することが重要です。標準的なクラスタリングアルゴリズムと比較して、シーケンシャルクラスタリングアルゴリズムには、次に示すように別の特別なグラフがあります。

重要なのは、この絵をどう理解するかです。次の点をまとめます。

シーケンシャルクラスタリングアルゴリズムは、まず第一に、入力エンティティをグループ化するクラスタリングアルゴリズムです。
エンティティをグループに分割した後、これらのグループ内のエンティティのいくつかの動作 (主に時間に関連した動作) を分析して表示できるため、シーケンシャルクラスタリングと呼ばれます。

典型的な状況としては、さまざまな顧客グループが商品をショッピングカートに入れる順序を分析したり、会社の Web サイトにアクセスするさまざまなユーザーグループのクリックシーケンスフローを分析したりすることが挙げられます。

上記の図の例の説明は次のとおりです。この「カテゴリ1」のグループは通常、「Road-750」製品を購入した後、「Road Bottle Cage」を購入する可能性が77%あり、その後、「Water Bottle」を購入する可能性が93%あります。

オリジナルリンク: http://www.cnblogs.com/chenxizhang/archive/2011/07/24/2115331.html

【編集者のおすすめ】