SQL SERVER データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

SQL SERVER データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

前回の「SQL SERVER データ マイニングと列の使用方法の理解」に続き、今回はSQL SERVER データ マイニングクラスタリング アルゴリズムおよびシーケンシャル クラスタリング アルゴリズムの理解について紹介します。以下の紹介から始めましょう。

クラスタリング アルゴリズムは、非常に一般的に使用されているアルゴリズムです。その機能は、データをグループ化し、類似した特性を持つエンティティを整理して、対象エンティティの分類決定を支援することです。代表的なケースとしては、人口統計分析、顧客分析などが挙げられます。

クラスタリング アルゴリズムの一般的な効果は次のとおりです (以下のカテゴリ名は、「ゴールド カスタマー」、「シルバー カスタマー」など、理解しやすいように変更および定義できます)。

クラスタリング アルゴリズムに関するよくある質問は、「同じエンティティが異なるクラスターに現れるかどうか」です。重複する可能性はありますか?

この質問に対する答えは、重複があるかどうかはアルゴリズムの設定によって決まるということです。デフォルトでは重複が可能です。

以下のアルゴリズム パラメータ リストには、デフォルトで 1 に設定されている CLUSTERING_METHOD があります。これは、オーバーラップを許可する EM (期待値最大化) アルゴリズムと呼ばれるものです。

3 または 4 に設定すると、重複は許可されません。スケーラブルかどうかは、アルゴリズムがデータを読み取るためのルールを指します。スケーラブルである場合、最初に 50,000 件のレコードがモデリングのシードとして読み取られます。十分な場合は、読み取りが停止します。それ以外の場合は、次の 50,000 を読み続けてください。非スケーラブルでは、毎回すべてのエンティティが読み取られます。

では、「シーケンシャルクラスタリング」とは何でしょうか?実際、その正式名称は「Microsoft Sequence Clustering」であり、シーケンス分析とクラスター分析を組み合わせた特殊なアルゴリズムです。

このアルゴリズムがモデルを構築した後の効果は、おおよそ次のようになります。

[注] 標準属性に加えて、シーケンシャル クラスタリングには、順序の概念を反映する、いわゆる「遷移」があることに注意することが重要です。標準のクラスタリング アルゴリズムと比較して、シーケンシャル クラスタリング アルゴリズムでは、次の図に示すように、別の特殊なグラフが生成されます。

重要なのは、この絵をどう理解すべきかということです。以下の点をまとめます。

1. シーケンシャルクラスタリングアルゴリズム。まず、入力エンティティをグループ化するクラスタリングアルゴリズムです。

2. グループを分割した後、これらのグループ内のエンティティのいくつかの動作(主に時間に関連した動作)を分析して表示できるため、シーケンシャル クラスタリングと呼ばれます。

典型的な状況としては、さまざまな顧客グループが商品をショッピングカートに入れる順序を分析したり、会社の Web サイトにアクセスするさまざまなユーザー グループのクリック シーケンス フローを分析したりすることが挙げられます。

これで、SQL SERVER データ マイニングの紹介: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解は終了です。次回は、SQL SERVER データ マイニング: Web パス フロー マイニングの実装方法を紹介します。

【編集者のおすすめ】

  1. SQL Server のロール メンバーシップと権限の概要
  2. 誤って SQL Server ログ ファイルを削除した後にデータベースをアタッチする方法
  3. SQL Server 2005 データベースのユーザー権限管理の設定
  4. C# ADO.NET データベースを SQL Server に接続する例
  5. T-SQL 行列変換コマンド: PIVOT と UNPIVOT の詳細な説明

<<:  SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

>>:  C++開発におけるデータ構造とアルゴリズムの分離についての簡単な説明

ブログ    
ブログ    

推薦する

人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか?

AlphaGoがイ・セドルに勝利したことで世界は人工知能に再び親しむようになったが、アップグレード...

11人が2ヶ月間集中的にトレーニングし、マスク氏がOpenAIを徹底的に攻撃! xAIの最初の大規模モデルGrokが爆発的に成長、330億のパラメータと月額16ドル

最近では、すべての家族が行動を起こす準備ができています。 OpenAI 開発者会議が近づく中、マスク...

将来の戦争において、AIは最も危険な兵器となるのでしょうか?

AI兵器は歴史の流れとともに進化し、今日では危険な一歩となっている。 [[406883]] AIは...

ソラのトレーニングデータが流出した疑い、ネットユーザー「UE5が間違いなく使われている」

朗報です、朗報です、本物のソラの新しいビデオがあります!通りかかったらぜひお見逃しなく! (本物のS...

深層強化学習における敵対的攻撃と防御

01 はじめにこの論文は、深層強化学習に対する敵対的攻撃に関する研究です。本論文では、著者らは、堅牢...

中国科学院、2019年の世界人工知能の発展を総合的に総括:8つの主要技術が登場し、AIはより多くの分野に浸透

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

2020 年のデータサイエンスのトレンド

企業が自社が所有するビッグデータを高速かつ効率的、コスト効率よく革新的な方法で活用することをますます...

Google CEO ピチャイ: 新しい AI 製品のサブスクリプション モデルを検討中

10月26日、2023年第3四半期の決算発表で、グーグルとその親会社アルファベットのCEOであるサン...

...

マスク氏の非嫡出双子が初めて暴露される!ニューラリンクの女性幹部に付き添われ、AIの終焉を憂いながら赤ちゃんを散歩させていた

マスク氏の非嫡出双子が初めて世間に公開される!最近、「スティーブ・ジョブズ」の著者であり伝記作家でも...

...