SQL SERVER データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

SQL SERVER データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

前回の「SQL SERVER データ マイニングと列の使用方法の理解」に続き、今回はSQL SERVER データ マイニングクラスタリング アルゴリズムおよびシーケンシャル クラスタリング アルゴリズムの理解について紹介します。以下の紹介から始めましょう。

クラスタリング アルゴリズムは、非常に一般的に使用されているアルゴリズムです。その機能は、データをグループ化し、類似した特性を持つエンティティを整理して、対象エンティティの分類決定を支援することです。代表的なケースとしては、人口統計分析、顧客分析などが挙げられます。

クラスタリング アルゴリズムの一般的な効果は次のとおりです (以下のカテゴリ名は、「ゴールド カスタマー」、「シルバー カスタマー」など、理解しやすいように変更および定義できます)。

クラスタリング アルゴリズムに関するよくある質問は、「同じエンティティが異なるクラスターに現れるかどうか」です。重複する可能性はありますか?

この質問に対する答えは、重複があるかどうかはアルゴリズムの設定によって決まるということです。デフォルトでは重複が可能です。

以下のアルゴリズム パラメータ リストには、デフォルトで 1 に設定されている CLUSTERING_METHOD があります。これは、オーバーラップを許可する EM (期待値最大化) アルゴリズムと呼ばれるものです。

3 または 4 に設定すると、重複は許可されません。スケーラブルかどうかは、アルゴリズムがデータを読み取るためのルールを指します。スケーラブルである場合、最初に 50,000 件のレコードがモデリングのシードとして読み取られます。十分な場合は、読み取りが停止します。それ以外の場合は、次の 50,000 を読み続けてください。非スケーラブルでは、毎回すべてのエンティティが読み取られます。

では、「シーケンシャルクラスタリング」とは何でしょうか?実際、その正式名称は「Microsoft Sequence Clustering」であり、シーケンス分析とクラスター分析を組み合わせた特殊なアルゴリズムです。

このアルゴリズムがモデルを構築した後の効果は、おおよそ次のようになります。

[注] 標準属性に加えて、シーケンシャル クラスタリングには、順序の概念を反映する、いわゆる「遷移」があることに注意することが重要です。標準のクラスタリング アルゴリズムと比較して、シーケンシャル クラスタリング アルゴリズムでは、次の図に示すように、別の特殊なグラフが生成されます。

重要なのは、この絵をどう理解すべきかということです。以下の点をまとめます。

1. シーケンシャルクラスタリングアルゴリズム。まず、入力エンティティをグループ化するクラスタリングアルゴリズムです。

2. グループを分割した後、これらのグループ内のエンティティのいくつかの動作(主に時間に関連した動作)を分析して表示できるため、シーケンシャル クラスタリングと呼ばれます。

典型的な状況としては、さまざまな顧客グループが商品をショッピングカートに入れる順序を分析したり、会社の Web サイトにアクセスするさまざまなユーザー グループのクリック シーケンス フローを分析したりすることが挙げられます。

これで、SQL SERVER データ マイニングの紹介: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解は終了です。次回は、SQL SERVER データ マイニング: Web パス フロー マイニングの実装方法を紹介します。

【編集者のおすすめ】

  1. SQL Server のロール メンバーシップと権限の概要
  2. 誤って SQL Server ログ ファイルを削除した後にデータベースをアタッチする方法
  3. SQL Server 2005 データベースのユーザー権限管理の設定
  4. C# ADO.NET データベースを SQL Server に接続する例
  5. T-SQL 行列変換コマンド: PIVOT と UNPIVOT の詳細な説明

<<:  SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

>>:  C++開発におけるデータ構造とアルゴリズムの分離についての簡単な説明

ブログ    
ブログ    

推薦する

T11 2019データインテリジェンステクノロジーサミット開催 AIは業界の破壊的変化をもたらす

[[283929]] 図: T11 2019 データインテリジェンステクノロジーサミット現在、データ...

ディープラーニングによって変革された5つのコンピュータービジョン技術

概要: この記事では、主にコンピューター ビジョンにおける 5 つの主要テクノロジ、つまり画像分類、...

機械学習に関して新人エンジニアが犯しがちな6つの間違い

[[206602]]デフォルトの損失関数は当然使用される始めたばかりのときは、損失関数として平均二乗...

仕事を完了するにはまだ人間が必要か?ポストパンデミック時代に急成長する自動化の長所と短所

[[422568]]イーストロサンゼルスのアービーズ・ドライブスルーでローストビーフサンドイッチを注...

LeCun が予測した自己教師モデルはここにあります: 最初のマルチモーダル高性能自己教師アルゴリズム

自己教師あり学習は、さまざまなタスクで階層的な特徴を学習し、実生活で利用可能な膨大なデータをリソース...

ヘルスケアにおける GenAI の利点

ビッグデータと AI の活用により、患者が生成する膨大な量の情報の処理と分析が大幅に容易になりました...

人工知能はユーザーのメッセージング体験を変える

Emogi は、チャット アプリでテキストを送信したり、投稿にコメントしたり、友人にビデオを送信した...

次元削減アルゴリズムについて: PCA主成分分析

機械学習の分野では、生データから特徴を抽出する際に、高次元の特徴ベクトルが得られることが多いです。こ...

企業、不動産会社、自動車会社が顔情報を収集する方法を弁護士が解説:消費者は法律に従って権利を断固として守るべき

[[388553]] 3月18日夜、企業やメーカーが個人情報を不法に収集し、商業目的で利用する事件が...

人工知能が持続可能な開発を推進する5つの方法

フォーチュン 500 にランクされる世界的なテクノロジー サービス企業 DXC Technology...

機械学習における再現率、精度、正確さの指標は何ですか?

以前の記事では、Naive Bayes、KNN、KMeans、EM、線形回帰、ロジスティック回帰など...

人工知能と5Gの完璧な組み合わせは人類に全く新しい体験をもたらすかもしれない

世界の経済レベルと科学レベルが継続的に向上するにつれて、人類の科学技術分野における成果はますます顕著...

...

エッジデバイステクノロジー市場で入手可能なトップエッジAIソリューション

エッジコンピューティングと人工知能の組み合わせにより、エッジ人工知能 (エッジ AI) は現在のテク...

効率的で正確な通関手続きのニーズを満たすために、生体認証技術がセキュリティ検査シナリオに導入されています。

空港のセキュリティは、航空機と乗客の生命と財産の安全を確保するために、爆発性、可燃性、腐食性の物品、...