SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

最近、クライアントの開発チームと SQL Server データ マイニングとそのアプリケーションについて話し合い、学びました。いくつか興味深い質問があります。

データマイニングに関する基本的な知識と学習資料については、http://msdn.microsoft.com/zh-cn/library/bb510517.aspx を参照してください。

前の記事: SQL Server データマイニングにおけるいくつかの問題: 列の使用を理解する方法

この記事では、時々混乱を招く 2 つのアルゴリズム、クラスタリングとシーケンシャル クラスタリングについて説明します。

クラスタリング アルゴリズムは、非常に一般的に使用されているアルゴリズムです。その機能は、データをグループ化し、類似した特性を持つエンティティを整理して、対象エンティティの分類決定を支援することです。代表的なケースとしては、人口統計分析、顧客分析などが挙げられます。

クラスタリング アルゴリズムの一般的な効果は次のとおりです (次のカテゴリ名は、「ゴールド カスタマー」、「シルバー カスタマー」など、理解しやすいように変更および定義できます)。

クラスタリング アルゴリズムに関するよくある質問は、 「同じエンティティが異なるクラスターに現れるか?」、つまり重複する可能性はあるか?ということです。

この質問に対する答えは、重複があるかどうかはアルゴリズムの設定によって決まるということです。デフォルトでは重複が可能です。

以下のアルゴリズム パラメータ リストには、デフォルトで 1 に設定されている CLUSTERING_METHOD があります。これは、オーバーラップを許可する EM (期待値最大化) アルゴリズムと呼ばれるものです。

3 または 4 に設定すると、重複は許可されません。スケーラブルかどうかは、アルゴリズムがデータを読み取るためのルールを指します。スケーラブルである場合、最初に 50,000 件のレコードがモデリングのシードとして読み取られます。十分な量であれば、読み取りは停止します。それ以外の場合は、次の 50,000 を読み続けてください。非スケーラブルでは、毎回すべてのエンティティが読み取られます。

では、「シーケンシャル クラスタリング」とは何でしょうか? 実際、その正式名称は「Microsoft シーケンシャル クラスタリング」で、シーケンシャル分析とクラスター分析を組み合わせた特殊なアルゴリズムです。

#p#

このアルゴリズムがモデルを構築した後の効果はおおよそ次のようになります。

[注] 標準属性に加えて、シーケンシャル クラスタリングには、順序の概念を反映する、いわゆる「遷移」があることに注意することが重要です。標準的なクラスタリング アルゴリズムと比較して、シーケンシャル クラスタリング アルゴリズムには、次に示すように別の特別なグラフがあります。

重要なのは、この絵をどう理解するかです。次の点をまとめます。

  1. シーケンシャル クラスタリング アルゴリズムは、まず第一に、入力エンティティをグループ化するクラスタリング アルゴリズムです。
  2. エンティティをグループに分割した後、これらのグループ内のエンティティのいくつかの動作 (主に時間に関連した動作) を分析して表示できるため、シーケンシャル クラスタリングと呼ばれます。

典型的な状況としては、さまざまな顧客グループが商品をショッピングカートに入れる順序を分析したり、会社の Web サイトにアクセスするさまざまなユーザー グループのクリック シーケンス フローを分析したりすることが挙げられます。

上記の図の例の説明は次のとおりです。この「カテゴリ1」のグループは通常、「Road-750」製品を購入した後、「Road Bottle Cage」を購入する可能性が77%あり、その後、「Water Bottle」を購入する可能性が93%あります。

オリジナルリンク: http://www.cnblogs.com/chenxizhang/archive/2011/07/24/2115331.html

【編集者のおすすめ】

  1. コードネーム: Denali、SQL Server が再び登場
  2. SQL Server Chroniclesについて話す
  3. SQL Server での暗号化の簡単な紹介
  4. SQL Server に目を向けよう

<<:  PHP+MySQL アプリケーションで XOR 暗号化アルゴリズムを使用する

>>:  SQL SERVER データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

推薦する

知識とスキルの限界を押し広げる 24 の機械学習プロジェクト

導入データサイエンス (機械学習) プログラムは、この分野でのキャリアをスタートさせる有望な方法を提...

社内抗争、顧客獲得競争…マイクロソフトとOpenAIの協力の裏側を海外メディアが暴露

Microsoft と OpenAI の提携は、現在テクノロジー界で最も注目されているものの 1 つ...

生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

6月16日、生成型人工知能のスタートアップ企業数社が数十億ドルの資金を調達したが、適切なデータを入手...

OpenAI セキュリティシステムディレクターが長文記事を執筆: 大規模モデルに対する敵対的攻撃と防御

ChatGPTのリリースにより、大規模な言語モデルのアプリケーションが加速し、大規模に展開されていま...

マイクロソフト CEO ナデラ氏へのインタビュー: 人工知能の全体的な方向性と将来はどのようなものでしょうか?

人工知能の将来はどうなるのでしょうか?どのような方向に発展していくべきでしょうか?開発プロセス中に注...

中国と米国の差を縮め、人工知能開発の主導権を徐々に握る

60年以上の発展を経て、人工知能は人々の仕事や日常生活に入り込み、影響を与えており、新たな一般技術と...

オープンソース! Gartner の 100 ページの機械学習ブックが無料でダウンロードできるようになりました。

今日の大企業は、産業化以来最大の変革を経験しています。人工知能は、産業や私たちの働き方、考え方、交流...

追跡すべきマルチモーダル LLM が多すぎますか?まずは26のSOTAモデルを見てみましょう

現在、AI分野の焦点は大規模言語モデル(LLM)からマルチモーダルへと移行しており、その結果、LLM...

AIアライメントを徹底レビュー!北京大学などが800以上の文書から4万語を要約し、多くの著名な学者が執筆を担当した。

要点を一目でAI アライメントは、RLHF/RLAIF などの成熟した基本手法だけでなく、スケーラブ...

GPT+Copilotを使えば、Rustの学習はすぐに始まります

みなさんこんにちは。私は漁師です。 Rust の学習曲線は初期段階と中期段階では急峻になりますが、今...

AIは大学入試で高得点のエッセイを書けるようになったが、小説を書くにはまだ遠い

イベントレビュー大学入試中国語テストが終了してすぐに、大学入試作エッセイのテーマが話題になりました。...

GPT-4: 私が書いたコードを使ってみますか?調査によると、APIの不正使用率は62%を超えている。

言語モデリングの新しい時代が到来し、大規模言語モデル (LLM) は自然言語を理解するだけでなく、ユ...

ネットワークセキュリティにおける人工知能の4つの主要な応用シナリオ

セキュリティにおける人工知能の応用は、人々に 4 つの独自のセキュリティ上の利点をもたらします。この...

世界初のAI生成薬がヒト臨床試験に進出

6月30日のニュースによると、今週、完全に人工知能によって設計された世界初の医薬品が人間の臨床試験段...