相関ルールは、データ間の潜在的な関連性を発見するために使用されます。最も一般的なアプリケーションは、電子商取引 Web サイトのショッピング カートの分析です。この記事では、簡単な例を使用して、関連ルールの各用語の意味と具体的な計算方法を説明します。
これは一部のユーザーのショッピングデータです。UID はユーザーの ID で、その後に各ユーザーが購入した特定の製品の名前が続きます。識別には文字を使用します。次に、関連ルールを使用してこのデータを分析し、さまざまな製品間のつながりを調査します。 まず、以前の 1 次元のショッピング カート フロー データを 2 次元のリストに変換します。次に、これに基づいて、さまざまな商品と商品構成の発生頻度が計算されます。 関連付けルールには、サポート、信頼度、リフトという 3 つの重要な用語があります。 1 つ目はサポートです。これは、アイテムがすべてのショッピング カートに表示される頻度です。 2 つの項目間の関連性を分析する場合、サポートは 2 つの項目が一緒に表示される頻度になります。サポートの役割は、関連ルールの重要性を測定することです。簡単に言えば、調査したい関係がどの程度普遍的であるかということです。普遍性が高いほど、関連ルールの重要性が増します。 2 番目の用語は信頼度であり、これは最初の項目が出現したときに 2 番目の項目が出現する頻度を指します。信頼度は、関連ルールの精度を測定するために使用されます。 3 番目の用語は効果の度合いであり、関連ルールが商品の発生頻度に与える影響を測定するために使用されます。次数が 1 より大きい関連ルールのみが実際のアプリケーションで重要です。以下では、これら3つの用語の計算方法をそれぞれ紹介します。 サポート サポートとは、2 つのアイテムがすべてのショッピング カートに同時に表示される確率であり、P(AUB) として記録できます。サポートの計算式は、商品 A と商品 B が同時に出現する回数とショッピングカートの合計数の比率です。前の例では、5 つのショッピング カート レコードで製品 A と B のサポートを計算する場合、具体的な計算式は 1/5 になります。 5 つのショッピング カート レコードのうち、製品 A と B は uid1 にのみ一緒に表示されます。 単一アイテムのサポート計算方法は、2つのアイテムの場合と同じです。アイテムAのサポートを計算する場合、具体的な計算式は3/5です。製品 A は 5 つのショッピング カート レコードに 3 回表示されます。単一アイテムのサポートは、他のアイテムの影響を受けずに、そのアイテムがショッピングカート内に表示される回数を表します。 自信 信頼度は条件付き確率であり、2 つのアイテムのうちの 1 つがショッピング カートに表示されるときに、もう 1 つも表示される確率です。 P(B|A) として記録できます。先ほどの例で、2つの項目AとBの信憑性を計算する場合、具体的な計算式は1/3になります。製品 A は 3 回表示され、製品 B は 1 回表示されます。 リフト 有効性は、ルールを適用した後の改善効果を測定して、ルールが適用可能かどうかを判断します。簡単に言えば、ルールを適用した後に商品がショッピングカートに表示される回数が、商品がショッピングカートのみに表示される頻度よりも高いかどうかです。 1 より大きい場合、ルールは有効です。1 より小さい場合、ルールは無効です。前の例で、ルール AB が有効かどうかを計算する場合、計算式は (1/5)/(3/5*3/5)=(0.2)/(0.6*0.6)=0.2/0.36=0.55 となります。効果が 1 未満の場合、AB ルールは製品 B の改善に影響を与えないことを意味します。 前回の計算式に従って、以下の4つのルールをそれぞれ計算し、支持度と信頼性を得た上で4つのルールの有効性を計算しました。 AD ルールの効果は 1 より大きいため、ショッピング カートにすでに製品 A が含まれているユーザーに製品 D が推奨されると、購入確率は D のみを推奨した場合の 1.11 倍になります。 |
<<: Go 向けに設計された機械学習ライブラリ Gorgonia: TensorFlow や Theano のライバル
ChatGPT は、翻訳、作詞作曲、リサーチ、コーディングなど、さまざまなスキルに優れています。しか...
すでに誰かが線形代数の要点を描くのを手伝ってくれています。全12ページ、半分がイラストなので初心者で...
複雑かつ効率的なニューラル ネットワーク アーキテクチャの出現により、畳み込みニューラル ネットワー...
ChatGPT には、「Consensus」と呼ばれる新しい「論文検索アーティファクト」プラグインが...
[51CTO.com からのオリジナル記事] スマートカーといえば、真っ先に思い浮かぶのは自動運転で...
1. リレーショナルデータはSQLから分離される最新のエッジ コンピューティング、IoT、GenAI...
大規模言語モデルのもう一つの重大な欠陥が DeepMind によって明らかにされました。 LLM は...
10月12日、世界をリードするインテリジェントオペレーティングシステム製品およびテクノロジープロバイ...
新型コロナウイルス肺炎の流行が始まって以来、人工知能技術は、流行の監視と分析、人員と物資の管理、医療...