相関ルール推奨アルゴリズムの原理と実装

相関ルールは、データ間の潜在的な関連性を発見するために使用されます。最も一般的なアプリケーションは、電子商取引 Web サイトのショッピングカートの分析です。この記事では、簡単な例を使用して、関連ルールの各用語の意味と具体的な計算方法を説明します。

[[184514]]

これは一部のユーザーのショッピングデータです。UID はユーザーの ID で、その後に各ユーザーが購入した特定の製品の名前が続きます。識別には文字を使用します。次に、関連ルールを使用してこのデータを分析し、さまざまな製品間のつながりを調査します。

まず、以前の 1 次元のショッピングカートフローデータを 2 次元のリストに変換します。次に、これに基づいて、さまざまな商品と商品構成の発生頻度が計算されます。

関連付けルールには、サポート、信頼度、リフトという 3 つの重要な用語があります。 1 つ目はサポートです。これは、アイテムがすべてのショッピングカートに表示される頻度です。 2 つの項目間の関連性を分析する場合、サポートは 2 つの項目が一緒に表示される頻度になります。サポートの役割は、関連ルールの重要性を測定することです。簡単に言えば、調査したい関係がどの程度普遍的であるかということです。普遍性が高いほど、関連ルールの重要性が増します。 2 番目の用語は信頼度であり、これは最初の項目が出現したときに 2 番目の項目が出現する頻度を指します。信頼度は、関連ルールの精度を測定するために使用されます。 3 番目の用語は効果の度合いであり、関連ルールが商品の発生頻度に与える影響を測定するために使用されます。次数が 1 より大きい関連ルールのみが実際のアプリケーションで重要です。以下では、これら3つの用語の計算方法をそれぞれ紹介します。

サポート

サポートとは、2 つのアイテムがすべてのショッピングカートに同時に表示される確率であり、P(AUB) として記録できます。サポートの計算式は、商品 A と商品 B が同時に出現する回数とショッピングカートの合計数の比率です。前の例では、5 つのショッピングカートレコードで製品 A と B のサポートを計算する場合、具体的な計算式は 1/5 になります。 5 つのショッピングカートレコードのうち、製品 A と B は uid1 にのみ一緒に表示されます。

単一アイテムのサポート計算方法は、2つのアイテムの場合と同じです。アイテムAのサポートを計算する場合、具体的な計算式は3/5です。製品 A は 5 つのショッピングカートレコードに 3 回表示されます。単一アイテムのサポートは、他のアイテムの影響を受けずに、そのアイテムがショッピングカート内に表示される回数を表します。

自信

信頼度は条件付き確率であり、2 つのアイテムのうちの 1 つがショッピングカートに表示されるときに、もう 1 つも表示される確率です。 P(B|A) として記録できます。先ほどの例で、2つの項目AとBの信憑性を計算する場合、具体的な計算式は1/3になります。製品 A は 3 回表示され、製品 B は 1 回表示されます。

リフト

有効性は、ルールを適用した後の改善効果を測定して、ルールが適用可能かどうかを判断します。簡単に言えば、ルールを適用した後に商品がショッピングカートに表示される回数が、商品がショッピングカートのみに表示される頻度よりも高いかどうかです。 1 より大きい場合、ルールは有効です。1 より小さい場合、ルールは無効です。前の例で、ルール AB が有効かどうかを計算する場合、計算式は (1/5)/(3/5*3/5)=(0.2)/(0.6*0.6)=0.2/0.36=0.55 となります。効果が 1 未満の場合、AB ルールは製品 B の改善に影響を与えないことを意味します。

前回の計算式に従って、以下の4つのルールをそれぞれ計算し、支持度と信頼性を得た上で4つのルールの有効性を計算しました。 AD ルールの効果は 1 より大きいため、ショッピングカートにすでに製品 A が含まれているユーザーに製品 D が推奨されると、購入確率は D のみを推奨した場合の 1.11 倍になります。

<<: Go 向けに設計された機械学習ライブラリ Gorgonia: TensorFlow や Theano のライバル

>>: Python 向けトップ 3 機械学習ライブラリ