相関ルール推奨アルゴリズムの原理と実装

相関ルール推奨アルゴリズムの原理と実装

相関ルールは、データ間の潜在的な関連性を発見するために使用されます。最も一般的なアプリケーションは、電子商取引 Web サイトのショッピング カートの分析です。この記事では、簡単な例を使用して、関連ルールの各用語の意味と具体的な計算方法を説明します。

[[184514]]

これは一部のユーザーのショッピングデータです。UID はユーザーの ID で、その後に各ユーザーが購入した特定の製品の名前が続きます。識別には文字を使用します。次に、関連ルールを使用してこのデータを分析し、さまざまな製品間のつながりを調査します。

まず、以前の 1 次元のショッピング カート フロー データを 2 次元のリストに変換します。次に、これに基づいて、さまざまな商品と商品構成の発生頻度が計算されます。

関連付けルールには、サポート、信頼度、リフトという 3 つの重要な用語があります。 1 つ目はサポートです。これは、アイテムがすべてのショッピング カートに表示される頻度です。 2 つの項目間の関連性を分析する場合、サポートは 2 つの項目が一緒に表示される頻度になります。サポートの役割は、関連ルールの重要性を測定することです。簡単に言えば、調査したい関係がどの程度普遍的であるかということです。普遍性が高いほど、関連ルールの重要性が増します。 2 番目の用語は信頼度であり、これは最初の項目が出現したときに 2 番目の項目が出現する頻度を指します。信頼度は、関連ルールの精度を測定するために使用されます。 3 番目の用語は効果の度合いであり、関連ルールが商品の発生頻度に与える影響を測定するために使用されます。次数が 1 より大きい関連ルールのみが実際のアプリケーションで重要です。以下では、これら3つの用語の計算方法をそれぞれ紹介します。

サポート

サポートとは、2 つのアイテムがすべてのショッピング カートに同時に表示される確率であり、P(AUB) として記録できます。サポートの計算式は、商品 A と商品 B が同時に出現する回数とショッピングカートの合計数の比率です。前の例では、5 つのショッピング カート レコードで製品 A と B のサポートを計算する場合、具体的な計算式は 1/5 になります。 5 つのショッピング カート レコードのうち、製品 A と B は uid1 にのみ一緒に表示されます。

単一アイテムのサポート計算方法は、2つのアイテムの場合と同じです。アイテムAのサポートを計算する場合、具体的な計算式は3/5です。製品 A は 5 つのショッピング カート レコードに 3 回表示されます。単一アイテムのサポートは、他のアイテムの影響を受けずに、そのアイテムがショッピングカート内に表示される回数を表します。

自信

信頼度は条件付き確率であり、2 つのアイテムのうちの 1 つがショッピング カートに表示されるときに、もう 1 つも表示される確率です。 P(B|A) として記録できます。先ほどの例で、2つの項目AとBの信憑性を計算する場合、具体的な計算式は1/3になります。製品 A は 3 回表示され、製品 B は 1 回表示されます。

リフト

有効性は、ルールを適用した後の改善効果を測定して、ルールが適用可能かどうかを判断します。簡単に言えば、ルールを適用した後に商品がショッピングカートに表示される回数が、商品がショッピングカートのみに表示される頻度よりも高いかどうかです。 1 より大きい場合、ルールは有効です。1 より小さい場合、ルールは無効です。前の例で、ルール AB が有効かどうかを計算する場合、計算式は (1/5)/(3/5*3/5)=(0.2)/(0.6*0.6)=0.2/0.36=0.55 となります。効果が 1 未満の場合、AB ルールは製品 B の改善に影響を与えないことを意味します。

前回の計算式に従って、以下の4つのルールをそれぞれ計算し、支持度と信頼性を得た上で4つのルールの有効性を計算しました。 AD ルールの効果は 1 より大きいため、ショッピング カートにすでに製品 A が含まれているユーザーに製品 D が推奨されると、購入確率は D のみを推奨した場合の 1.11 倍になります。

<<:  Go 向けに設計された機械学習ライブラリ Gorgonia: TensorFlow や Theano のライバル

>>:  Python 向けトップ 3 機械学習ライブラリ

ブログ    

推薦する

人間の敵の99.8%を圧倒する星間AIがネイチャー誌に登場、その技術が初めて完全公開された

StarCraft 2 のプレイヤーのうち、AI にまだ負けていないのはわずか 0.2% です。これ...

写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

編集者として、執筆という主な仕事に加えて、イラストレーションという非常に重要な問題を考慮する必要があ...

ナノロボットは将来さまざまな場面で使用される可能性がある

最近、米国ペンシルベニア州立大学の科学者たちが新しいタイプのナノロボットを開発しました。このロボット...

顔認識は簡単に破られるのでしょうか?虐待と闘う方法

未来産業研究所は、顔認識市場規模は今後5年間で平均23%の複合成長率を維持し、2024年までに市場規...

OpenAIの共同創設者Karpathyがアルパカに恋をする: 赤ちゃんLlama2を実装する純粋なCコード、MacBookが動作可能、1.6kの星を獲得

今週、Meta のオープンソース Llama2 が AI コミュニティ全体で人気を博しました。その結...

ザッカーバーグはオープンソース AGI に全力を注ぐ: Llama 3 をトレーニング、35 万台の H100 を年末までに提供開始

ザッカーバーグ氏は新たな目標「すべてをオープンソースの AGI に」を発表しました。そう、ザッカーバ...

...

インタビュアー: アルゴリズムについての理解について教えてください。応用シナリオ?

[[424227]] 1. 何ですかアルゴリズムとは、問題に対する解決策の正確かつ完全な説明を指し...

世界初、常温量子コンピュータが実用化!絶対零度の温度は必要ありません。メインコアには実際に「ダイヤモンドがセットされています」

量子コンピューティングは、おそらく現在最もエキサイティングな(そして話題になっている)研究分野の 1...

ディスカッション | 人工知能は同時通訳に取って代わることができるか?

[[254687]]少し前に同時通訳者がiFlytekを「AI同時通訳詐欺」と非難し、ネット上で騒...

UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...