Apriori アルゴリズムと比較すると、FP-growth アルゴリズムではデータベースを 2 回走査するだけで済むため、頻繁に出現するアイテムセットを効率的に検出できます。検索エンジン会社にとっては、インターネット上で使用されている単語を調べて、どの単語が頻繁に一緒に出現するかを調べる必要があります。したがって、頻繁に出現するアイテムセットを効率的に発見できる方法が必要であり、FP 成長アルゴリズムはこのタスクを達成できます。 FP 成長アルゴリズムは、アプリオリ原理に基づいており、データ セットを FP (頻繁パターン) ツリーに格納することで頻繁なアイテム セットを検出します。 FP-growth アルゴリズムではデータベースを 2 回スキャンするだけで済みますが、Apriori アルゴリズムでは各潜在的頻出アイテム セットを見つけるときにデータ セットを 1 回スキャンするだけで済むため、FP-growth アルゴリズムの方が効率的です。
頻繁なアイテムセットを発見する FP アルゴリズムのプロセスは次のとおりです。 (1)FPツリーを構築する。 (2)FP木からの頻出アイテムセットのマイニング FP は頻繁なパターンの略で、類似の要素をリンクで接続します。接続された要素は、リンクされたリストと見なすことができます。 トランザクションデータテーブル内の各トランザクションに対応するデータ項目をサポートに従ってソートした後、各トランザクション内のデータ項目をNULLをルートノードとするツリーに降順で挿入し、各ノードにノードのサポートを記録します。 トランザクション データ サンプルがあると仮定すると、FP ツリーを構築する手順は次のようになります。 Apriori アルゴリズムの最小サポートしきい値と組み合わせて、ここでは最小サポートを 3 と定義します。上記の表のデータと組み合わせて、最小サポート要件を満たさないものは、最適な FP ツリーには表示されません。 これに基づいて FP ツリーが構築され、ヘッド ポインター テーブルを使用して特定の型の最初のインスタンスを指すことで、FP ツリー内のすべての要素にすばやくアクセスできるようになります。ヘッド ポインターを使用して構築された FP ツリーを図に示します。 描画された FP ツリーとヘッド ポインタ テーブルを組み合わせると、テーブル内のデータは次のようにフィルタリングされ、並べ替えられます。 データ項目をフィルタリングおよびソートした後、NULL から開始して、フィルタリングおよびソートされた頻繁な項目セットを継続的に追加して、FP ツリーを構築できます。このプロセスは次のように表現できます。 このようにして、FP ツリーに対応するデータ構造が構築されます。これで、FP ツリーを構築できます。FP ツリーの構築関数については、Python ソース コードを参照してください。 上記の例を実行する前に、実際のデータセットが必要であり、以前のデータを組み合わせてデータセットをカスタマイズする必要があります。このようにして FP ツリーが構築され、次のステップではそれを使用して頻繁なアイテム セットをマイニングします。 |
<<: 機械学習コードを単体テストするにはどうすればいいですか?
>>: SSDの寿命は短いですか?寿命を延ばすバランスアルゴリズム
[51CTO.comより引用] eスポーツは近年最も急速に発展した競技スポーツのユニークな分野として...
AIOps は、その優れたパフォーマンスにより、業界で幅広い注目と支持を集めています。AIOps が...
2018年のダブルイレブンは、「富豪」に対する私の認識を新たにしました。その前に、アリババの張勇は...
人工知能は医療業界のシステムと方法を変えています。半世紀以上にわたり、人工知能とヘルスケアは一緒に発...
[[390293]]昨年の初め、Google は論文「Fast Differentiable So...
人工知能は進歩し続け、企業の運営方法や私たち自身の日常の経験を変えています。実際、AI はほぼすべて...
最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が超解像度モデル SRFlow を...
[[269295]]ビッグデータダイジェスト制作編纂者:銭天培、胡佳「複雑すぎる!機械学習(ML)...
OpenAI が GPT-4 を最初にリリースしてから約 4 か月が経ちました。しかし、時間が経つ...
近年、人工知能 (AI) はヘルスケア業界に変革をもたらす力となっています。 AI ベースのソフトウ...
ビッグデータダイジェスト制作出典: theguardianすべての作家にとって、盗作はおそらく最も許...
論文タイトル: 分子特性予測のための自動 3D 事前トレーニング論文リンク: https://arx...
[[397024]]ドメイン一般化 (DG) は近年非常に人気のある研究方向となっています。研究す...