Python の基礎: FP 成長アルゴリズムの構築

Python の基礎: FP 成長アルゴリズムの構築

Apriori アルゴリズムと比較すると、FP-growth アルゴリズムではデータベースを 2 回走査するだけで済むため、頻繁に出現するアイテムセットを効率的に検出できます。検索エンジン会社にとっては、インターネット上で使用されている単語を調べて、どの単語が頻繁に一緒に出現するかを調べる必要があります。したがって、頻繁に出現するアイテムセットを効率的に発見できる方法が必要であり、FP 成長アルゴリズムはこのタスクを達成できます。

FP 成長アルゴリズムは、アプリオリ原理に基づいており、データセットを FP (頻繁パターン) ツリーに格納することで頻繁なアイテムセットを検出します。

FP-growth アルゴリズムではデータベースを 2 回スキャンするだけで済みますが、Apriori アルゴリズムでは各潜在的頻出アイテムセットを見つけるときにデータセットを 1 回スキャンするだけで済むため、FP-growth アルゴリズムの方が効率的です。

[[212909]]

頻繁なアイテムセットを発見する FP アルゴリズムのプロセスは次のとおりです。

（１）FPツリーを構築する。

（２）FP木からの頻出アイテムセットのマイニング

FP は頻繁なパターンの略で、類似の要素をリンクで接続します。接続された要素は、リンクされたリストと見なすことができます。

トランザクションデータテーブル内の各トランザクションに対応するデータ項目をサポートに従ってソートした後、各トランザクション内のデータ項目をNULLをルートノードとするツリーに降順で挿入し、各ノードにノードのサポートを記録します。

トランザクションデータサンプルがあると仮定すると、FP ツリーを構築する手順は次のようになります。

Apriori アルゴリズムの最小サポートしきい値と組み合わせて、ここでは最小サポートを 3 と定義します。上記の表のデータと組み合わせて、最小サポート要件を満たさないものは、最適な FP ツリーには表示されません。

これに基づいて FP ツリーが構築され、ヘッドポインターテーブルを使用して特定の型の最初のインスタンスを指すことで、FP ツリー内のすべての要素にすばやくアクセスできるようになります。ヘッドポインターを使用して構築された FP ツリーを図に示します。

描画された FP ツリーとヘッドポインタテーブルを組み合わせると、テーブル内のデータは次のようにフィルタリングされ、並べ替えられます。

データ項目をフィルタリングおよびソートした後、NULL から開始して、フィルタリングおよびソートされた頻繁な項目セットを継続的に追加して、FP ツリーを構築できます。このプロセスは次のように表現できます。

このようにして、FP ツリーに対応するデータ構造が構築されます。これで、FP ツリーを構築できます。FP ツリーの構築関数については、Python ソースコードを参照してください。

上記の例を実行する前に、実際のデータセットが必要であり、以前のデータを組み合わせてデータセットをカスタマイズする必要があります。このようにして FP ツリーが構築され、次のステップではそれを使用して頻繁なアイテムセットをマイニングします。

<<: 機械学習コードを単体テストするにはどうすればいいですか?

>>: SSDの寿命は短いですか？寿命を延ばすバランスアルゴリズム

ディープラーニングはオイラー方程式を「破壊」する準備ができている

ディープラーニングはオイラー方程式を「破壊」する準備ができている

ブログ

マイルストーンではありません! Facebookの100言語翻訳モデルは過大評価され、疑問視されている

マイルストーンではありません! Facebookの100言語翻訳モデルは過大評価され、疑問視されている

ブログ

ブログ

ブログ

自動化: 現代の旅行計画に革命を起こす!

自動化: 現代の旅行計画に革命を起こす!

ブログ

ドローン自動化システムの産業への応用を探る

ドローン自動化システムの産業への応用を探る

ブログ

2021年中国人工知能産業の現在の市場状況と有利な軌道の分析コンピュータビジョン軌道

2021年中国人工知能産業の現在の市場状況と有利な軌道の分析コンピュータビジョン軌道

ブログ

世界を理解する、最新のレビューは自動運転の新しい時代を開く

世界を理解する、最新のレビューは自動運転の新しい時代を開く

ブログ

AIは科学者のツールになり得るか？ Nature がトップクラスの学者 5 人にインタビュー: コードの書き方を学び、期待を下げよう

AIは科学者のツールになり得るか？ Nature がトップクラスの学者 5 人にインタビュー: コードの書き方を学び、期待を下げよう

ブログ

シリコンバレーの大企業も「名門校の学位」を重視するのでしょうか？ Redditの男の魂を問う質問が白熱した議論を巻き起こす

シリコンバレーの大企業も「名門校の学位」を重視するのでしょうか？ Redditの男の魂を問う質問が白熱した議論を巻き起こす

ブログ

推薦する

【ビッグネームがやってくる第12話】eスポーツデータ処理プラットフォームにおけるAIとビッグデータシステムの応用

[51CTO.comより引用] eスポーツは近年最も急速に発展した競技スポーツのユニークな分野として...

...

AIOpsを始める前に知っておくべきこと

AIOps は、その優れたパフォーマンスにより、業界で幅広い注目と支持を集めています。AIOps が...

人工知能認識により、物流会社はダブルイレブンの注文に簡単に対応できます。

2018年のダブルイレブンは、「富豪」に対する私の認識を新たにしました。その前に、アリババの張勇は...

人工知能は患者と医療業界の両方にどのような利益をもたらすのでしょうか?

人工知能は医療業界のシステムと方法を変えています。半世紀以上にわたり、人工知能とヘルスケアは一緒に発...

高速微分ソートアルゴリズム、カスタムC++、CUDAのパッケージで、パフォーマンスが向上しました。

[[390293]]昨年の初め、Google は論文「Fast Differentiable So...

2021年のAI展望

人工知能は進歩し続け、企業の運営方法や私たち自身の日常の経験を変えています。実際、AI はほぼすべて...

このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

最近、ETH チューリッヒのコンピュータービジョン研究所の研究者が超解像度モデル SRFlow を...

機械学習プロジェクトの管理にまだ Github を使用していますか?これらの新しい、よりプロフェッショナルなツールについて知っておくべきでした!

[[269295]]ビッグデータダイジェスト制作編纂者：銭天培、胡佳「複雑すぎる！機械学習（ML）...

GPT-4が「愚か」になったと誰もが不満を言っていますが、これはアーキテクチャの再設計が原因かもしれません。

OpenAI が GPT-4 を最初にリリースしてから約 4 か月が経ちました。しかし、時間が経つ...

AI を活用してインテリジェントな医療システムを構築するにはどうすればよいでしょうか?

近年、人工知能 (AI) はヘルスケア業界に変革をもたらす力となっています。 AI ベースのソフトウ...

AIが私の本を盗作してAmazonで販売したのですか？！

ビッグデータダイジェスト制作出典: theguardianすべての作家にとって、盗作はおそらく最も許...

4Paradigm が分子特性予測のための生成型 3D 事前トレーニング済みモデルを開発

論文タイトル: 分子特性予測のための自動 3D 事前トレーニング論文リンク: https://arx...

160本の論文を体系的に調査した、分野初の総合レビューが出版され、IJCAI 2021に受理されました。

[[397024]]ドメイン一般化 (DG) は近年非常に人気のある研究方向となっています。研究す...

...