データマイニングの10の主要なアルゴリズムを、初心者でも一目で理解できるように平易な言葉で説明しました。

優秀なデータアナリストは、基本的な統計、データベース、データ分析方法、考え方、データ分析ツールのスキルを習得するだけでなく、貴重なデータを掘り出すのに役立つデータマイニングのアイデアも習得する必要があります。これは、データ分析の専門家と一般的なデータアナリストの違いの 1 つでもあります。

データマイニングは、主に分類アルゴリズム、クラスタリングアルゴリズム、および関連ルールの 3 つのカテゴリに分けられます。これら 3 つのカテゴリは、基本的に現在の商用市場のアルゴリズムのニーズをすべてカバーしています。これら 3 つのカテゴリには、多くの古典的なアルゴリズムが含まれています。市場に出回っているデータマイニングアルゴリズムの紹介の多くは奥が深く、理解するのが難しいものです。今日は、簡単な言葉を使って、上位 10 の古典的なデータマイニングアルゴリズムの原理を紹介し、すぐに理解できるようにします。

アルゴリズム分類

接続分析: PageRank

1. ページランク

論文が引用される回数が増えるほど、その影響力は大きくなります。

ウェブページの入り口が多く、入ってくるリンクの質が高いほど、ウェブページの品質は高くなります。

原理

ウェブページの影響 = 減衰影響 + すべてのインバウンドリンク収集ページの加重影響の合計

Web ページの影響力: そのページにリンクしているすべてのページの加重影響力の合計。
Web ページが他の Web ページに与える影響は、その Web ページ自体の影響度 / 外部リンクの数で表されます。
ユーザーは必ずしもジャンプリンクをたどってインターネットにアクセスするわけではありません。URL を直接入力してアクセスするなど、他の方法もあります。
したがって、ユーザーがジャンプリンクをたどってインターネットにアクセスする確率を表す減衰係数を設定する必要があります。

比喩

1. 微博

Weibo のフォロワー数は必ずしもその人の実際の影響力と一致するわけではなく、フォロワーの質も考慮する必要があります。

ゾンビファンであれば無用だが、大物Vや著名人が多くフォローしていれば、その影響力は非常に高くなる。

2.店舗運営

顧客数が多い店舗は品質が良い傾向にありますが、その顧客が他の人に雇われているかどうかを確認する必要があります。

3. 興味

興味のある人や物事に比較的多くの時間を費やすと、それらに関連する人や物事にも一定の時間を費やすことになります。人や物がより多くの注目を集めれば、その影響力や聴衆も大きくなります。

ダンピングファクターについて

1. あなたの影響力は、隣人の影響力によって判断されます。ただし、隣人があなたにアクセスできない場合、それはあなたが影響力を持っていないことを意味するわけではありません。彼らはあなたに直接アクセスできるため、減衰係数の概念が導入されます。

2. 海を流れる川のほかに雨もありますが、雨はランダムに降ります。

3. 減衰係数は、一部のウェブサイトに多数のアウトバウンドリンク（インバウンドリンク）があり、その影響が非常に大きい状況を解決するために提案されています。

アウトバウンドリンクの例: hao123 ナビゲーション Web ページには、アウトバウンドリンクは多数ありますが、インバウンドリンクはほとんどありません。
インバウンドリンクの例: Baidu、Google、その他の検索エンジンにはインバウンドリンクがたくさんありますが、アウトバウンドリンクはほとんどありません。

2. アプリオリ（関連分析）

関係マイニング: 消費者の取引記録から製品間の関係を発見します。

原理

1. サポート

製品の組み合わせが出現する回数と合計回数の比率。

購入は 5 件あり、そのうち 4 件は牛乳のため、牛乳のサポートレベルは 4/5 = 0.8 です。

購入は5回で、そのうち3回は牛乳+パンでした。牛乳+パンのサポートレベルは3/5=0.6です。

2. 自信

製品 A を購入した後、製品 B を購入する確率はどれくらいでしょうか。A が発生したときに B が発生する確率はどれくらいでしょうか。

牛乳は4回購入され、ビールは2回購入されました。牛乳->ビールの信頼度は2/4=0.5です。

ビールは3回購入され、牛乳は2回購入されました。(ビール->牛乳)の信頼度は2/3-0.67です。

3. 改善

製品 A の出現によって製品 B の出現確率がどの程度増加するかを測定します。

リフト(A->B) = 信頼度(A->B)/サポート(B)。

リフト > 1 の場合は改善があり、リフト = 1 の場合は変化がなく、リフト < 1 の場合は減少があります。

4. 頻繁なアイテムセット

アイテムセット: 単一のアイテムまたはアイテムの組み合わせになります。

頻繁なアイテムセットは、サポートが最小サポート (Min Support) より大きいアイテムセットです。

計算プロセス

1. K=1 から始めて、頻出アイテムセットをフィルタリングします。

2. 結果で、K+1 個のアイテムセットを結合し、再度フィルター処理します。

3. 手順 1 と 2 を繰り返します。結果が見つからなくなるまで、K-1 項目セットの結果が最終結果になります。

拡張: FP-Growth アルゴリズム

Apriori アルゴリズムでは、データベースを複数回スキャンする必要があり、パフォーマンスが低く、大量のデータには適していません。

FP 成長アルゴリズムは、FP ツリーのデータ構造を構築して、FP ツリーにデータを格納します。FP ツリーを構築するときにデータベースを 2 回スキャンするだけで、後続の処理ではデータベースに再度アクセスする必要がありません。

比喩：ビールとおむつは一緒に売られている

ウォルマートはデータ分析を通じて、赤ちゃんがいるアメリカの家庭では、父親がスーパーマーケットにおむつを買いに行く間、母親が家で子供の世話をしていることが多いことを発見した。

父親はおむつを買うときに、ビールを数本買って自分にご褒美をあげることが多い。そこでスーパーマーケットはビールとおむつを一緒に置いて販売促進を試みた。この取り組みにより、おむつとビールの売上は両方とも大幅に増加した。

3. アダブースト

原理

簡単に言えば、複数の弱い分類器が強い分類器になるようにトレーニングされます。

一連の弱い分類器は、最終的な分類選択として、異なる重み比で組み合わせられます。

計算プロセス

1. 基本重みを初期化します。

2. 重みマトリックスを付与し、既存の分類器を通じてエラー率を計算し、エラー率が最も低い分類器を最適な分類器として選択します。

3. 分類器の重み式を使用して、正しいサンプルの分布を減らし、誤ったサンプルの分布を増やし、新しい重みマトリックスと現在の k ラウンドの分類器の重みを取得します。

4. 新しい重みマトリックスを上記の手順 2 と 3 に代入し、重みマトリックスを再計算します。

5. N ラウンドを繰り返し、各ラウンドの最終的な分類器の重みを記録し、強力な分類器を取得します。

比喩

1. 間違った質問を使って学習効率を高める

正しい質問をして、次回は質問を減らしてください。いずれにしても、あなたは正しい質問を知っているでしょう。

間違えた質問については、次回はもっと集中して取り組んでください。

勉強すればするほど、間違いは少なくなります。

2. 利益を増やすための合理的な越境事業

Appleはソフトウェアとハードウェアを組み合わせることで、携帯電話市場の利益の大部分を獲得し、2つの分野の知識を組み合わせて新たな収益を生み出している。

4. C4.5（意思決定ツリー）

意思決定とは、複数の答えがある問題に対して答えを選択するプロセスです。

C4.5 アルゴリズムは、主に分類に使用される決定木を生成するために使用されるアルゴリズムです。

C4.5 は計算に情報ゲイン率を使用します (ID3 アルゴリズムは計算に情報ゲインを使用します)。

原理

C4.5 はサンプルセットを分割する最も効果的な方法を選択し、分割ルールはすべての属性の情報ゲイン率を分析することです。

情報ゲイン率が大きいほど、この機能の分類能力は強くなるため、分類ではこの機能を優先する必要があります。

比喩的な説明:スイカを摘むこと。

スイカを手に入れたら、まずその質感を判断します。ぼやけている場合は、良いスイカではないとみなされます。透明であれば、良いスイカとみなされます。少しぼやけている場合は、密度を考慮してください。密度が特定の値より大きい場合は、良いスイカとみなされ、そうでない場合は悪いスイカとみなされます。

5. CART（決定木）

CART:分類と回帰ツリーは、中国語では分類と回帰ツリーと呼ばれ、分類と回帰の両方を行うことができます。

分類ツリーと回帰ツリーとは何ですか?

分類ツリー:離散データ、つまり種類の数が限られたデータを処理し、サンプルのカテゴリを出力します。

回帰木：連続した値を予測し、一定区間内の任意の値を取り得る値を出力することができます。

回帰問題の本質は分類問題と同じで、どちらも入力に対する出力予測を目的としています。違いは出力変数の種類にあります。

原理

CART分類ツリー

C4.5 アルゴリズムに似ていますが、属性選択メトリックがジニ係数である点が異なります。

ジニ係数はサンプルの不確実性を反映します。ジニ係数が小さいほど、サンプル間の差が小さくなり、不確実性の度合いが低くなります。

分類は不確実性を減らすプロセスです。分類ツリーを構築するとき、CART は属性区分としてジニ係数が最も小さい属性を選択します。

CART 回帰ツリー

平均二乗誤差または絶対値誤差を基準として、平均二乗誤差または絶対値誤差が最小の特徴を選択します。

比喩

カテゴリ: 明日は曇りか、晴れか、雨かを予測します。

回帰: 明日の気温を予測します。

6. ナイーブベイズ（条件付き確率）

ナイーブベイズは、未知のオブジェクトが出現する条件下で各カテゴリが出現する確率を計算し、最も高い確率のカテゴリを選択する、シンプルで効果的で一般的に使用される分類アルゴリズムです。

原理

異なる入力特徴が互いに独立していると仮定し、確率論の原理に基づいて、事後確率 P(A|B) は事前確率 P(A)、P(B)、および条件付き確率を通じて計算されます。

P(A): 事前確率、つまりイベント B が発生する前のイベント A の確率に関する判断。

P(B|A): 条件付き確率。別のイベント A がすでに発生した場合にイベント B が発生する確率。

P(A|B): 事後確率、つまりイベント B が発生した後のイベント A の確率の再評価。

比喩的な説明:患者を分類する。

新しい患者である建設作業員がくしゃみをした場合、その人が風邪をひいている確率を計算します。

7. サポートベクターマシン

SVM:サポートベクターマシン (中国語名はサポートベクターマシン) は、一般的な分類方法です。もともとはバイナリ分類問題用に設計されました。機械学習において、SVM は教師あり学習モデルです。

教師あり学習と教師なし学習とは何ですか?

教師あり学習: 既存のカテゴリラベルを使用してサンプルデータを分類します。

教師なし学習: カテゴリラベルがない場合、サンプルデータは特定の方法、つまりクラスタリングに従って分類されます。分類されたカテゴリは、各カテゴリの特性を理解するためにさらに分析する必要があります。

原理

間隔が最小のサンプルポイントを見つけ、これらのサンプルポイントまでの最大距離を持つ線分/平面を近似します。

ハード間隔: データが線形に分布している場合、分類は直接与えられます。

ソフトマージン: 一定量のサンプル分類エラーを許容します。

カーネル関数: 非線形に分散されたデータを線形に分散されたデータにマッピングします。

比喩

1. テーブルの上に赤いボールとバスケットボールの山を分けます

ひもを使って、テーブルの上の赤いボールと青いボールを2つに分けます。

2.箱の中の赤いボールとバスケットボールの山を分ける

飛行機を使って、箱の中の赤いボールと青いボールを 2 つの部分に分けます。

8. KNN（クラスタリング）

最も基本的かつ単純な機械学習アルゴリズムの 1 つであり、分類と回帰の両方を実行でき、異なる特徴値間の距離を測定することで分類を実行します。

原理

分類するオブジェクトと他のオブジェクト間の距離を計算します。K 近傍の場合、最も大きい数値を持つカテゴリが分類されたオブジェクトのカテゴリとして予測されます。

計算手順

1. シーンに応じて、分類するオブジェクトと他のオブジェクト間の距離を計算する距離計算方法を選択します。

2. K 個の最も近い近傍を数えます。

3. K 近傍のうち、最も大きい数値を持つカテゴリが、分類されたオブジェクトのカテゴリとして予測されます。

比喩的な説明:朱色と付き合う者は赤くなり、墨と付き合う者は黒くなる。

9. K平均法（クラスタリング）

K 平均法は、教師なし学習法であるクラスタリングアルゴリズムです。指定された K 個のクラスを生成し、各オブジェクトを最も近いクラスターセンターに割り当てます。

原理

1. 分類中心点として K 点をランダムに選択します。

2. 各ポイントを最も近いクラスに割り当て、K クラスを形成します。

3. 各クラスの中心点を再計算します。たとえば、同じカテゴリに属するポイントが 10 個ある場合、新しい中心点はこれらの 10 個のポイントの中心点になります。簡単な方法は平均を取ることです。

比喩

1. ボスを選ぶ

K 人のリーダーをランダムに選択し、そのリーダーに最も近い人がそのキューの人になります (距離を計算し、近い人はグループ化されます)。

時間が経つにつれて、ボスの位置は変化し（アルゴリズムに従って中心点が再計算されます）、真の中心ボスが選択されます（精度が最も高くなるまで繰り返します）。

2. KmeansとKnnの違い

Kmeans はクラスを開始してリーダーを選択し、最適な中心リーダーが選択されるまで状況が変化します。

私の弟のKnnもチームに参加し、比較的そのクラスに近いので、彼はそのクラス出身です。

10. EM（クラスタリング）

EM は英語で Expectation Maximization の略語なので、EM アルゴリズムは最大期待値アルゴリズムとも呼ばれ、これもクラスタリングアルゴリズムの一種です。

EM と K-Means の違い:

EM は確率を計算し、KMeans は距離を計算します。
EM はソフトクラスタリングに属し、同じサンプルが複数のカテゴリに属する可能性があります。一方、K-Means はハードクラスタリングに属し、サンプルは 1 つのカテゴリにのみ属することができます。つまり、前者は隠されたデータを発見できるのです。

原理

まず、高い確率で可能性のあるパラメータを推定し、最終的に確認されたパラメータが見つかるまで、データに基づいて継続的に調整します。

比喩的な説明:野菜を計量する。

はかりを使って食べ物の重さを量り、半分の量を計算して均等に分ける人はほとんどいません。

ほとんどの人のアプローチは次のとおりです。

1. まず一部を皿Aに分け、残りを皿Bに分けます。

2. お皿 A と B に同じ量の食べ物が入っているかどうかを確認します。食べ物が多い場合は、その一部を食べ物の少ないお皿に移します。

3. 次に、皿 A と皿 B に同じ量の食べ物が入っているかどうかを確認します。量が変わらなくなるまでこのプロセスを繰り返します。

上位 10 個のアルゴリズムについて説明しました。一般的に、よく使用されるアルゴリズムはライブラリにカプセル化されており、対応するモデルを作成するだけで済みます。

<<: AI開発者のための7つの倫理ガイドライン

>>: 顔認識禁止が迫る：テクノロジー企業はどこへ向かうべきか？