優秀なデータ アナリストは、基本的な統計、データベース、データ分析方法、考え方、データ分析ツールのスキルを習得するだけでなく、貴重なデータを掘り出すのに役立つデータ マイニングのアイデアも習得する必要があります。これは、データ分析の専門家と一般的なデータ アナリストの違いの 1 つでもあります。 データ マイニングは、主に分類アルゴリズム、クラスタリング アルゴリズム、および関連ルールの 3 つのカテゴリに分けられます。これら 3 つのカテゴリは、基本的に現在の商用市場のアルゴリズムのニーズをすべてカバーしています。これら 3 つのカテゴリには、多くの古典的なアルゴリズムが含まれています。市場に出回っているデータマイニングアルゴリズムの紹介の多くは奥が深く、理解するのが難しいものです。今日は、簡単な言葉を使って、上位 10 の古典的なデータマイニングアルゴリズムの原理を紹介し、すぐに理解できるようにします。 アルゴリズム分類 接続分析: PageRank 関連性分析: Apriori 分類アルゴリズム: C4.5、Naive Bayes、SVM、KNN、Adaboost、CART クラスタリングアルゴリズム: K-Means、EM 1. ページランク論文が引用される回数が増えるほど、その影響力は大きくなります。 ウェブページの入り口が多く、入ってくるリンクの質が高いほど、ウェブページの品質は高くなります。 原理 ウェブページの影響 = 減衰影響 + すべてのインバウンドリンク収集ページの加重影響の合計
比喩 1. 微博 Weibo のフォロワー数は必ずしもその人の実際の影響力と一致するわけではなく、フォロワーの質も考慮する必要があります。 ゾンビファンであれば無用だが、大物Vや著名人が多くフォローしていれば、その影響力は非常に高くなる。 2.店舗運営 顧客数が多い店舗は品質が良い傾向にありますが、その顧客が他の人に雇われているかどうかを確認する必要があります。 3. 興味 興味のある人や物事に比較的多くの時間を費やすと、それらに関連する人や物事にも一定の時間を費やすことになります。人や物がより多くの注目を集めれば、その影響力や聴衆も大きくなります。 ダンピングファクターについて 1. あなたの影響力は、隣人の影響力によって判断されます。ただし、隣人があなたにアクセスできない場合、それはあなたが影響力を持っていないことを意味するわけではありません。彼らはあなたに直接アクセスできるため、減衰係数の概念が導入されます。 2. 海を流れる川のほかに雨もありますが、雨はランダムに降ります。 3. 減衰係数は、一部のウェブサイトに多数のアウトバウンドリンク(インバウンドリンク)があり、その影響が非常に大きい状況を解決するために提案されています。
2. アプリオリ(関連分析)関係マイニング: 消費者の取引記録から製品間の関係を発見します。 原理 1. サポート 製品の組み合わせが出現する回数と合計回数の比率。 購入は 5 件あり、そのうち 4 件は牛乳のため、牛乳のサポート レベルは 4/5 = 0.8 です。 購入は5回で、そのうち3回は牛乳+パンでした。牛乳+パンのサポートレベルは3/5=0.6です。 2. 自信 製品 A を購入した後、製品 B を購入する確率はどれくらいでしょうか。A が発生したときに B が発生する確率はどれくらいでしょうか。 牛乳は4回購入され、ビールは2回購入されました。牛乳->ビールの信頼度は2/4=0.5です。 ビールは3回購入され、牛乳は2回購入されました。(ビール->牛乳)の信頼度は2/3-0.67です。 3. 改善 製品 A の出現によって製品 B の出現確率がどの程度増加するかを測定します。 リフト(A->B) = 信頼度(A->B)/サポート(B)。 リフト > 1 の場合は改善があり、リフト = 1 の場合は変化がなく、リフト < 1 の場合は減少があります。 4. 頻繁なアイテムセット アイテムセット: 単一のアイテムまたはアイテムの組み合わせになります。 頻繁なアイテムセットは、サポートが最小サポート (Min Support) より大きいアイテムセットです。 計算プロセス 1. K=1 から始めて、頻出アイテムセットをフィルタリングします。 2. 結果で、K+1 個のアイテム セットを結合し、再度フィルター処理します。 3. 手順 1 と 2 を繰り返します。結果が見つからなくなるまで、K-1 項目セットの結果が最終結果になります。 拡張: FP-Growth アルゴリズム Apriori アルゴリズムでは、データベースを複数回スキャンする必要があり、パフォーマンスが低く、大量のデータには適していません。 FP 成長アルゴリズムは、FP ツリーのデータ構造を構築して、FP ツリーにデータを格納します。FP ツリーを構築するときにデータベースを 2 回スキャンするだけで、後続の処理ではデータベースに再度アクセスする必要がありません。 比喩:ビールとおむつは一緒に売られている ウォルマートはデータ分析を通じて、赤ちゃんがいるアメリカの家庭では、父親がスーパーマーケットにおむつを買いに行く間、母親が家で子供の世話をしていることが多いことを発見した。 父親はおむつを買うときに、ビールを数本買って自分にご褒美をあげることが多い。そこでスーパーマーケットはビールとおむつを一緒に置いて販売促進を試みた。この取り組みにより、おむつとビールの売上は両方とも大幅に増加した。 3. アダブースト原理 簡単に言えば、複数の弱い分類器が強い分類器になるようにトレーニングされます。 一連の弱い分類器は、最終的な分類選択として、異なる重み比で組み合わせられます。 計算プロセス 1. 基本重みを初期化します。 2. 重みマトリックスを付与し、既存の分類器を通じてエラー率を計算し、エラー率が最も低い分類器を最適な分類器として選択します。 3. 分類器の重み式を使用して、正しいサンプルの分布を減らし、誤ったサンプルの分布を増やし、新しい重みマトリックスと現在の k ラウンドの分類器の重みを取得します。 4. 新しい重みマトリックスを上記の手順 2 と 3 に代入し、重みマトリックスを再計算します。 5. N ラウンドを繰り返し、各ラウンドの最終的な分類器の重みを記録し、強力な分類器を取得します。 比喩 1. 間違った質問を使って学習効率を高める 正しい質問をして、次回は質問を減らしてください。いずれにしても、あなたは正しい質問を知っているでしょう。 間違えた質問については、次回はもっと集中して取り組んでください。 勉強すればするほど、間違いは少なくなります。 2. 利益を増やすための合理的な越境事業 Appleはソフトウェアとハードウェアを組み合わせることで、携帯電話市場の利益の大部分を獲得し、2つの分野の知識を組み合わせて新たな収益を生み出している。 4. C4.5(意思決定ツリー)意思決定とは、複数の答えがある問題に対して答えを選択するプロセスです。 C4.5 アルゴリズムは、主に分類に使用される決定木を生成するために使用されるアルゴリズムです。 C4.5 は計算に情報ゲイン率を使用します (ID3 アルゴリズムは計算に情報ゲインを使用します)。 原理 C4.5 はサンプル セットを分割する最も効果的な方法を選択し、分割ルールはすべての属性の情報ゲイン率を分析することです。 情報ゲイン率が大きいほど、この機能の分類能力は強くなるため、分類ではこの機能を優先する必要があります。 比喩的な説明:スイカを摘むこと。 スイカを手に入れたら、まずその質感を判断します。ぼやけている場合は、良いスイカではないとみなされます。透明であれば、良いスイカとみなされます。少しぼやけている場合は、密度を考慮してください。密度が特定の値より大きい場合は、良いスイカとみなされ、そうでない場合は悪いスイカとみなされます。 5. CART(決定木)CART:分類と回帰ツリーは、中国語では分類と回帰ツリーと呼ばれ、分類と回帰の両方を行うことができます。 分類ツリーと回帰ツリーとは何ですか? 分類ツリー:離散データ、つまり種類の数が限られたデータを処理し、サンプルのカテゴリを出力します。 回帰木:連続した値を予測し、一定区間内の任意の値を取り得る値を出力することができます。 回帰問題の本質は分類問題と同じで、どちらも入力に対する出力予測を目的としています。違いは出力変数の種類にあります。 原理 CART分類ツリー C4.5 アルゴリズムに似ていますが、属性選択メトリックがジニ係数である点が異なります。 ジニ係数はサンプルの不確実性を反映します。ジニ係数が小さいほど、サンプル間の差が小さくなり、不確実性の度合いが低くなります。 分類は不確実性を減らすプロセスです。分類ツリーを構築するとき、CART は属性区分としてジニ係数が最も小さい属性を選択します。 CART 回帰ツリー 平均二乗誤差または絶対値誤差を基準として、平均二乗誤差または絶対値誤差が最小の特徴を選択します。 比喩 カテゴリ: 明日は曇りか、晴れか、雨かを予測します。 回帰: 明日の気温を予測します。 6. ナイーブベイズ(条件付き確率)ナイーブベイズは、未知のオブジェクトが出現する条件下で各カテゴリが出現する確率を計算し、最も高い確率のカテゴリを選択する、シンプルで効果的で一般的に使用される分類アルゴリズムです。 原理 異なる入力特徴が互いに独立していると仮定し、確率論の原理に基づいて、事後確率 P(A|B) は事前確率 P(A)、P(B)、および条件付き確率を通じて計算されます。 P(A): 事前確率、つまりイベント B が発生する前のイベント A の確率に関する判断。 P(B|A): 条件付き確率。別のイベント A がすでに発生した場合にイベント B が発生する確率。 P(A|B): 事後確率、つまりイベント B が発生した後のイベント A の確率の再評価。 比喩的な説明:患者を分類する。 新しい患者である建設作業員がくしゃみをした場合、その人が風邪をひいている確率を計算します。 7. サポートベクターマシンSVM:サポート ベクター マシン (中国語名はサポート ベクター マシン) は、一般的な分類方法です。もともとはバイナリ分類問題用に設計されました。機械学習において、SVM は教師あり学習モデルです。 教師あり学習と教師なし学習とは何ですか? 教師あり学習: 既存のカテゴリ ラベルを使用してサンプル データを分類します。 教師なし学習: カテゴリ ラベルがない場合、サンプル データは特定の方法、つまりクラスタリングに従って分類されます。分類されたカテゴリは、各カテゴリの特性を理解するためにさらに分析する必要があります。 原理 間隔が最小のサンプル ポイントを見つけ、これらのサンプル ポイントまでの最大距離を持つ線分/平面を近似します。 ハード間隔: データが線形に分布している場合、分類は直接与えられます。 ソフト マージン: 一定量のサンプル分類エラーを許容します。 カーネル関数: 非線形に分散されたデータを線形に分散されたデータにマッピングします。 比喩 1. テーブルの上に赤いボールとバスケットボールの山を分けます ひもを使って、テーブルの上の赤いボールと青いボールを2つに分けます。 2.箱の中の赤いボールとバスケットボールの山を分ける 飛行機を使って、箱の中の赤いボールと青いボールを 2 つの部分に分けます。 8. KNN(クラスタリング)最も基本的かつ単純な機械学習アルゴリズムの 1 つであり、分類と回帰の両方を実行でき、異なる特徴値間の距離を測定することで分類を実行します。 原理 分類するオブジェクトと他のオブジェクト間の距離を計算します。K 近傍の場合、最も大きい数値を持つカテゴリが分類されたオブジェクトのカテゴリとして予測されます。 計算手順 1. シーンに応じて、分類するオブジェクトと他のオブジェクト間の距離を計算する距離計算方法を選択します。 2. K 個の最も近い近傍を数えます。 3. K 近傍のうち、最も大きい数値を持つカテゴリが、分類されたオブジェクトのカテゴリとして予測されます。 比喩的な説明:朱色と付き合う者は赤くなり、墨と付き合う者は黒くなる。 9. K平均法(クラスタリング)K 平均法は、教師なし学習法であるクラスタリング アルゴリズムです。指定された K 個のクラスを生成し、各オブジェクトを最も近いクラスター センターに割り当てます。 原理 1. 分類中心点として K 点をランダムに選択します。 2. 各ポイントを最も近いクラスに割り当て、K クラスを形成します。 3. 各クラスの中心点を再計算します。たとえば、同じカテゴリに属するポイントが 10 個ある場合、新しい中心点はこれらの 10 個のポイントの中心点になります。簡単な方法は平均を取ることです。 比喩 1. ボスを選ぶ K 人のリーダーをランダムに選択し、そのリーダーに最も近い人がそのキューの人になります (距離を計算し、近い人はグループ化されます)。 時間が経つにつれて、ボスの位置は変化し(アルゴリズムに従って中心点が再計算されます)、真の中心ボスが選択されます(精度が最も高くなるまで繰り返します)。 2. KmeansとKnnの違い Kmeans はクラスを開始してリーダーを選択し、最適な中心リーダーが選択されるまで状況が変化します。 私の弟のKnnもチームに参加し、比較的そのクラスに近いので、彼はそのクラス出身です。 10. EM(クラスタリング)EM は英語で Expectation Maximization の略語なので、EM アルゴリズムは最大期待値アルゴリズムとも呼ばれ、これもクラスタリング アルゴリズムの一種です。 EM と K-Means の違い:
原理 まず、高い確率で可能性のあるパラメータを推定し、最終的に確認されたパラメータが見つかるまで、データに基づいて継続的に調整します。 比喩的な説明:野菜を計量する。 はかりを使って食べ物の重さを量り、半分の量を計算して均等に分ける人はほとんどいません。 ほとんどの人のアプローチは次のとおりです。 1. まず一部を皿Aに分け、残りを皿Bに分けます。 2. お皿 A と B に同じ量の食べ物が入っているかどうかを確認します。食べ物が多い場合は、その一部を食べ物の少ないお皿に移します。 3. 次に、皿 A と皿 B に同じ量の食べ物が入っているかどうかを確認します。量が変わらなくなるまでこのプロセスを繰り返します。 上位 10 個のアルゴリズムについて説明しました。一般的に、よく使用されるアルゴリズムはライブラリにカプセル化されており、対応するモデルを作成するだけで済みます。 |
>>: 顔認識禁止が迫る:テクノロジー企業はどこへ向かうべきか?
洗濯機、照明、スピーカー、テレビ、カメラなど、日常的に使用するデバイスが、離れた場所からあなたと通信...
急速に進化するあらゆるトピックと同様に、学ぶべき新しいことが常に存在し、機械学習も例外ではありません...
[[241804]]ビッグデータダイジェスト制作編纂者:大迪、彭耀慧、茶曦、唐元、夏亜偉金融の世界...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
6月に開催されるCVPR 2019は、マシンビジョン分野で最も重要な学術会議です。選考結果が発表され...
現在、ディープラーニングは、ゲーム、自然言語翻訳、医療画像分析など、ますます多くのタスクで人間を上回...
GPT-4 は、詳細かつ正確な画像の説明を生成する強力で並外れた能力を実証しており、言語と視覚処理...
長すぎて読めないこの論文では、新しいタスクである方向リモートセンシング画像セグメンテーション (RR...
サイバー脅威は高度化、蔓延しているため、企業は常に警戒を怠ってはなりません。 2022年には、4億9...
ラボガイドインターネットの発展により、企業はより多くのデータを入手できるようになりました。これらのデ...