武漢に比べると北京の秋の訪れはとても早く、9月の夕方には少し肌寒さを感じるようになります。 最近、私をとても感動させた二つの出来事がありました。 ある記者会見を見て、デザイナーの李建業さんの言葉がとても感動的でした。 「**さんのデザインは控えめで控えめ…そのデザインが無視できる存在になれたらいいなと思います。」 次に、私はさまざまな調子で踊り続ける婦人科専門医のフェン・タンにインスピレーションを受けています。彼の言葉は「追求し、あえて諦める」です。 「スパムを識別する方法」、「取引が不正かどうかを判断する方法」、「赤ワインの品質と等級を判断する方法」、「Scan King はどのようにしてテキスト認識を実現しているのか」、「匿名の作品が有名な著者によって書かれたものかどうかを判断する方法」、「細胞が腫瘍細胞であるかどうかを判断する方法」など。これらの質問は非常に専門的で、答えるのが難しいようです。しかし、データマイニングについて少しでも知っていれば、状況はより明るくなると感じるかもしれません。 実際、データマイニングはあらゆるところで行われています。それは生命と切り離すことのできないものであり、空気のようにあなたの周りに浸透しています。しかし、多くの場合、それに気づきません。したがって、それは奇妙であると同時に馴染み深いものでもある。 この記事では、データマイニングにおけるアルゴリズムとその種類について簡単に紹介したいと思います。そして、現実に手の届く範囲にある実例を通して、その実在を解釈します。 1. データマイニングアルゴリズムの種類一般的に、データ マイニング アルゴリズムには、分類、予測、クラスタリング、関連付けの 4 つのタイプがあります。最初の 2 つは教師あり学習に属し、最後の 2 つは教師なし学習に属し、記述的パターン認識と発見です。 1. 教師あり学習 教師あり学習とは、ターゲット変数が存在し、特徴変数とターゲット変数の関係を探索し、ターゲット変数の監視下でアルゴリズムを学習・最適化する必要があることを意味します。たとえば、クレジット スコアリング モデルは、ターゲット変数が「デフォルト」である典型的な教師あり学習モデルです。アルゴリズムの目的は、特徴変数 (人口統計、資産属性など) とターゲット変数の関係を調査することです。 (1)分類アルゴリズム 分類アルゴリズムと予測アルゴリズムの最大の違いは、前者のターゲット変数が離散的(例えば、期限切れかどうか、腫瘍細胞かどうか、スパムかどうかなど)であるのに対し、後者のターゲット変数は連続的であることです。一般的に、特定の分類アルゴリズムには、ロジスティック回帰、決定木、KNN、ベイズ判別分析、SVM、ランダムフォレスト、ニューラルネットワークなどがあります。 (2)予測アルゴリズム 予測アルゴリズムの場合、ターゲット変数は通常連続変数です。一般的なアルゴリズムには、線形回帰、回帰ツリー、ニューラル ネットワーク、SVM などがあります。 2. 教師なし学習 教師なし学習とは、ターゲット変数が存在せず、データ自体に基づいて変数間の固有のパターンと特徴を識別することを意味します。たとえば、関連分析では、データを通じてプロジェクト A とプロジェクト B 間の相関関係を発見できます。たとえば、クラスター分析では、すべてのサンプルを距離に基づいていくつかの安定した区別可能なグループに分割します。これらは、ターゲット変数の監視なしのパターン認識と分析です。 (1)クラスター分析 クラスタリングの目的は、同じグループ内のサンプルの特性がより類似し、異なるグループ内のサンプルの特性がより異なるようにサンプルを細分化することです。一般的なクラスタリング アルゴリズムには、kmeans、家系クラスタリング、密度クラスタリングなどがあります。 (2)相関分析 関連性分析の目的は、項目間の本質的なつながりを見つけることです。これは多くの場合、買い物かご分析、つまり、消費者が同時に購入することが多い製品(水泳パンツと日焼け止めなど)を指し、小売業者がバンドル販売を行うのに役立ちます。 #p# 2. データマイニングに基づく事例と応用上記の 4 種類のアルゴリズム (分類、予測、クラスタリング、関連付け) は、比較的伝統的で一般的なものです。他にも、協調フィルタリング、外れ値分析、ソーシャル ネットワーク、テキスト分析など、興味深いアルゴリズムの分類とアプリケーション シナリオがいくつかあります。次に、日常生活におけるデータマイニングの実態をアルゴリズムの種類ごとに詳しく紹介したいと思います。人生に深く関係する興味深い例をいくつか挙げてみます。 1. 分類モデルに基づくケーススタディ ここでは主に2つの事例を紹介したいと思います。1つはスパムの分類と判定、もう1つはバイオメディカル分野への応用、つまり腫瘍細胞の判定と識別です。
(1)スパム判定 メールボックス システムは、電子メールがスパムであるかどうかをどのようにして判断するのでしょうか?これはテキストマイニングのカテゴリに分類され、通常は単純ベイズ法が判断に使用されます。その主な原則は、電子メール本文の単語がスパムによく出現するかどうかに基づいて判断することです。たとえば、メールの本文に「払い戻し」、「請求書」、「プロモーション」などの単語が含まれている場合、そのメールはスパムと判断される可能性が高くなります。 一般的に、電子メールがスパムかどうかを判断するには、次の手順を実行する必要があります。 ***、電子メールに 100 語が含まれていると仮定して、電子メール本文を単語の組み合わせに分解します。 次に、ベイズの条件付き確率に基づいて、これらの 100 語を含む電子メールがスパム メールである確率と、通常の電子メールである確率を計算します。結果が、スパムメールである確率が通常のメールである確率よりも高いことを示している場合。メールはスパムとして分類されます。 (2)腫瘍の医学的診断 細胞が腫瘍細胞であるかどうかを判断するにはどうすればよいでしょうか?腫瘍細胞と正常細胞には違いがあります。しかし、病理組織検査による判断には、非常に経験豊富な医師が必要です。機械学習を使用すれば、システムは腫瘍細胞を自動的に識別できます。この時点で効率は飛躍的に向上します。さらに、主観的(医師)+客観的(モデル)アプローチを通じて腫瘍細胞を特定し、その結果を相互検証することで、結論の信頼性が高まる可能性があります。 どうやってやるんですか?分類モデルを通じて識別されます。つまり、2 つのステップが含まれます。まず、細胞特性は、細胞半径、テクスチャ、円周、面積、滑らかさ、対称性、凹面度などの一連の指標によって特徴付けられ、細胞特性データを形成します。次に、広範な細胞特性表に基づいて、分類モデルを構築して腫瘍細胞を判断します。 2. 予測モデルに基づく事例 ここで2つの事例を紹介したいと思います。つまり、赤ワインの品質をその化学的性質から判断し、予測するということです。もう一つは、検索エンジンを通じて株価の変動や動向を予測・判断することです。 (1)赤ワインの品質判定 赤ワインを評価するには?経験豊富な人なら、赤ワインで最も重要なことは味だと言うでしょう。味の質は、年、産地、気候、醸造方法など、多くの要因によって影響を受けます。しかし、統計学者にはさまざまな赤ワインを試飲する時間がありません。彼らは、赤ワインの品質はいくつかの化学的性質によって十分に判断できると考えています。さらに、現在多くのワイン製造会社が実際にこれを実行し、赤ワインの化学成分の含有量を監視して、赤ワインの品質と味を管理しています。 では、赤ワインの品質をどのように判断するのでしょうか? 最初のステップは、赤ワインのサンプルを大量に収集し、分類して、酸度、糖分、塩化物、硫黄分、アルコール分、pH値、密度などの化学的性質をテストすることです。 2 番目のステップは、分類と回帰ツリー モデルを通じて赤ワインの品質と等級を予測および判断することです。 (2)検索エンジンの検索ボリュームと株価変動 南米の熱帯雨林に生息する蝶が時折羽ばたき、2週間後に米国テキサス州で竜巻を引き起こすことがある。インターネット検索は企業の株価の動向に影響を与えますか? 昔、インターネットのキーワード検索(インフルエンザなど)によって、CDC よりも 1 ~ 2 週間早く地域でのインフルエンザの発生を予測できることを証明する文献がありました。 同様に、インターネット上での企業の検索ボリュームの変化が、その企業の株価の変動や動向に大きな影響を与えるという現象を発見した学者もおり、これはいわゆる「投資家の注目理論」です。この理論によれば、検索エンジンで企業を検索する回数は、投資家がその株にどれだけ注目しているかを表すという。したがって、銘柄の検索頻度が上昇するということは、その銘柄に対する投資家の注目度が高まったことを意味し、個人投資家がその銘柄を購入しやすくなり、さらに株価の上昇につながり、株式収益にプラスの影響を与えることになります。これは多数の論文によって検証されています。 (III)関連分析に基づくケーススタディ:ウォルマートのビールおむつ ビールおむつというのは、とても古い話です。ウォルマートは、おむつとビールという全く関係のない商品を一緒に販売すると、両方の売上が大幅に増加するという非常に興味深い現象を発見したという話があります。その理由は、アメリカ人女性はたいてい家で子供の世話をするので、仕事帰りに夫に子供のおむつを買ってくるよう頼むことが多く、夫はおむつを買いに行っている間に自分の好きなビールも買ってくるからです。ウォルマートはデータからこの相関関係を発見し、2つの商品を並べて販売したところ、関連する売上が大幅に増加しました。 ビールおむつは主に製品間の相関関係について語ります。大量のデータから、消費者が製品 A を購入すると同時に製品 B も購入していることが判明した場合。すると、A と B の間には相関関係が存在します。スーパーマーケットでは、2 つの製品が一緒に販売されているのをよく見かけますが、これはおそらく関連性分析の結果です。 (IV)クラスター分析に基づく例:小売顧客のセグメンテーション 顧客のセグメンテーションは非常に一般的です。セグメンテーションの機能は、顧客グループを効果的に分割し、グループ内のメンバーは類似しているが、グループ間には違いがあることです。目的は、さまざまな顧客グループを識別し、さまざまな顧客グループに合わせて製品を正確に設計してプッシュすることで、マーケティングコストを節約し、マーケティング効率を向上させることです。 たとえば、商業銀行の小売顧客をセグメント化し、顧客間の距離を特性変数 (人口統計特性、資産特性、負債特性、決済特性) に基づいて計算できます。次に、類似の顧客を距離に応じてグループ化し、顧客を効果的にセグメント化します。すべての顧客は、財務管理の好み、ファンドの好み、当座預金の好み、国債の好み、リスクバランスの好み、チャネルの好みなどのカテゴリに分類されます。 5. 外れ値分析に基づくケーススタディ:決済における取引不正検出 Alipay を使用して支払いをしたり、クレジットカードをスワイプして支払いをしたりすると、システムはカードのスワイプ動作が不正な取引であるかどうかをリアルタイムで判断します。判断は、カードのスワイプの時間、場所、加盟店名、金額、頻度などの要素を考慮して行われます。ここでの基本原則は外れ値を見つけることです。カードの読み取りが異常と判断された場合、取引が終了されることがあります。 外れ値の判断は、不正行為のルール ベースに基づいて行う必要があります。イベントベースのルールとモデルベースのルールという 2 種類のルールが含まれる場合があります。 ***、カードスワイプの時間帯が異常かどうか(早朝にカードをスワイプする)、カードスワイプの場所が異常かどうか(いつもと違う場所でカードをスワイプする)、カードスワイプの加盟店が異常かどうか(ブラックリストに載っているキャッシュアウト加盟店)、カードスワイプ金額が異常かどうか(通常平均値の標準偏差の 3 倍から外れているかどうか)、カードスワイプ頻度が異常かどうか(高頻度かつ集中的なカードスワイプ)などのイベントルール。 2 番目に、モデルベースのルールはアルゴリズムを使用して、取引が不正であるかどうかを判断します。一般的に、分類問題を判断するためのモデルを構築するには、支払いデータ、販売者データ、決済データが使用されます。 (VI) 協調フィルタリングに基づくケーススタディ: 電子商取引における好みの推測と推奨エンジン 電子商取引における「あなたの好みを推測」機能は、おそらく誰にとっても最も馴染みのある機能でしょう。 JD.com や Amazon で買い物をすると、必ず「あなたの好みを推測します」「閲覧履歴に基づいてあなたにおすすめします」「この商品を購入したお客様は、** 製品も購入しました」「この商品を閲覧したお客様は、最終的に ** 製品を購入しました」という表示が出てきますが、これらはすべてレコメンデーション エンジンの計算結果です。 ここで、私はAmazonのおすすめがとても気に入っています。「この商品を購入した人は**商品も購入しています」と見ると、高品質で認知度の高い本がよく見つかります。 7. ソーシャルネットワーク分析に基づくケーススタディ:通信業界のシード顧客 シード顧客とソーシャル ネットワークは、通信分野の研究で初めて登場しました。つまり、人々の通話記録を通じて、彼らの関係ネットワークの概要を把握することが可能です。電気通信分野では、ネットワークは一般的に顧客の影響と顧客離脱および製品の普及との関係を分析します。 通話記録に基づいて、顧客影響指標システムを構築できます。使用される指標には、1 次接続、2 次接続、3 次接続、平均通話頻度、平均通話量などがあります。分析の結果、社会的影響力に基づいて、影響力の大きい顧客の喪失が関連顧客の喪失につながることが分かりました。第二に、商品普及の面では、影響力の大きい顧客を普及の起点として選ぶことで、新パッケージの普及・浸透を促進しやすくなります。 さらに、ソーシャル ネットワークには、銀行 (保証ネットワーク)、保険 (ギャング詐欺)、インターネット (ソーシャル インタラクション) など、さまざまな分野における応用や事例があります。
8. テキスト分析に基づくケーススタディ ここで2つの事例を紹介したいと思います。 1つは「スキャンキング」に似たアプリで、紙の文書を直接スキャンして電子文書に変換します。使ったことがある人も多いと思うので、ここで原理を簡単に紹介します。もう一つは、『紅楼夢』の最初の80章と最後の40章は曹雪芹によって書かれたわけではないという噂が常にあることです。ここでは、統計的な観点からこれについて話します。 (1)文字認識:スキャンキングアプリ 携帯電話は写真を撮るときに自動的に顔を認識します。また、Scan King など、本をスキャンしてスキャンしたコンテンツを自動的に Word に変換できるアプリもあります。これらは画像認識と文字認識(光学文字認識)に属します。画像認識はより複雑ですが、文字認識は理解しやすいです。 いろいろ調べてみると、文字「S」を例にとると、文字認識の一般原理は次のようになることがわかりました。 ***、文字画像を 12*16 などの標準ピクセル サイズに縮小します。画像はピクセルで構成されており、文字画像には主に白黒のピクセルが含まれていることに注意してください。 次に、文字の特徴ベクトルを抽出します。 2 次元ヒストグラム投影を使用して文字の特徴を抽出する方法。文字(12×16ピクセルの画像)を水平方向と垂直方向に投影します。水平方向に 12 次元、垂直方向に 16 次元あります。このようにして、水平方向の各ピクセル行における黒ピクセルの累積数と、垂直方向の各ピクセル列における黒ピクセルの累積数がそれぞれ計算されます。これにより、水平方向に12次元の特徴ベクトル値が得られ、垂直方向に16次元の特徴ベクトル値が得られる。これにより、28 次元の文字特徴ベクトルが形成されます。 3 番目に、以前の文字特徴ベクトルに基づいて、ニューラル ネットワーク学習を使用して文字を認識し、効果的に分類します。 (2)文学作品と統計:紅楼夢の所有権 これは未解決のまま残っている非常に有名な議論です。 『紅楼夢』の作者については、最初の80章は曹雪芹、最後の40章は高郁が書いたと一般に信じられています。実際、主な問題は、最初の 80 ラウンドと最後の 40 ラウンドの間で単語と文の選択に大きな違いがあるかどうかを判断することです。 これには統計学者のグループが非常に興奮しました。学者の中には、名詞、動詞、形容詞、副詞、機能語の出現頻度や、品詞間の関係を数えて判断を下す人もいます。学者の中には、機能語(之、其、或、亦、了、的、不、把、别、好など)によって前後の文体の違いを判断する人もいます。学者の中には、場面(花、木、食べ物、薬、詩)の頻度の違いに基づいて統計的な判断を下す人もいます。要約すると、文章スタイルは主にいくつかの指標を通じて定量化し、指標間に有意差があるかどうかを比較することによって判断されます。 |
<<: Google、新しいオープンソース圧縮アルゴリズム Brotli を発表
>>: 「アルゴリズム経済」はどのような新しいモデルやトレンドを生み出すのでしょうか?
[[188225]] arXiv.org は、物理学、数学、コンピューターサイエンス、生物学の論文の...
デジタル労働力をサポートし維持するために職場で AI が普及することは、2020 年の明確なトレンド...
ディープラーニングディープフェイクの危険性: 2024 年には、特に仮想顧客サービス環境において、消...
アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を...
[[382357]] 1990年代、米国はコンピュータ産業の早期発展の機会をいち早く捉え、デジタル...
ソフトウェアテストにおける人工知能の使用はますます一般的になりつつあり、それには十分な理由があります...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...