データマイニングの基本概念と最も一般的に使用されるアルゴリズムについての簡単な説明

データマイニングの基本概念と最も一般的に使用されるアルゴリズムについての簡単な説明

現在、国民経済と生活のあらゆる分野でビッグデータの理論と応用が盛んに行われています。ビッグデータの基本的な概念や特徴については、すでに多くの人が理解しています。しかし、ビッグデータを取得、保存、検索、共有するだけでは十分ではありません。ビッグデータの中にある未知の価値ある情報や知識を、どのように見つけることができるのでしょうか。

知識発見 (KDD) は、ビッグ データから有効で、斬新で、潜在的に有用で、最終的には理解可能なパターンを識別するプロセスです。


知識発見のフローチャート

データマイニングは、ビッグデータにおける知識発見(KDD)に欠かせない部分であり、ビッグデータの理論と応用において非常に重要な部分です。データ マイニングとは、大量の不完全でノイズが多く、あいまいでランダムなデータから、暗黙的で未知だが潜在的に有用な情報や知識を抽出するプロセスです。ほとんどの人は、ケーススタディを通じてデータマイニングについて学びました。これは、ウォルマートがデータ分析を通じて、男性顧客がベビー用おむつを購入する際に自分へのご褒美としてビールを数本買うことが多いことを発見したため、ビールとおむつを組み合わせたプロモーションを開始しようとしたためです。予想外に、この動きにより、実際におむつとビールの両方の売上が大幅に増加しました。この話はおそらく嘘ですが、多くの人にデータマイニングに興味を持ってもらうきっかけとなりました。


データマイニングの基本フレームワーク

データマイニングで最も一般的に使用されるアルゴリズムは次のとおりです。

(1)予測モデリング:既存のデータとモデルを使用して未知の変数を予測する。

  • 分類は離散的なターゲット変数を予測するために使用される
  • 連続的な目標変数を予測するための回帰

(2)クラスター分析:同じクラスターに属する観測値が、異なるクラスターに属する観測値と比較して可能な限り互いに類似するように、密接に関連する観測値のグループを見つける。

(3)関連分析(関係モデルとも呼ばれる):あるものと他のものの間の相互依存性と相関関係を反映します。データ内の強く相関した特徴を表すパターンを発見するために使用されます。

(4)異常検出:他のデータとは特性が著しく異なる観測値を識別する。

データ マイニングは、分類、回帰、クラスタリング、関連分析に分けられることがあります。


データマイニングの代表的な4つのアルゴリズム

データマイニングと機械学習は異なりますが、関連もあり、今後の記事で紹介する予定です。

<<:  ついに、データ、情報、アルゴリズム、統計、確率、データマイニングをわかりやすく説明した人がいました。

>>:  信頼できる AI ソリューション プロバイダー 5 社

ブログ    

推薦する

...

...

産業AI戦略を成功させる3つの鍵

今日、工業製造業は産業用人工知能への依存度が高まっており、業務上の意思決定者はこれをデジタル変革戦略...

LiDARと視覚認識、どちらがトップに立つでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

オープンソースツール | データサイエンスのための Python 入門

[[248716]]データ サイエンスの力を活用するために高価なツールは必要ありません。これらのオー...

再現可能なロボット合成のために化学者とロボットが理解できる汎用化学プログラミング言語

化学合成に関する文献の量は急速に増加していますが、新しいプロセスを研究室間で共有し評価するには長い時...

「AI+」が世界を変える!さまざまな分野における 5 つの主要な AI トレンド

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

AIモデリングはもはや困難ではない:Jiuzhang Yunji DataCanvasが2つのオープンソース成果をリリース

[51CTO.comより] 「ソフトウェアインフラは大幅なアップグレードを受け、AIの実装はソフトウ...

...

...

人工知能とビッグデータを開発する際に留意すべき12のこと

人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...

AIとコンテキスト脅威インテリジェンスが防衛戦略を変革

企業がサイバーセキュリティに対するプロアクティブなアプローチである脅威露出管理を導入するケースが増え...

90%が赤字、中国の人工知能企業は破産の波に直面する可能性

2017年に人工知能が国家戦略目標となって以来、関連産業は急速な発展の機会を迎え、世界で最も収益性の...

...

ドイツのハッカーはレンタルしたコンピュータリソースを使ってハッシュアルゴリズムを攻撃する

ドイツのセキュリティ愛好家が、レンタルしたコンピュータ リソースを使用して、SHA1 ハッシュ アル...