データマイニングの基本概念と最も一般的に使用されるアルゴリズムについての簡単な説明

データマイニングの基本概念と最も一般的に使用されるアルゴリズムについての簡単な説明

現在、国民経済と生活のあらゆる分野でビッグデータの理論と応用が盛んに行われています。ビッグデータの基本的な概念や特徴については、すでに多くの人が理解しています。しかし、ビッグデータを取得、保存、検索、共有するだけでは十分ではありません。ビッグデータの中にある未知の価値ある情報や知識を、どのように見つけることができるのでしょうか。

知識発見 (KDD) は、ビッグ データから有効で、斬新で、潜在的に有用で、最終的には理解可能なパターンを識別するプロセスです。


知識発見のフローチャート

データマイニングは、ビッグデータにおける知識発見(KDD)に欠かせない部分であり、ビッグデータの理論と応用において非常に重要な部分です。データ マイニングとは、大量の不完全でノイズが多く、あいまいでランダムなデータから、暗黙的で未知だが潜在的に有用な情報や知識を抽出するプロセスです。ほとんどの人は、ケーススタディを通じてデータマイニングについて学びました。これは、ウォルマートがデータ分析を通じて、男性顧客がベビー用おむつを購入する際に自分へのご褒美としてビールを数本買うことが多いことを発見したため、ビールとおむつを組み合わせたプロモーションを開始しようとしたためです。予想外に、この動きにより、実際におむつとビールの両方の売上が大幅に増加しました。この話はおそらく嘘ですが、多くの人にデータマイニングに興味を持ってもらうきっかけとなりました。


データマイニングの基本フレームワーク

データマイニングで最も一般的に使用されるアルゴリズムは次のとおりです。

(1)予測モデリング:既存のデータとモデルを使用して未知の変数を予測する。

  • 分類は離散的なターゲット変数を予測するために使用される
  • 連続的な目標変数を予測するための回帰

(2)クラスター分析:同じクラスターに属する観測値が、異なるクラスターに属する観測値と比較して可能な限り互いに類似するように、密接に関連する観測値のグループを見つける。

(3)関連分析(関係モデルとも呼ばれる):あるものと他のものの間の相互依存性と相関関係を反映します。データ内の強く相関した特徴を表すパターンを発見するために使用されます。

(4)異常検出:他のデータとは特性が著しく異なる観測値を識別する。

データ マイニングは、分類、回帰、クラスタリング、関連分析に分けられることがあります。


データマイニングの代表的な4つのアルゴリズム

データマイニングと機械学習は異なりますが、関連もあり、今後の記事で紹介する予定です。

<<:  ついに、データ、情報、アルゴリズム、統計、確率、データマイニングをわかりやすく説明した人がいました。

>>:  信頼できる AI ソリューション プロバイダー 5 社

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

ChatGPTという独立系ゲームがSteamから削除されました。開発者は「貯金と3年半の人生が消えてしまいました」と語っています。

3年半このゲームに一生懸命取り組んだのに、ChatGPT を使用したという理由だけで Steam ...

今年の AI における最大の進歩は進歩なし? 2019年はAutoMLとGANがリードする

11 日間、11 人、11 人の見込み客。 2018 年が終わるまで残り 11 日となりました。有名...

ルーティングプロトコルアルゴリズム

ルーティング プロトコルの適用は、多くの大規模ネットワークで重要な役割を果たします。誰もがこの知識を...

PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モ...

ニューラルネットワークの内部はどのようになっているのでしょうか?

ニューラル ネットワークは錬金術の炉のようなものです。大量のデータを入力すると、魔法のような結果が生...

人工知能は大学のキャンパスにどのような変化をもたらしたのでしょうか?

[[279290]] [51CTO.com クイック翻訳] 大学はどのようにして、個人の教育キャリ...

天津市、スマートテクノロジー産業の発展促進に向け多方面から対策

2017年に第1回世界情報会議が開催されて以来、天津では257件のプロジェクトが実施され、1000億...

...

携帯電話開発者の年収は153万元、機械学習は最高ではない:IEEEの最新給与レポート

私たちは皆工学を勉強していますが、どの分野を選択すべきでしょうか?給与水準は、人々が将来のキャリアを...

ビジネスインテリジェンスを通じて脆弱性と危険な行動を特定する方法

[[389855]]ビジネスに関連するすべてのリスクを排除できると主張しても、多くの人はそれを信じま...

...

中国の建設ロボット軍団がやってくる!

[[408565]]香港のサウスチャイナ・モーニング・ポストに6月29日に掲載された記事「中国の道...

百度の女性デーのポスターはスマートライフの姿を描いている:人工知能は女性をより自由にする

社会の進歩と国民の意識の高まりに伴い、社会全体が女性の権利にますます注目するようになっています。 3...

Alibaba Antの機械学習アルゴリズム - 第一、第二、第三の面接体験、役立つ情報を素早く収集!

アリ側1. 自己紹介:私はXXXの修士課程の学生で、機械学習を専攻しています。私の研究分野はディープ...