機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

AI 初心者の多くは、次のような同様の疑問を抱いているかもしれません。機械学習と数理統計の本質的な違いは何でしょうか? どちらもデータを扱うことではないでしょうか?

従来のデータ アナリストの観点から見ると、この質問に対する答えは簡単です。

機械学習は本質的にはデータ分析を通じて学習されるアルゴリズムであり、ルールベースのプログラミングに依存しません。

統計モデリングは、データに基づき、数式を使用して変数の変化の法則を調査する標準化されたプロセスです。

まとめると、機械学習のキーワードは予測、教師あり学習、教師なし学習です。数理統計学は、サンプリング、統計、仮説検定の科学です。

この答えは完璧に思えますが、実際には機械学習と数理統計の関係は決して単純ではありません。

類似点

数理統計学の修士であるラリー・ワッサーマン氏によれば、実際、「これら 2 つの分野 (機械学習と数理統計学) は同じこと、つまりデータから何を学ぶことができるかということに関心がある」とのことです。

彼の個人ブログの要約によると、数理統計学と機械学習における以下の一般的な用語は、実際には同じ意味を持っています。

さらに、別の学術専門家で、スタンフォード大学の有名な統計学者であり機械学習の専門家であるロバート・ティブシラニ氏は、常に機械学習を「美化された統計」と呼んでいます。

実際、今日では、機械学習と統計的手法は、パターン認識、知識発見、データマイニングなどの分野で一般的に使用されるテクノロジーになっています。 2014年にSASが発表した統計結果(下図)によれば、機械学習と数理統計の関係は互いに独立しているものの、実際には過去2年間で両者の境界はますます曖昧になり、相互統合の傾向さえ見られます。

機械学習と数理統計学は、データから学習するという同じ目標を持っているようです。本質的には、それらはすべて、人々が必要とする情報やパターンをデータから抽出する方法を探求しています。しかし、研究方法においては、この 2 つの分野の間には本質的な違いがあります。

違い

まず、機械学習は比較的新しい分野であり、特定のプログラムされた指示よりも、データを分析するためのシステムを構築する方法に重点を置いているコンピューターサイエンスと人工知能の分野です。

一方、統計モデリングは完全に数学の分野です。現在では、安価なコンピューティング能力と大量の利用可能なデータのサポートにより、データ サイエンティストはデータ分析、つまり機械学習を通じてコン​​ピューターの学習機能をトレーニングできるようになりました。しかし、統計モデリングは機械学習よりもはるかに長い歴史があり、実際にはコンピューターが発明されるずっと前から存在していました。

一方、機械学習は最適化とパフォーマンスに重点を置いているのに対し、統計は推論に重点を置いています。

この点に関しては、統計学者と機械学習研究者による同じデータモデルの説明である次の 2 つの段落から、より深い理解を得ることができるかもしれません。

機械学習研究者: a、b、c が与えられた場合、モデルは結果 Y を 85% の確率で正確に予測できます。

統計学者: a、b、c が与えられた場合、モデルは結果 Y を 85% の確率で正しく予測します。そして、あなたも同じ結論に達すると 90% 確信しています。

第三に、機械学習では、関係する変数間の根本的な関係について事前の仮定を必要としません。研究者は、利用可能なすべてのデータをモデルにインポートし、アルゴリズムが基礎となるパターンを分析して出力するのを待ってから、このパターンを新しいデータに適用して予測を行うだけです。研究者にとって、機械学習はブラックボックスのようなものです。使い方は知っていても、具体的な実装方法はわかりません。機械学習は高次元データセットに適用されることが多く、利用可能なデータが多いほど、予測の精度が高くなります。

対照的に、統計では、データの収集方法、推定値の統計的特性(p値や不偏推定値を含む)、研究対象の母集団の基本的な分布、複数の実験から予想されるパラメータの種類を理解する必要があります。研究者は、自分たちが何をしているのかを非常に明確にし、予測力のあるパラメータを考え出す必要があります。統計モデリングは、低次元のデータセットによく使用されます。

結論は

要約すると、機械学習と統計モデリングは、予測モデリングの分野における 2 つの異なる分野であると考えることができます。両者の間の溝はこの10年で縮まりつつあり、相互に学び、参考にできる余地は大いにある。今後、両者のつながりはさらに深まるでしょう。

開発者にとって、機械学習と統計モデリングの違いと関連性を完全に理解することは、知識を広げ、専門分野以外の分析手法を研究開発プロセスに導入するのに役立ちます。これはデータサイエンス自体の中核となる概念でもあり、機械学習と統計モデリングの違いを埋め、両者を徐々に標準化していくことです。 ***ここで確認しておく必要があるのは、これら 2 つのデータ駆動型分野間のコラボレーションとコミュニケーションが活発になればなるほど、私たちの生活はより豊かになるということです。

<<:  機械学習を簡単にする 5 つのオープンソース Python ライブラリ

>>:  クレジットカード詐欺を検出するための機械学習モデルを構築するにはどうすればよいでしょうか?

ブログ    

推薦する

...

優れたオープンソースの音声認識/音声テキスト変換システム 5 つ

音声テキスト変換 (STT) システムは、その名前が示すとおり、話された言葉を後で使用するためにテキ...

...

単一の GPU で GPT-3 をトレーニングする方法にまだ苦労していますか? HP チューニングの新しいパラダイムをぜひご覧ください。

偉大な科学的成果は試行錯誤だけでは達成できません。たとえば、宇宙計画におけるすべての打ち上げは、空気...

トレンドマイクロ:2030年までにサイバーセキュリティ分野で人工知能が人間に取って代わる

テキサス州ダラスに本拠を置くクラウドセキュリティ企業トレンドマイクロの新しい調査によると、IT業界の...

AIビジョンを取り入れることで、ガソリンスタンドは非常に「スマート」になることができます

[[354264]]石油貯蔵所、ガソリンスタンド、石油荷降ろしトラックには大量の完成燃料が保管され...

人工知能時代のセキュリティ専門職とは?

人工知能の時代におけるセキュリティ専門職は何かという問題は、徐々に人々が直面しなければならない問題に...

AGVロボットマルチエージェント経路探索の4つの主要な研究方向

マルチエージェント経路探索 (MAPF) は、人工知能、ロボット工学、理論計算機科学、実践的オペレー...

中国の人工知能は現在、世界の中でどの程度のレベルにあるのでしょうか?

総じて、人工知能は世界の新世代の技術革命と産業転換の原動力となっており、その発展は我が国の産業構造の...

スマートオフィス管理におけるAIの役割

スマート オフィスの概念は新しいものではありませんが、企業のオーナーや管理者が自動化の生産性の価値を...

Xuelang Cloudは、世界人工知能会議アルゴリズムコンテストのBPAA産業トラックで世界トップ10に輝きました!

2021年7月6日、世界人工知能大会組織委員会事務局主催の第1回BPAA応用アルゴリズム実践モデル...

...

実際に大規模な戦争を指揮しているのはビッグデータと人工知能なのでしょうか?

ビッグデータと人工知能はどれほどの力を持っているのでしょうか。ほとんどの人はまだそれを直感的に理解し...

ランセットの最新記事:主要都市での流行は武漢より1~2週間遅れる

一方で感染症の予防と抑制、他方で春節の旅行ラッシュの帰省があり、今年の仕事再開への道のりは異例のもの...

...