機械学習の本質は数理統計学ですか？答えはそれほど単純ではないかもしれない

AI 初心者の多くは、次のような同様の疑問を抱いているかもしれません。機械学習と数理統計の本質的な違いは何でしょうか? どちらもデータを扱うことではないでしょうか?

従来のデータアナリストの観点から見ると、この質問に対する答えは簡単です。

機械学習は本質的にはデータ分析を通じて学習されるアルゴリズムであり、ルールベースのプログラミングに依存しません。

統計モデリングは、データに基づき、数式を使用して変数の変化の法則を調査する標準化されたプロセスです。

まとめると、機械学習のキーワードは予測、教師あり学習、教師なし学習です。数理統計学は、サンプリング、統計、仮説検定の科学です。

この答えは完璧に思えますが、実際には機械学習と数理統計の関係は決して単純ではありません。

類似点

数理統計学の修士であるラリー・ワッサーマン氏によれば、実際、「これら 2 つの分野 (機械学習と数理統計学) は同じこと、つまりデータから何を学ぶことができるかということに関心がある」とのことです。

彼の個人ブログの要約によると、数理統計学と機械学習における以下の一般的な用語は、実際には同じ意味を持っています。

さらに、別の学術専門家で、スタンフォード大学の有名な統計学者であり機械学習の専門家であるロバート・ティブシラニ氏は、常に機械学習を「美化された統計」と呼んでいます。

実際、今日では、機械学習と統計的手法は、パターン認識、知識発見、データマイニングなどの分野で一般的に使用されるテクノロジーになっています。 2014年にSASが発表した統計結果（下図）によれば、機械学習と数理統計の関係は互いに独立しているものの、実際には過去2年間で両者の境界はますます曖昧になり、相互統合の傾向さえ見られます。

機械学習と数理統計学は、データから学習するという同じ目標を持っているようです。本質的には、それらはすべて、人々が必要とする情報やパターンをデータから抽出する方法を探求しています。しかし、研究方法においては、この 2 つの分野の間には本質的な違いがあります。

違い

まず、機械学習は比較的新しい分野であり、特定のプログラムされた指示よりも、データを分析するためのシステムを構築する方法に重点を置いているコンピューターサイエンスと人工知能の分野です。

一方、統計モデリングは完全に数学の分野です。現在では、安価なコンピューティング能力と大量の利用可能なデータのサポートにより、データサイエンティストはデータ分析、つまり機械学習を通じてコンピューターの学習機能をトレーニングできるようになりました。しかし、統計モデリングは機械学習よりもはるかに長い歴史があり、実際にはコンピューターが発明されるずっと前から存在していました。

一方、機械学習は最適化とパフォーマンスに重点を置いているのに対し、統計は推論に重点を置いています。

この点に関しては、統計学者と機械学習研究者による同じデータモデルの説明である次の 2 つの段落から、より深い理解を得ることができるかもしれません。

機械学習研究者: a、b、c が与えられた場合、モデルは結果 Y を 85% の確率で正確に予測できます。

統計学者: a、b、c が与えられた場合、モデルは結果 Y を 85% の確率で正しく予測します。そして、あなたも同じ結論に達すると 90% 確信しています。

第三に、機械学習では、関係する変数間の根本的な関係について事前の仮定を必要としません。研究者は、利用可能なすべてのデータをモデルにインポートし、アルゴリズムが基礎となるパターンを分析して出力するのを待ってから、このパターンを新しいデータに適用して予測を行うだけです。研究者にとって、機械学習はブラックボックスのようなものです。使い方は知っていても、具体的な実装方法はわかりません。機械学習は高次元データセットに適用されることが多く、利用可能なデータが多いほど、予測の精度が高くなります。

対照的に、統計では、データの収集方法、推定値の統計的特性（p値や不偏推定値を含む）、研究対象の母集団の基本的な分布、複数の実験から予想されるパラメータの種類を理解する必要があります。研究者は、自分たちが何をしているのかを非常に明確にし、予測力のあるパラメータを考え出す必要があります。統計モデリングは、低次元のデータセットによく使用されます。

結論は

要約すると、機械学習と統計モデリングは、予測モデリングの分野における 2 つの異なる分野であると考えることができます。両者の間の溝はこの10年で縮まりつつあり、相互に学び、参考にできる余地は大いにある。今後、両者のつながりはさらに深まるでしょう。

開発者にとって、機械学習と統計モデリングの違いと関連性を完全に理解することは、知識を広げ、専門分野以外の分析手法を研究開発プロセスに導入するのに役立ちます。これはデータサイエンス自体の中核となる概念でもあり、機械学習と統計モデリングの違いを埋め、両者を徐々に標準化していくことです。 ***ここで確認しておく必要があるのは、これら 2 つのデータ駆動型分野間のコラボレーションとコミュニケーションが活発になればなるほど、私たちの生活はより豊かになるということです。

<<: 機械学習を簡単にする 5 つのオープンソース Python ライブラリ

>>: クレジットカード詐欺を検出するための機械学習モデルを構築するにはどうすればよいでしょうか?