機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

AI 初心者の多くは、次のような同様の疑問を抱いているかもしれません。機械学習と数理統計の本質的な違いは何でしょうか? どちらもデータを扱うことではないでしょうか?

従来のデータ アナリストの観点から見ると、この質問に対する答えは簡単です。

機械学習は本質的にはデータ分析を通じて学習されるアルゴリズムであり、ルールベースのプログラミングに依存しません。

統計モデリングは、データに基づき、数式を使用して変数の変化の法則を調査する標準化されたプロセスです。

まとめると、機械学習のキーワードは予測、教師あり学習、教師なし学習です。数理統計学は、サンプリング、統計、仮説検定の科学です。

この答えは完璧に思えますが、実際には機械学習と数理統計の関係は決して単純ではありません。

類似点

数理統計学の修士であるラリー・ワッサーマン氏によれば、実際、「これら 2 つの分野 (機械学習と数理統計学) は同じこと、つまりデータから何を学ぶことができるかということに関心がある」とのことです。

彼の個人ブログの要約によると、数理統計学と機械学習における以下の一般的な用語は、実際には同じ意味を持っています。

さらに、別の学術専門家で、スタンフォード大学の有名な統計学者であり機械学習の専門家であるロバート・ティブシラニ氏は、常に機械学習を「美化された統計」と呼んでいます。

実際、今日では、機械学習と統計的手法は、パターン認識、知識発見、データマイニングなどの分野で一般的に使用されるテクノロジーになっています。 2014年にSASが発表した統計結果(下図)によれば、機械学習と数理統計の関係は互いに独立しているものの、実際には過去2年間で両者の境界はますます曖昧になり、相互統合の傾向さえ見られます。

機械学習と数理統計学は、データから学習するという同じ目標を持っているようです。本質的には、それらはすべて、人々が必要とする情報やパターンをデータから抽出する方法を探求しています。しかし、研究方法においては、この 2 つの分野の間には本質的な違いがあります。

違い

まず、機械学習は比較的新しい分野であり、特定のプログラムされた指示よりも、データを分析するためのシステムを構築する方法に重点を置いているコンピューターサイエンスと人工知能の分野です。

一方、統計モデリングは完全に数学の分野です。現在では、安価なコンピューティング能力と大量の利用可能なデータのサポートにより、データ サイエンティストはデータ分析、つまり機械学習を通じてコン​​ピューターの学習機能をトレーニングできるようになりました。しかし、統計モデリングは機械学習よりもはるかに長い歴史があり、実際にはコンピューターが発明されるずっと前から存在していました。

一方、機械学習は最適化とパフォーマンスに重点を置いているのに対し、統計は推論に重点を置いています。

この点に関しては、統計学者と機械学習研究者による同じデータモデルの説明である次の 2 つの段落から、より深い理解を得ることができるかもしれません。

機械学習研究者: a、b、c が与えられた場合、モデルは結果 Y を 85% の確率で正確に予測できます。

統計学者: a、b、c が与えられた場合、モデルは結果 Y を 85% の確率で正しく予測します。そして、あなたも同じ結論に達すると 90% 確信しています。

第三に、機械学習では、関係する変数間の根本的な関係について事前の仮定を必要としません。研究者は、利用可能なすべてのデータをモデルにインポートし、アルゴリズムが基礎となるパターンを分析して出力するのを待ってから、このパターンを新しいデータに適用して予測を行うだけです。研究者にとって、機械学習はブラックボックスのようなものです。使い方は知っていても、具体的な実装方法はわかりません。機械学習は高次元データセットに適用されることが多く、利用可能なデータが多いほど、予測の精度が高くなります。

対照的に、統計では、データの収集方法、推定値の統計的特性(p値や不偏推定値を含む)、研究対象の母集団の基本的な分布、複数の実験から予想されるパラメータの種類を理解する必要があります。研究者は、自分たちが何をしているのかを非常に明確にし、予測力のあるパラメータを考え出す必要があります。統計モデリングは、低次元のデータセットによく使用されます。

結論は

要約すると、機械学習と統計モデリングは、予測モデリングの分野における 2 つの異なる分野であると考えることができます。両者の間の溝はこの10年で縮まりつつあり、相互に学び、参考にできる余地は大いにある。今後、両者のつながりはさらに深まるでしょう。

開発者にとって、機械学習と統計モデリングの違いと関連性を完全に理解することは、知識を広げ、専門分野以外の分析手法を研究開発プロセスに導入するのに役立ちます。これはデータサイエンス自体の中核となる概念でもあり、機械学習と統計モデリングの違いを埋め、両者を徐々に標準化していくことです。 ***ここで確認しておく必要があるのは、これら 2 つのデータ駆動型分野間のコラボレーションとコミュニケーションが活発になればなるほど、私たちの生活はより豊かになるということです。

<<:  機械学習を簡単にする 5 つのオープンソース Python ライブラリ

>>:  クレジットカード詐欺を検出するための機械学習モデルを構築するにはどうすればよいでしょうか?

推薦する

ジャック・マー氏:中国のAIは必ず米国のAIを上回る。ゲイツ氏は米国がボスだと反論した。

周知のとおり、AI はテクノロジー業界の次のトレンドとなっており、このトレンドは世界規模です。そこで...

Microsoft Azure OpenAI への申請手順ガイド

以前は、Microsoft の Azure OpenAI は企業のみが利用でき、一般ユーザーはうまく...

ChatGPT「おばあちゃんの抜け穴」がまた人気です!亡くなった祖母のふりをして、寝る前に物語を語り、Win11 のシリアル番号をだます

最近、有名なChatGPT「おばあちゃんの脆弱性」が再び人気になっています!この伝説の「Granny...

AIが書いたコンテンツは判別が難しく、言語の専門家でさえ無力である

9月10日のニュース、2023年は人工知能の年です。チャットボットChatGPTから、グラミー賞に参...

...

Google が新しい AI ゲームをリリース: 落書きしてワンクリックでモンスターに変身

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI イニシアチブを成功させるために必要な 10 のこと

市場で競争上の優位性を獲得する過程で、多くの企業が新興技術の導入に熱心です。しかし、導入を急ぐあまり...

AIが企業の採用ルールをどう変えるのか

[[219941]] AI と機械学習が、人材管理の問題解決に役立っているというのは、皮肉なことです...

エヌビディアによる660億ドルのアーム買収は失敗、ソフトバンクはIPOを通じてアームの事業を独立上場へ

ソフトバンクによる英国の半導体事業アームのエヌビディアへの660億ドルでの売却計画は、米国、英国、欧...

AIoTとは何ですか?なぜそれが突然、インテリジェント製造の主流トレンドになったのでしょうか?

人工知能(AI)とモノのインターネット(IoT)の組み合わせにより、自律走行車やスマートウェアラブル...

歴史を作ろう!地球からのドローンが火星へ飛び立ち、NASAはこのようにライト兄弟に敬意を表す

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

2000億回のオープン学習を経て、DeepMindのAIはさらに洗練されてきた

[[415688]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

知識をグラフに変換するには、いくつのステップが必要ですか?インターネット上で最も包括的な清華ナレッジグラフレポートの89ページ

ナレッジグラフは、人工知能の重要な分野技術です。2012年にGoogleによって提案され、大規模な知...

...

数量を増やして価格を下げます! OpenAIが史上最強のChatGPTをリリース。誰でもGPTをカスタマイズ可能。GPTストアは今月開始予定

まもなく、すべての GPT コレクションが GPT ストアを通じてアクセスできるようになります。はい...