機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

AI 初心者の多くは、次のような同様の疑問を抱いているかもしれません。機械学習と数理統計の本質的な違いは何でしょうか? どちらもデータを扱うことではないでしょうか?

従来のデータ アナリストの観点から見ると、この質問に対する答えは簡単です。

機械学習は本質的にはデータ分析を通じて学習されるアルゴリズムであり、ルールベースのプログラミングに依存しません。

統計モデリングは、データに基づき、数式を使用して変数の変化の法則を調査する標準化されたプロセスです。

まとめると、機械学習のキーワードは予測、教師あり学習、教師なし学習です。数理統計学は、サンプリング、統計、仮説検定の科学です。

この答えは完璧に思えますが、実際には機械学習と数理統計の関係は決して単純ではありません。

類似点

数理統計学の修士であるラリー・ワッサーマン氏によれば、実際、「これら 2 つの分野 (機械学習と数理統計学) は同じこと、つまりデータから何を学ぶことができるかということに関心がある」とのことです。

彼の個人ブログの要約によると、数理統計学と機械学習における以下の一般的な用語は、実際には同じ意味を持っています。

さらに、別の学術専門家で、スタンフォード大学の有名な統計学者であり機械学習の専門家であるロバート・ティブシラニ氏は、常に機械学習を「美化された統計」と呼んでいます。

実際、今日では、機械学習と統計的手法は、パターン認識、知識発見、データマイニングなどの分野で一般的に使用されるテクノロジーになっています。 2014年にSASが発表した統計結果(下図)によれば、機械学習と数理統計の関係は互いに独立しているものの、実際には過去2年間で両者の境界はますます曖昧になり、相互統合の傾向さえ見られます。

機械学習と数理統計学は、データから学習するという同じ目標を持っているようです。本質的には、それらはすべて、人々が必要とする情報やパターンをデータから抽出する方法を探求しています。しかし、研究方法においては、この 2 つの分野の間には本質的な違いがあります。

違い

まず、機械学習は比較的新しい分野であり、特定のプログラムされた指示よりも、データを分析するためのシステムを構築する方法に重点を置いているコンピューターサイエンスと人工知能の分野です。

一方、統計モデリングは完全に数学の分野です。現在では、安価なコンピューティング能力と大量の利用可能なデータのサポートにより、データ サイエンティストはデータ分析、つまり機械学習を通じてコン​​ピューターの学習機能をトレーニングできるようになりました。しかし、統計モデリングは機械学習よりもはるかに長い歴史があり、実際にはコンピューターが発明されるずっと前から存在していました。

一方、機械学習は最適化とパフォーマンスに重点を置いているのに対し、統計は推論に重点を置いています。

この点に関しては、統計学者と機械学習研究者による同じデータモデルの説明である次の 2 つの段落から、より深い理解を得ることができるかもしれません。

機械学習研究者: a、b、c が与えられた場合、モデルは結果 Y を 85% の確率で正確に予測できます。

統計学者: a、b、c が与えられた場合、モデルは結果 Y を 85% の確率で正しく予測します。そして、あなたも同じ結論に達すると 90% 確信しています。

第三に、機械学習では、関係する変数間の根本的な関係について事前の仮定を必要としません。研究者は、利用可能なすべてのデータをモデルにインポートし、アルゴリズムが基礎となるパターンを分析して出力するのを待ってから、このパターンを新しいデータに適用して予測を行うだけです。研究者にとって、機械学習はブラックボックスのようなものです。使い方は知っていても、具体的な実装方法はわかりません。機械学習は高次元データセットに適用されることが多く、利用可能なデータが多いほど、予測の精度が高くなります。

対照的に、統計では、データの収集方法、推定値の統計的特性(p値や不偏推定値を含む)、研究対象の母集団の基本的な分布、複数の実験から予想されるパラメータの種類を理解する必要があります。研究者は、自分たちが何をしているのかを非常に明確にし、予測力のあるパラメータを考え出す必要があります。統計モデリングは、低次元のデータセットによく使用されます。

結論は

要約すると、機械学習と統計モデリングは、予測モデリングの分野における 2 つの異なる分野であると考えることができます。両者の間の溝はこの10年で縮まりつつあり、相互に学び、参考にできる余地は大いにある。今後、両者のつながりはさらに深まるでしょう。

開発者にとって、機械学習と統計モデリングの違いと関連性を完全に理解することは、知識を広げ、専門分野以外の分析手法を研究開発プロセスに導入するのに役立ちます。これはデータサイエンス自体の中核となる概念でもあり、機械学習と統計モデリングの違いを埋め、両者を徐々に標準化していくことです。 ***ここで確認しておく必要があるのは、これら 2 つのデータ駆動型分野間のコラボレーションとコミュニケーションが活発になればなるほど、私たちの生活はより豊かになるということです。

<<:  機械学習を簡単にする 5 つのオープンソース Python ライブラリ

>>:  クレジットカード詐欺を検出するための機械学習モデルを構築するにはどうすればよいでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

ビル・ゲイツ:AIは教育と医療の向上に活用されるべき

[[260198]]米テクノロジーメディアCNETによると、マイクロソフトの共同創業者で慈善家のビル...

専門家の視点:量子コンピューティングの開発動向

量子コンピューティングとは、量子理論の原理に基づいたコンピューター技術の開発に焦点を当てた研究分野を...

LLM に代わる 2 億パラメータのタイミング モデル? Googleの画期的な研究は「初心者のミス」と批判される

最近、Google の論文が X などのソーシャル メディア プラットフォーム上で論争を巻き起こしま...

...

新しいことを学び、古いものを見直す: ナレッジグラフからグラフデータベースへ

人工知能技術といえば、まずディープラーニングや機械学習技術が思い浮かびます。人工知能の応用といえば、...

人工知能の可能性を解き放つ3つのステップ

ガートナーのデータによると、2020 年までに人工知能は CIO の 30% 以上にとって最優先事項...

...

ロボットが人間の「仲間」となり、人間と機械の関係が変化する。これは良いことなのか、悪いことなのか?

最近南京で開催された2020年世界知能製造会議において、中国工程院の研究者らは、人類の発展の観点から...

...

カスタマーサービスで AI ボットを使用する 5 つのメリット

Zendesk は、企業と顧客の距離を縮めるために設計された顧客サービス プラットフォームを開発しま...

AIオープンクラス | データのラベル付けについてはあまりご存じないのではないでしょうか?

人工知能の分野が日々急速な発展と進歩を遂げていることは疑いの余地がありません。携帯電話の電源を入れ、...

人工知能が医療画像をどのように変えるか AI は医療画像の世界における第二の目となる

人工知能は多くの分野に影響を及ぼしています。しかし、いくつかの大きな変化が起こっており、その 1 つ...

4Paradigm が分子特性予測のための生成型 3D 事前トレーニング済みモデルを開発

論文タイトル: 分子特性予測のための自動 3D 事前トレーニング論文リンク: https://arx...