統計と機械学習の違いは何ですか?

[[263249]]

ビッグデータダイジェスト制作

出典: medium

編纂者：周嘉楽、郭小白、蒋宝尚

統計と機械学習の境界線は常に曖昧でした。

業界も学界も、機械学習は単なる光沢のある統計学であると常に信じてきました。

機械学習に支えられた人工知能は「統計の拡張」とも呼ばれる

たとえば、ノーベル賞受賞者のトーマス・シンガーはかつて、人工知能は実際には統計学であるが、非常に派手な言葉を使っただけだ、と述べました。

サージェント氏は世界科学技術イノベーションフォーラムで、人工知能は実は統計学であると述べた。

もちろん、いろいろな声があります。しかし、この見解の両側の議論は、一見深遠そうに見えて実際には曖昧な議論が多く、非常に混乱を招きます。

ハーバード大学の博士課程の学生であるマシュー・スチュワート氏は、統計と機械学習の違い、統計モデルと機械学習の違いという 2 つの観点から、機械学習と統計は同義ではないことを実証しました。

機械学習と統計学の主な違いは目的である

[[263250]]

多くの人が考えているのとは反対に、機械学習は実は何十年も前から存在しています。当時の計算能力では大規模計算の需要に応えられなかったため、徐々に放棄されていきました。しかし、近年、情報爆発によってもたらされたデータと計算能力の利点により、機械学習は急速に回復しつつあります。

とにかく、機械学習と統計が同義語であるなら、なぜすべての大学の統計学部が閉鎖されて「機械学習」学部に変わってはいけないのでしょうか? なぜなら、それらは異なるからです!

このテーマに関して、私はよく漠然とした意見を耳にしますが、最も一般的な意見は次のようなものです。

「機械学習と統計の主な違いは、その目的です。機械学習モデルは、可能な限り最も正確な予測を行うように設計されています。統計モデルは、変数間の関係を推測するように設計されています。」

これは技術的には正しいのですが、そのような議論は特に明確で満足のいく答えを提供しません。機械学習と統計学の大きな違いの 1 つは、その目的です。

しかし、機械学習は正確な予測を目的としており、統計モデルは推論用に設計されていると言うことは、これらの概念に本当に精通していない限り、ほとんど意味がありません。

[[263251]]

まず、統計と統計モデリングは同じではないことを理解する必要があります。統計学はデータの数学的研究です。データがなければ統計は作成できません。統計モデルはデータのモデルであり、主にデータ内のさまざまなものの間の関係を推測したり、将来の値を予測できるモデルを作成したりするために使用されます。通常、この 2 つは連動して行われます。

したがって、実際には 2 つの観点からこれを議論する必要があります。まず、統計と機械学習の違いは何でしょうか。次に、統計モデルと機械学習の違いは何でしょうか。

もっと率直に言えば、予測を行うことができる統計モデルは数多く存在しますが、その予測結果は満足できるものには程遠いものです。

機械学習では、強力な予測力を得るために解釈可能性を犠牲にすることがよくあります。例えば、線形回帰からニューラルネットワークに移行すると、解釈可能性は悪くなりますが、予測能力は大幅に向上します。

マクロ的な観点から見ると、これは良い答えです。少なくともほとんどの人にとっては十分でしょう。ただし、場合によっては、この記述により、機械学習と統計モデリングの違いが誤解されやすくなります。線形回帰の例を見てみましょう。

線形回帰における統計モデルと機械学習の違い

おそらく、統計モデリングと機械学習で使用される手法の類似性のため、人々はこれらを同じものだと考えているのでしょう。これは理解できますが、実際はそうではありません。

最も明白な例であり、おそらくこの誤解の主な原因は、線形回帰です。線形回帰は、線形回帰子をトレーニングし、最小二乗法を使用して統計回帰モデルを適合させることができる統計手法です。

ご覧のとおり、この場合、前者が行うことはモデルの「トレーニング」と呼ばれます。データのサブセットのみを使用し、トレーニングされたモデルのパフォーマンスは、データの別のサブセットでテストした後にのみ知ることができます。この例では、機械学習の最終的な目標は、テストセットで最適なパフォーマンスを達成することです。

後者の場合、データはガウスノイズを含む線形回帰であると事前に想定し、すべてのデータの平均二乗誤差を最小化する線を見つけようとします。トレーニングセットやテストセットは必要ありません。多くの場合、特に研究 (以下のセンサーの例など) では、モデリングの目的は将来のデータについて予測することではなく、データと出力変数の関係を記述することです。このプロセスを予測ではなく統計的推論と呼びます。このモデルを使用して予測を行うことはできますが、そう考える人もいるかもしれません。しかし、モデルを評価する方法は、テストセットではなく、モデルパラメーターの重要性と堅牢性に基づいて行われます。

機械学習（ここでは特に教師あり学習）の目的は、繰り返し予測を行うことができるモデルを取得することです。通常、モデルが解釈可能かどうかは気にしません。機械学習は結果がすべてです。企業にとって、あなたの価値はパフォーマンスによってのみ評価されるようなものです。統計モデリングは、変数間の関係を見つけ、その関係の重要性を判断することに重点を置いており、予測に役立ちます。

両者の違いを説明するために、私自身の人生からの例を挙げてみましょう。私は環境科学者です。仕事の主な内容はセンサーデータの取り扱いです。センサーが何らかの刺激（ガス濃度など）に反応することを証明しようとする場合、信号応答が統計的に有意かどうかを判断するために統計モデルを使用します。私はこの関係を理解し、その再現性をテストして、センサーの応答を正確に説明し、このデータに基づいて推論できるようにします。また、応答は線形か？応答はセンサー内のランダムノイズではなくガス濃度によるものか？などもテストするかもしれません。

同時に、20 種類の異なるセンサーからデータを取得し、それらによって特徴付けられるセンサーの応答を予測することができます。センサーについてあまり知らない人にとっては少し奇妙に思えるかもしれませんが、現在、センサーは環境科学における重要な研究分野です。

20 個の異なる変数を持つモデルを使用してセンサーの出力を表すことは明らかに予測であり、そのモデルが解釈可能であるとは予想していませんでした。化学反応速度論から生じる非線形性と、物理的変数とガス濃度の関係により、このモデルは解釈が難しいニューラルネットワークのように非常に難解になる可能性があることに注意してください。このモデルが理解しやすいものであることを望みますが、正確な予測を行う限り、私はかなり満足しています。

科学論文で発表できるように、データ変数間の関係が何らかの方法で統計的に有意であることを証明しようとしている場合は、機械学習ではなく統計モデルを使用します。これは、予測を行うよりも、変数間の関係性を重視しているからです。予測を行うことは依然として重要かもしれませんが、ほとんどの機械学習アルゴリズムには解釈可能性がないため、データ内に関係性が存在することを証明することが困難になります。

2 つのアプローチは、同様の方法を使用して目標を達成しているにもかかわらず、目標が異なることは明らかです。機械学習アルゴリズムの評価では、テストセットを使用してその精度を確認します。ただし、統計モデルの場合、信頼区間、有意性検定、およびその他の検定による回帰パラメータの分析を使用して、モデルの正当性を評価することができます。これらの方法は同じ結果を生み出すので、人々がそれらを同じであると想定するのは簡単に理解できます。

線形回帰における統計と機械学習の違い

10 年間にわたって誤解が続いています。それは、両方の用語が同じ基本的な確率の概念を利用しているという事実に基づいて、2 つの用語を混同するのは不合理である、というものです。

しかし、どちらも確率における同じ基本概念を利用しているという事実だけに基づいて、2 つの用語を混同するのは不合理です。たとえば、機械学習をピカピカの新しいコートを着た統計学として考えると、次のようにも言えます。

物理学は単に数学をより洗練された言い方で表現したものです。
動物学は、切手収集をよりおしゃれな言い方で表現したものです。
建築とは、砂の城を建てることをもっとおしゃれな言い方で表現したものです。

これらの主張（特に最後のもの）はばかげており、同様の考えを表す 2 つの用語を完全に混同しています。

実際、物理学は数学に基づいており、現実の物理現象を理解することは数学の応用です。物理学には統計学の側面も含まれており、現代の統計学は、確率空間を生成するために測定理論と組み合わされたツェルメロ-フランケル集合論の枠組み内で構築されることが多いです。これらは似たような起源を持ち、似たような考え方を使って論理的な結論に達するため、多くの共通点があります。同様に、建築と砂の城の建築には多くの共通点があるかもしれませんが、私は建築家ではないので明確な説明はできませんが、明らかに異なることはわかります。

先に進む前に、機械学習と統計に関連する他の 2 つのよくある誤解について簡単に説明する必要があります。これが、人工知能と機械学習、データサイエンスと統計学の違いです。これらは議論の余地のない問題なので、すぐに明らかにすることができます。

データサイエンスとは、本質的には、データセットの規模に関係なく、データに適用される計算および統計手法です。また、科学者がデータをより深く理解し、そこから推論を行えるようにするために、データを調査および視覚化するなどの探索的データ分析も含まれます。データサイエンスには、データのパッケージ化や前処理なども含まれるため、データベース、Web サーバーなど間の接続やパイプラインのコーディングや設定が含まれるため、ある程度のコンピューターサイエンスが関わってきます。

統計を行うのに必ずしもコンピューターは必要ありませんが、データサイエンスはコンピューターなしでは実行できません。これは、データサイエンスが統計に依存しているにもかかわらず、両者は同じ概念ではないことを改めて示しています。

同様に、機械学習は人工知能ではありません。実際、機械学習は人工知能の分野です。これは、過去のデータに基づいて特定の種類のデータに関する一般的な予測を行うように機械を「教える」（トレーニングする）ため、かなり明白です。

機械学習は統計に基づいています

統計と機械学習の違いについて説明する前に、まずこの記事の前半ですでに説明した両者の類似点について説明しましょう。

機械学習は統計フレームワークに基づいています。これは、機械学習にはデータが関係し、データは統計フレームワークに基づいて記述する必要があるため当然のことです。しかし、多数の粒子の熱力学に拡張された統計メカニズムも、統計的枠組み内で構築されます。

圧力の概念は実際にはデータであり、温度も一種のデータです。これは非合理的に思えるかも知れませんが、事実です。これが分子の温度や圧力を記述できない理由であり、意味をなさないのです。温度は分子衝突によって生成される平均エネルギーの指標です。そして、家や屋外のように分子がたくさんある場所では、それを温度で説明できるのは理にかなっています。

熱力学と統計学は同じものだと思われますか? もちろん違います。熱力学では、統計学を使用して、移動現象で発生する熱と運動の相互作用を理解します。

実際、熱力学は統計学だけでなく、多くの分野に基づいています。同様に、機械学習は数学やコンピューターサイエンスなど、他の多くの分野のコンテンツに基づいて構築されています。例えば：

機械学習の理論は数学と統計学から生まれた
機械学習アルゴリズムは最適化理論、行列代数、微積分学に基づいている
機械学習の実装は、カーネルマッピング、特徴ハッシュなどのコンピューターサイエンスとエンジニアリングの概念から生まれます。

Python でプログラミングを始めて、突然 Sklearn ライブラリからこれらのアルゴリズムを見つけて使用すると、上記の概念の多くは比較的抽象的であるため、違いを見分けるのは困難です。この場合、この抽象的な定義は、機械学習が実際に何を伴うのかについて、ある程度の無知につながります。

統計学習理論 — 機械学習の統計的基礎

統計と機械学習の主な違いは、統計は完全に確率空間に基づいていることです。すべての統計は集合論から導き出すことができます。集合論では、データをカテゴリにグループ化する方法 (これらのカテゴリは「集合」と呼ばれます) と、その集合に対して合計が 1 になることを保証する何らかの測定を実行する方法について説明します。この方法を確率空間と呼びます。

統計では、これらのセットと測定値の定義以外の仮定は行われません。これが、私たちが確率空間の定義を非常に厳密に行っている理由です。確率空間は数学的には (Ω,F,P) と表され、次の 3 つの部分から構成されます。

サンプル空間 Ω は、すべての可能な結果の集合です。
それぞれ 0 またはその他の値を含むイベントのセット F。
各イベントが発生する可能性には確率 P が割り当てられます。これはイベントから確率への関数です。

機械学習は統計学習理論に基づいていますが、これは依然として確率空間の公理言語に基づいています。この理論は伝統的な統計理論に基づいており、1860 年代に開発されました。

機械学習には多くのカテゴリがありますが、この記事では、説明が最も簡単な教師あり学習理論にのみ焦点を当てます（ただし、数学的な概念が満載なので、混乱する可能性もあります）。

統計学習理論における教師あり学習では、S = {(xᵢ,yᵢ)} とラベル付けされたデータセットが提供されます。つまり、N 個のデータポイントを含むデータセットがあり、各データポイントは x で記述される「特徴」と呼ばれる他の値で記述され、これらの特徴は、必要な y 値を返す特定の関数によって特徴付けられます。

このデータセットが与えられた場合、x 値を y 値にマッピングする関数をどのように見つけるのでしょうか?マッピングプロセスを記述するすべての可能な関数の集合を仮説空間と呼びます。

この関数を見つけるには、この問題に最適なアプローチ方法を「学習」する何らかの方法をアルゴリズムに与える必要があります。これは、「損失関数」と呼ばれる概念によって提供されます。したがって、私たちが持っている仮説（つまり、提案された関数）ごとに、すべてのデータにおける期待リスク値を比較することによって、この関数のパフォーマンスを測定したいと考えています。

予想されるリスクは、本質的には損失関数の合計にデータの確率分布を乗じたものです。このマッピングの結合確率分布がわかっていれば、*** 関数を見つけるのは簡単です。ただし、この結合確率分布は通常は不明であるため、最善のアプローチは、最適な関数を推測し、損失関数が最適化されているかどうかを経験的に検証することです。これを経験的リスクと呼びます。

次に、さまざまな関数を比較して、期待リスクが最小の仮説、つまりすべての関数の中で最小の最小値をもたらす仮説を見つけることができます。

ただし、損失関数を最小限に抑えるために、アルゴリズムは過剰適合によって不正を行う傾向があります。このため、トレーニングセットを通じて関数を「学習」し、その後、トレーニングセット外のデータセット (テストセット) で関数を検証する必要があります。

機械学習の性質をどのように定義するかによって、過剰適合の問題が生じ、トレーニングセットとテストセットを区別する必要性が生じます。統計学では、経験的リスクを最小限に抑える必要はありません。過剰適合は統計学の固有の特徴ではありません。統計学では、最小化は関数からの経験的リスクを最小化する学習アルゴリズムであるという観点を必要としません。これは経験的リスク最小化と呼ばれます。

図

簡単な例として線形回帰を取り上げてみましょう。従来の概念では、データの誤差を最小限に抑え、データを説明できる関数を見つけようとします。この場合、通常は平均分散を使用します。正の値と負の値が互いに打ち消されないように平方数が使用されます。次に、閉じた形式の式を使用して回帰係数を見つけることができます。

損失関数を平均分散として計算し、統計学習理論に基づいて経験的リスクを最小化すると、従来の線形回帰分析と同じ結果が得られます。

この一致の理由は、2 つの状況が同一であり、同じデータに対して同じ方法で *** 確率を解くと、当然同じ結果が得られるからです。同じ目標を達成する方法はいくつかありますが、最適化された確率と線形回帰が同じものであることに異論を唱える人はいないでしょう。この単純な例では、明らかにこれらの方法を区別できていません。

ここで指摘すべき 2 番目の点は、従来の統計手法にはトレーニングセットとテストセットの概念はありませんが、モデルの検証に役立つさまざまな指標を使用することです。検証プロセスは異なりますが、どちらの方法でも統計的に堅牢な結果が得られます。

もう一つ指摘すべき点は、従来の統計的手法では閉じた形式の最適解が得られ、結果に収束するための他の可能な関数をテストしないということです。対照的に、機械学習の手法では、さまざまなモデルを試し、回帰アルゴリズムの結果を組み合わせて最終的な仮説に収束します。

異なる損失関数を使用すると、結果が収束しない可能性があります。たとえば、ヒンジ損失 (標準の勾配降下法では区別がつきにくいため、近似勾配降下法などの他の方法を使用する必要があります) を使用した場合、結果は同じにはなりません。

***モデルのバイアスを区別できます。機械学習アルゴリズムを使用して、線形モデル、多項式モデル、指数モデルなどをテストし、これらの仮説が以前の損失関数よりもデータセットに適合するかどうかをテストできます。従来の統計では、モデルを選択してその精度を評価しますが、100 種類の異なるモデルから最適なものを自動的に選択することはできません。明らかに、最初に選択されたさまざまなアルゴリズムにより、見つかったモデルには常に何らかの偏りが生じます。データセットに最適な方程式を見つけることは NP 困難な問題であるため、適切なアルゴリズムを選択することが非常に重要です。

では、どちらの方法が良いのでしょうか?

この質問は実に愚かです。統計がなければ機械学習はまったく存在しないでしょうが、現代の情報爆発により人間がアクセスできるデータの量が膨大になったため、機械学習は非常に有用です。

機械学習と統計モデルの比較は少し難しいので、目標に応じてどちらを選択するかを決める必要があります。住宅価格を高い精度で予測するアルゴリズムを作成したり、データからどのようなタイプの人が特定の病気にかかりやすいかを調べたりしたいだけであれば、機械学習の方が適しているかもしれません。変数間の関係を見つけたり、データから推論を導き出したりしたい場合は、統計モデルの方が適しています。

画像内のテキスト:

これはあなたの機械学習システムですか?

はい、この大きな山、つまり線形代数の片側からすべてのデータを投入し、反対側から答えを得るだけです。

答えが間違っていたらどうなりますか？

次に、見た目が適切になるまでかき混ぜます。

統計に関する十分な知識がなくても、機械学習を学んで使用することは可能です。機械学習ライブラリの抽象的な概念により、アマチュアでも簡単に使用できますが、モデルの過剰適合や一見妥当な推論を避けるために、統計の概念をある程度理解しておく必要があります。