機械学習を学ぶ前に、まずは確率論の基礎知識を習得する必要があります。

機械学習には非常に重要な中核となる基本概念が数多くあります。これらの概念を習得することは、機械学習やデータサイエンスの分野での作業にとって非常に重要であり、これまで簡単に見落とされていた新しい手がかりを発見するのに役立ちます。最も重要なものの1つは確率です。

確率を見ると、すでに多くの便利な数学的ツールがあるのに、なぜまだ確率が必要なのかと尋ねる友人もいるかもしれません。複数のスケールを解決し、その変化を測定できる微積分学があります。方程式を通じて変化を起こせる線型代数があります。そして、非常に多くの数学的ツールが、考えられるほとんどすべての難しい問題を解決できます。確率はもうそれほど重要ではないようですね？

しかし、実際には私たちは混沌と不確実性に満ちた世界に住んでおり、多くのことは正確に測定することができません。研究を行う際には、ランダムなエラーや不確実性の干渉に直面します。不確実性はほとんどどこにでも存在し、その動作を理解し、それを習得し、活用する必要があります。そのためには確率論と統計学が必要です。

今日、確率は人工知能、素粒子物理学、社会科学、バイオインフォマティクス、さらには私たちの日常生活のあらゆる側面に浸透しています。
確率と統計の概念は非常に重要です。以下では、確率に関するさまざまな確率を説明し、誰もが確率をより明確に理解できるようにしたいと思います。

頻度主義的確率

コインが公平かどうかを測定したいとします。どのような実験を行う必要がありますか? コインを投げ続け、そのたびに方向を記録する必要があります。これを 1,000 回繰り返した後、実験の結果を見てみましょう。結果が 600 回表が上、400 回表が下の場合、確率は 60% と 40% になります。この確率は、コインが表を上にするか裏を上にするかの確率として使用でき、これは確率の頻度の見方です。

条件付き確率

周波数派の見解は、多数の実験記録を通じて要約される必要がある。しかし、条件付き確率は別の観点であり、イベント B が発生した場合にイベント A が発生する確率です。 2つの例を見てみましょう。

雷が鳴ったときに雨が降る確率はどれくらいでしょうか?
晴れた日に雨が降る確率はどれくらいですか？

上のオイラー図では、P(雨 | 雷) = 1 であることがわかります。これは、雷があるときに雨が降ることを意味します (100% と仮定)。では、P(雨 | 晴れ) はどうでしょうか。この確率は非常に小さいですが、数式でどのように表現できるでしょうか。これは、条件付き確率の表現につながります。

雨が降り晴れとなる確率を晴れとなる確率で割って、太陽が与えられた場合に雨が降る条件付き確率を計算しました。

独立イベントと従属イベント

あるイベントが発生する確率が他のイベントによってまったく影響を受けない場合、そのイベントは独立したイベントと呼ばれます。たとえば、サイコロを投げるときに、最初の投げで 2 が出、2 回目の投げで 2 が出た場合、同時に 2 が出る可能性は次のように表されます。

しかし、なぜ上記の式が正しいのでしょうか? まず、1 回目と 2 回目のサイコロ投げイベントをそれぞれ A と B と書き、同時に 2 が出る確率をイベント A と B の結合確率分布として書きます。

ここで、方程式の両辺を P(B) で割り、条件付き確率の定義を使用すると、次の方程式が得られます。

P(A | B) = P(A)であることがわかります。これは、A と B が比較的独立しており、B の発生が A に影響を与えないことを意味します。

ベイズ確率

頻度主義者は一般に統計的手法を使用してモデルのパラメータを見つけますが、ベイズ理論ではモデルのパラメータも特定の分布を満たすと考えています。ベイズ統計では、各パラメータには独自の統計分布があり、特定のデータの下でのパラメータの確率分布が与えられます。

この式の基礎は、前述の条件付き確率です。

表現は非常にシンプルですが、ベイズ理論は非常に強力であり、さまざまな分野で広く使用されています。ベイズ統計と呼ばれる統計学の分野も生まれました。ベイエ確率に興味があるなら、次のブログは良い学習リソースになります: https://www.countbayesie.com/blog/2015/2/18/bayes-theorem-with-lego

分散した

ベイズ確率は素晴らしいが、分布とは一体何なのかと尋ねる友人もいるかもしれません。分布は実際には、量の値のさまざまな範囲とその確率を記述する関数（実験的または数学的に導出されたもの）です。関数には、この分布の動作（範囲と値の確率）を調整できるパラメーターがいくつかあります。

コインの表と裏を測定すると、経験的確率分布と呼ばれる分布が得られます。現実の世界では、多くの類似した事柄が確率分布によって記述できます。たとえば、コイン投げの実験はベルヌーイ分布を満たしており、この分布を使用して、n 回の実験後にどちらの面が表を向いているかの確率を計算できます。

確率論では、確率変数と呼ばれる概念を明確にする必要もあります。各ランダム変数には独自の分布があります。通常、ランダム変数は大文字で表記し、~ を使用してそれが属する分布を示します。

上記の式は、ランダム変数 X が 0.6 のベルヌーイ分布を満たすことを意味します。

連続分布と離散分布

確率分布は一般的に、離散分布と連続分布の 2 つのケースに分けられます。離散分布とは、コイン投げのベルヌーイ分布のように、ランダム変数が限られた数の場所でのみ値を取ることができることを意味します。離散分布は一般に確率質量関数 (PMF) を使用して定義されますが、連続分布は一般に、ランダム変数が無限にある状況に対処するために使用されます。たとえば、ノイズのある速度を測定することは連続分布の例です。連続分布は通常、確率密度関数 (PDF) を使用して定義されます。

対応する離散確率は連続する∑記号を使用して記述され、連続確率は∫記号を使用して記述されます。

サンプルと統計

人間の身長の測定に関する研究を実施したいと考え、路上で何人かの見知らぬ人の身長をランダムに測定すると、これらの測定値は独立しているとみなすことができます。母集団からサンプルをランダムに選択するプロセスをサンプリングと呼びます。統計の役割は、これらのデータを要約し、サンプルの平均を計算するなど、情報を抽出することです。

サンプルの標準偏差は次のように計算されます。

この式は、データポイントの平均からの偏差を表すために使用されます。

より高度な学習

こんなにたくさん学んで気分は良いですか? もっと深く勉強したいはずです! この知識は、将来の研究作業に間違いなく役立ち、より深い理解をもたらします。

入門レベル: Khan Academy は非常に優れており、関連する基礎知識の多くをシンプルでわかりやすい方法で説明しています。 https://www.khanacademy.org/math/statistics-probability
「上級：統計のすべて」は、統計の重要なポイントを網羅した簡潔なコースですが、コースを修了するには線形代数と微積分の基礎知識が必要であることに注意してください。 https://www.amazon.com/All-Statistics-Statistical-Inference-Springer/dp/0387402721

確率の美しさをさらに発見し、関連するアイデアを研究や仕事に巧みに応用して、より良い成果を達成できるようになることを願っています。

<<: ディープラーニングツール：スマート端末におけるTensorFlowの応用

>>: ディープラーニングを使って心臓病を診断する方法