ベイズの定理から確率分布へ:確率論の基本定義の復習

この記事では、最も基本的な確率理論からさまざまな確率分布に至るまで、確率に関する基本的な知識と概念を包括的に整理します。これらの概念は、機械学習を理解したり、視野を広げたりするのに役立つかもしれません。これらの概念はデータサイエンスの中核であり、さまざまなトピックで頻繁に登場します。これまで理解できなかった新しいことを発見できるように、基本に立ち返ることは常に役に立ちます。

1. はじめに

このシリーズの記事では、機械学習を理解したり、視野を広げたりするのに役立つ可能性のある統計学の入門概念をいくつか探っていきたいと思います。これらの概念はデータサイエンスの中核であり、さまざまなトピックで頻繁に登場します。基礎をもう一度確認すると、これまで理解できなかった新しいことを発見できるので、始めましょう。

最後の部分では確率論の基礎を紹介します。

1. 確率

すでにこのような強力な数学的ツールがあるのに、なぜ確率論を学ぶ必要があるのでしょうか? 微積分は、変化が最小限の関数を扱い、その変化を計算するために使用します。私たちは代数を使って方程式を解きますが、想像できるほとんどあらゆる種類の難しい問題を解決するのに役立つ数学の分野が他にもたくさんあります。

難しいのは、私たち全員が混沌とした世界に住んでおり、ほとんどの場合、物事を正確に測定することは不可能だということです。現実世界のプロセスを研究する場合、実験の結果に影響を与える多くのランダムなイベントを理解したいと考えます。不確実性はどこにでもあるので、私たちはそれを自分たちのニーズに合わせて制御しなければなりません。そうして初めて、確率論と統計が役に立ちます。

今日、これらの分野は人工知能、素粒子物理学、社会科学、バイオインフォマティクス、そして日常生活の中心となっています。

統計について話す場合、まず確率とは何かを定義する必要があります。実際のところ、この質問に対する絶対的な答えはありません。ここでは確率論に関するさまざまな視点について説明します。

2. 頻度

コインを持っていて、それを投げた後に表と裏が出る頻度が同じかどうかを検証したいとします。この問題をどうやって解決するのでしょうか? コインが表を上にした場合は 1 を記録し、裏を上にした場合は 0 を記録する実験をいくつか行ってみます。 1000 回繰り返して、0 と 1 の数を記録します。退屈な時間の実験の後、表が 600 回 (1)、裏が 400 回 (0) という結果が得られました。過去の表と裏の頻度を計算すると、それぞれ 60% と 40% になります。これらの頻度は、コインが表か裏になる確率として解釈できます。これを頻度化確率と呼びます。

3. 条件付き確率

多くの場合、他のイベントも発生することを前提として、特定のイベントが発生する確率を知りたい場合があります。イベント B が発生したときにイベント A が発生する条件付き確率を P(A | B) と書きます。雨を例に挙げてみましょう。

雷が鳴っているときに雨が降る確率はどれくらいですか?
晴れた日に雨が降る確率はどれくらいですか？

このオイラー図から、P(雨 | 雷) = 1 であることがわかります。つまり、雷が鳴ると必ず雨が降ります (もちろん、これは完全に正しいわけではありませんが、この例ではそれが当てはまることを確認しています)。

P(雨 | 晴れ) とは何でしょうか? 直感的にはこの確率は小さいですが、これを数学的に正確に計算するにはどうすればよいでしょうか? 条件付き確率は次のように定義されます:

つまり、雨と晴れの確率を晴れの確率で割ります。

4. 従属イベントと独立イベント

あるイベントの確率が別のイベントにまったく影響を与えない場合、そのイベントは独立したイベントと呼ばれます。サイコロを振って 2 回続けて 2 が出る確率を考えます。これらのイベントは独立しています。こう表現できます

しかし、なぜこの式が機能するのでしょうか? まず、意味的な意味合いを排除するために、1 回目と 2 回目のトスのイベントの名前を A と B に変更し、次に、2 回のトスの結合確率を、2 回のトスの個々の確率の積として明示的に書き直します。

ここで、P(A) と P(B) を掛け合わせ（変化なし、キャンセル可能）、条件付き確率の定義を確認します。

上記の式を右から左に読むと、P(A | B) = P(A)であることがわかります。これは、イベント A がイベント B から独立していることを意味します。独立したイベントの説明である P(B) についても同じことが言えます。

5. ベイズ確率論

ベイズ統計は確率を理解するための代替アプローチとして使用できます。頻度主義的な統計手法では、探しているモデルパラメータの一意かつ特定の組み合わせが存在すると想定されます。一方、ベイズ法では、パラメータを確率的に扱い、ランダム変数として扱います。ベイズ統計では、各パラメータには独自の確率分布があり、既存のデータがある場合にはパラメータに複数の可能性があることがわかります。数学的には次のように書ける。

すべては、事前の知識に基づいて条件付き確率を計算できる簡単な定理から始まります。

ベイズの定理は単純であるにもかかわらず、非常に価値があり、応用範囲が広く、ベイズ統計の特別な分野でもあります。ベイズの定理の導出に興味があるなら、ベイズの定理に関する非常に優れたブログ記事があります。それほど難しくはありません。

6. サンプリングと統計

私たちが人間の身長の分布を研究していて、興味深い科学論文を発表したいと考えているとします。私たちは路上で何人かの見知らぬ人の身長を測定したので、測定は独立していました。実際の母集団からデータのサブセットをランダムに選択するプロセスをサンプリングと呼びます。統計は、サンプリングされたデータのパターンを要約するために使用される関数です。おそらくあなたが見たことがある統計は、サンプル平均です。

もう 1 つの例はサンプル分散です。

この式は、すべてのデータポイントが平均からどの程度逸脱しているかを示します。

2. 配布

確率分布とは何でしょうか? 確率分布とは、ある実験においてさまざまな結果が起こる確率を示す、数学関数の形の法則です。各関数に対して、分布にはその動作を調整するためのいくつかのパラメータが存在する場合があります。

コイン投げイベントの相対頻度を計算するとき、実際には経験的確率分布と呼ばれるものを計算しています。世の中の多くの不確実なプロセスは確率分布によって記述できることがわかります。たとえば、コインの結果はベルヌーイ分布です。n 回の試行後にコインが表になる確率を計算する場合は、二項分布を使用できます。

確率的な設定では、変数に似た概念、つまりランダム変数を導入する方がはるかに便利です。すべてのランダム変数には特定の分布があります。ランダム変数はデフォルトで大文字で表され、変数に分布を割り当てるには ~ 記号を使用できます。

上記の式は、ランダム変数 X が成功率 (ヘッドアップ) 0.6 のベルヌーイ分布に従うことを示しています。

1. 連続確率分布と離散確率分布

確率分布には 2 つのタイプがあります。離散分布は、コイン投げやベルヌーイ分布など、有限の値を持つランダム変数を処理するために使用されます。離散分布は、いわゆる確率質量関数 (PMF) によって定義され、連続分布は (理論上) 無限の数の値を持つ連続ランダム変数を処理するために使用されます。音センサーで測定される速度と加速度について考えてみましょう。連続分布は確率密度関数 (PDF) によって定義されます。

2 つの分布タイプは数学的な処理が異なります。通常、連続分布では積分 ∫ が使用され、離散分布では合計 Σ が使用されます。期待値を例に挙げます。

以下では、さまざまな一般的な確率分布の種類について詳しく紹介します。前述のように、確率分布は離散ランダム変数分布と連続ランダム変数分布に分けられます。一般的な離散ランダム変数分布には、ベルヌーイ分布、二項分布、ポアソン分布などが含まれ、一般的な連続ランダム変数分布には、一様分布、指数分布、正規分布などがあります。

3. 一般的なデータ型

さまざまな分布を説明する前に、まずは一般的なデータ型を見てみましょう。データ型は離散型と連続型に分けられます。

離散データ: データは特定の値のみを取ることができます。たとえば、サイコロを振った場合、結果は 1、2、3、4、5、6 のみで、1.5 や 2.45 は出ません。

連続データ: データは、女の子の体重や身長、道路の長さなど、有限または無限の指定範囲内の任意の値を取ることができます。女の子の体重は 54 kg、54.5 kg、または 54.5436 kg になります。

4. 配布の種類

1. ベルヌーイ分布

最も単純な離散確率変数分布はベルヌーイ分布です。まずはこの分布から始めます。

ベルヌーイ分布には、1 (成功) と 0 (失敗) で表される 2 つの結果しかなく、ベルヌーイ試行は 1 回だけです。ベルヌーイ分布に従うランダム変数 X の値が 1、つまり成功の確率が p であり、値が 0、つまり失敗の確率が q または 1-p であるとします。

ランダム変数 X がベルヌーイ分布に従う場合、確率関数は次のようになります。

成功と失敗の確率は必ずしも同じである必要はありません。たとえば、私がアスリートと戦う場合、彼のほうが勝つ確率が高くなるはずです。このとき、私の成功確率は 0.15、失敗確率は 0.85 です。

下の図は、私たちの戦闘のベルヌーイ分布を示しています。

上の図に示すように、成功確率 = 0.15、失敗確率 = 0.85 です。期待値は確率分布の平均値です。ランダム変数 X の場合、対応する期待値は E(X) = 1*p + 0*(1-p) = p であり、分散は V(X) = E(X^2) – [E(X)]^2 = p – p^2 = p(1-p) です。

実際、明日は晴れるか雨になるか、この試合でチームが勝つか負けるかなど、ベルヌーイ分布の例はたくさんあります。

2. 二項分布

さて、コイン投げの例に戻ると、最初にコインを投げた後、もう一度投げることができます。つまり、ベルヌーイ試行が複数回あるということです。最初に陽性であったとしても、将来も陽性であるとは限りません。そこで、コインを前に投げる回数を表すランダム変数 X を用意しましょう。 X はどのような値を取るでしょうか? コインを投げた回数の合計の範囲内の任意の非負の整数です。

同一のランダムイベントの集合、つまりベルヌーイ試行の集合がある場合、上記の例では、それはコインを何度も続けて投げることです。すると、ランダムなイベントの発生回数、つまり確率は、多重ベルヌーイ分布としても知られる二項分布に従います。

各試行は互いに独立しており、前の試行が現在の試行の結果に影響を与えることはありません。 2 つの結果が同じ確率で生じる実験を n 回繰り返すことをベルヌーイ試行と呼びます。二項分布のパラメータは n と p です。ここで、n は試行の総数、p は各試行における成功確率です。

上記に基づくと、二項分布の特性は次のようになります。

各試験は独立しています。
起こり得る結果は 2 つだけです。
n 回の同一試行を実行します。
すべての試行における成功率は同じであり、失敗する確率も同じです。

二項分布の数学的表現は次のとおりです。

成功と失敗の確率が等しくない二項分布は次のようになります。

成功と失敗の確率が等しい二項分布は次のようになります。

二項分布の平均はµ = n*pであり、分散はVar(X) = n*p*qと表すことができます。

3. ポアソン分布

コールセンターで働いている場合、1 日に何件の電話を受けますか? 好きなだけ受けられます! コールセンターで 1 日に受ける電話の数は、ポアソン分布を使用してモデル化できます。以下にいくつか例を挙げます。

病院が 1 日に受けた緊急通報の数。
地域が 1 日に受け取った盗難報告の数。
1時間にサロンを訪れる人の数。
特定の都市で報告された自殺の数。
本のページあたりの印刷エラーの数。

これで、同じ方法で他の多くの例を構築できるようになりました。ポアソン分布は、イベントの時間と場所がランダムに分布しており、イベントの発生回数のみに関心がある状況に適しています。ポアソン分布の主な特徴は次のとおりです。

成功イベントは他の成功イベントに影響を与えることはできません。
短い時間間隔後の成功の確率は、長い時間間隔後の成功の確率と等しくなければなりません。
時間間隔が無限小に近づくと、時間間隔内での成功確率はゼロに近づきます。

ポアソン分布で定義されている記号は次のとおりです。

λはイベントの発生率です。
tはイベント間隔の長さです。
X は、時間間隔内でのイベントの発生回数です。

X をポアソン確率変数とすると、X の確率分布はポアソン分布と呼ばれます。 µ が時間間隔 t に発生するイベントの平均数を表すとすると、µ = λ * t となります。

X の確率分布関数は次のとおりです。

ポアソン分布の確率分布は以下のようになります。ここで、µ はポアソン分布のパラメータです。

次の図は、平均値が増加すると分布曲線がどのように変化するかを示しています。

上に示すように、平均値が増加すると、曲線は右にシフトします。ポアソン分布の平均と分散は次のとおりです。

平均: E(X) = µ
分散: Var(X) = µ

4. 均等配分

a から b までの線分上で等間隔の区間を選択する確率が等しいと仮定すると、確率は区間 [a,b] 全体にわたって均一に分布し、確率密度関数は変数の変化によって変化しません。一様分布はベルヌーイ分布とは異なります。ランダム変数の値は均等に発生する可能性があるため、確率密度は区間の長さの半分として表すことができます。ランダム変数の可能な値の半分を取ると、その発生確率は 1/2 になります。

ランダム変数 X が均一分布に従うと仮定すると、確率密度関数は次のようになります。

以下に均一分布曲線を示します。確率密度曲線の下の領域は、ランダム変数が発生する確率です。

一様分布の確率分布グラフは長方形として表示されることがわかります。そのため、一様分布は長方形分布とも呼ばれます。一様分布では、a と b はパラメータ、つまりランダム変数の値の範囲です。

一様分布に従うランダム変数 X にも平均と分散があります。その平均は E(X) = (a+b)/2 で、分散は V(X) = (ba)^2/12 です。

標準一様分布の密度関数パラメータ a は 0 の値を取り、b は 1 の値を取るため、標準一様分布の確率密度は次のように表すことができます。

5. 指数分布

ここで、コールセンターのケースをもう一度考えてみましょう。通話間の時間間隔の分布はどのようなものでしょうか。この分布は指数分布である可能性があります。指数分布は通話間の時間間隔をモデル化できるためです。その他の例としては、地下鉄の到着時間や空調設備のサイクルのモデリングなどが挙げられます。

ディープラーニングでは、x=0 に鋭い点を持つ分布が必要になることがよくあります。これを実現するには、指数分布を使用することができます。

指数分布では、指標関数 1x ≥ 0 が使用されるため、x が負の値を取る確率はゼロになります。

ここでλ >0は確率密度関数のパラメータです。ランダム変数 X が指数分布に従う場合、変数の平均は E(X) = 1/λ と表され、分散は Var(X) = (1/λ)^2 と表されます。下の図に示すように、λ が大きいほど指数分布曲線はより下がり、λ が小さいほど曲線はより平坦になります。次の図に示すように:

以下は指数分布関数から導かれる簡単な式です。

P{X≤x} = 1 – exp(-λx)は、密度関数曲線の下のx未満の領域に対応します。
P{X>x} = exp(-λx) は、確率密度関数曲線の下の x より大きい領域を表します。

P{x1<X≤ x2} =exp(-λx1)-exp(-λx2)は、点x1とx2の間の確率密度関数曲線の下の領域を表します。

6. 正規分布（ガウス分布）

最も一般的に使用される実数の分布は正規分布であり、ガウス分布とも呼ばれます。この分布の普遍性、特に中心極限定理の一般化により、一般に、多くの小さなランダム変数の重ね合わせを正規分布に適合させることができます。正規分布には、主に次の特徴があります。

すべての変数の平均、分散、分布は同じです。
分布曲線はベル型で、x = μに沿って対称です。
曲線の下の領域の合計は 1 です。
分布の左半分の正確な値は右半分と等しくなります。

正規分布とベルヌーイ分布は非常に異なりますが、ベルヌーイ試行の数が無限大に近づくにつれて、それらの分布関数は本質的に等しくなります。

ランダム変数 X が正規分布に従う場合、X の確率密度は次のように表すことができます。

ランダム変数 X の平均は E(X) = µ と表され、分散は Var(X) = σ^2 と表されます。平均 µ と標準偏差 σ はガウス分布のパラメータです。

ランダム変数Xは正規分布N(µ,σ)に従い、次のように表すことができます。

標準正規分布は、平均が 0、分散が 1 の分布関数として定義できます。以下は、標準正規分布の確率密度関数と分布グラフを示しています。

5. 分布間の関係

1. ベルヌーイ分布と二項分布の関係

二項分布は、単一の試行（ベルヌーイ試行）に対するベルヌーイ分布の特殊なケースです。
二項分布とベルヌーイ分布の各試行では、可能な結果は 2 つだけです。
二項分布の各試行は互いに独立しており、各試行はベルヌーイ分布とみなすことができます。

2. ポアソン分布と二項分布の関係

ポアソン分布は、次の条件下での二項分布の極限形式です。

試行回数が非常に多いか、無限大に近づきます（つまり、n → ∞）。
各試行における成功確率は同じであり、ゼロに近づきます。つまり、p →0 です。
np =λは有限値です。

3. 正規分布と二項分布の関係と正規分布とポアソン分布の関係

正規分布は、次の条件下では二項分布の極限形式になります。

試行回数が非常に多いか、無限大に近づきます（つまり、n → ∞）。
p も q も無限小ではありません。

パラメータ λ →∞ の場合、正規分布はポアソン分布の極限形になります。

4. 指数分布とポアソン分布の関係

ランダムイベントの時間間隔がパラメータ λ を持つ指数分布に従う場合、期間 t 内に発生するイベントの合計数は、対応するパラメータ λt を持つポアソン分布に従います。

5. テスト

読者は、次の簡単なテストに答えて、上記の確率分布に対する理解度を確認できます。

（１）標準正規分布に従う確率変数を計算する式は次の通りである。

a. (x+µ) / σ

b. (x-µ) / σ

c. (x-σ) / µ

（２）ベルヌーイ分布では、標準偏差を計算する式は次のようになる。

a. p (1 – p)

b. SQRT(p(p – 1))

c. SQRT(p(1 – p))

（３）正規分布の場合、平均値の増加は次のことを意味する。

a. 曲線は左にシフトする

b. 曲線は右にシフトする

c. 曲線が平坦になる

（４）電池の寿命サイクルがλ＝0.05の指数分布に従うと仮定すると、電池の最終寿命が10時間から15時間の間である確率は次のようになる。

0.1341 より

b.0.1540

約0.0079

結論

この記事では、最も基本的なランダムなイベントとその概念から始めて、確率の理解について説明します。次に、条件付き確率やベイズ確率などの最も基本的な確率計算方法と概念について説明しました。この論文では、ランダム変数の独立性と条件付き独立性についても議論されています。さらに、この記事では、離散確率変数分布と連続確率変数分布を含む確率分布について詳しく紹介します。この記事は主に基本的な確率定理と概念について説明しています。実際、これらの内容は基本的に私たちの大学の確率論と数理統計学のコースで詳しく説明されています。機械学習では、確率と統計を理解することが機械学習モデルを理解する上で非常に重要です。それに基づいて、構造化確率などの新しい概念をさらに理解することができます。

オリジナル：

https://medium.com/towards-data-science/probabiliy-theory-basics-4ef523ae0820

https://www.analyticsvidhya.com/blog/2017/09/6-確率分布-データサイエンス/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: Google はなぜいつも AI に芸術を強制するのでしょうか?

>>: ロボットは期待低下の谷間にあるのか？何が問題ですか？