8つの一般的な確率分布の式と視覚化

現実の世界には、本質的に統計的であると考えられる現象がいくつかあります (気象データ、売上データ、財務データなど)。これは、場合によっては、データの特性を記述できる数学関数を通じて自然をシミュレートするのに役立つ方法を開発できたことを意味します。

「確率分布は、実験においてさまざまな結果が発生する確率を与える数学的関数です。」

データの分布を理解することは、私たちの周りの世界をより適切にモデル化するのに役立ちます。さまざまな結果の可能性を判断したり、イベントの変動性を推定したりするのに役立ちます。これらすべてにより、さまざまな確率分布を理解することは、データサイエンスと機械学習において非常に価値のあるものになります。

この記事では、いくつかの一般的な分布を紹介し、Python コードを通じて視覚化して直感的に示します。

均等配分

最も単純な分布は均一分布です。一様分布は、すべての結果が等しく起こる確率分布です。たとえば、公平にサイコロを振った場合、どの数字が出るかの確率は 1/6 です。これは離散一様分布です。

しかし、すべての一様分布が離散的であるわけではなく、連続的である場合もあります。指定された範囲内で任意の実用的な値を取ることができます。 a と b の間の連続一様分布の確率密度関数 (PDF) は次のように表されます。

Python でエンコードする方法を見てみましょう。

 numpyをnp としてインポートする
matplotlib.pyplot をplt としてインポートします
scipy から統計をインポート
# 連続の場合
0 = 0 です
50 です
 サイズ= 5000
 X_continuous = np . linspace ( a , b , サイズ)
 連続均一= 統計. 均一( 位置= a 、 スケール= b )
 連続ユニフォームpdf = 連続ユニフォーム.pdf ( X_連続)
 # 離散の場合
X_discrete = np . arange ( 1 , 7 )
 discrete_uniform = 統計.randint ( 1,7 )
 discrete_uniform_pmf = discrete_uniform . pmf ( X_discrete )
 # 両方の表をプロットする
fig 、 ax = plt.subplots ( nrows = 1 、 ncols = 2 、 figsize = ( 15、5 ) )
 # 離散プロット
ax [ 0 ]. bar ( X_discrete 、 discrete_uniform_pmf ) の座標
ax [ 0 ] .set_xlabel ( "X" )
 ax [ 0 ] .set_ylabel ( "確率" )
 ax [ 0 ] .set_title ( "離散一様分布" )
 # 連続プロット
ax [ 1 ]. プロット( X_連続、 連続均一pdf )
 ax [ 1 ] .set_xlabel ( "X" )
 ax [ 1 ] .set_ylabel ( "確率" )
 ax [ 1 ]. set_title ( "連続一様分布" )
 plt . 表示()

ガウス分布

ガウス分布はおそらく最もよく聞かれ、よく知られている分布です。この分布にはいくつかの名前があります。確率プロットが鐘のように見えることからベル曲線と呼ぶ人もいれば、最初にこの分布を説明したドイツの数学者カール・ガウスにちなんでガウス分布と呼ぶ人もいます。また、初期の統計学者がこの分布が何度も繰り返されることに気づいたことから正規分布と呼ぶ人もいます。

正規分布の確率密度関数は次のようになります。

σ は標準偏差、μ は分布の平均です。正規分布では、平均、最頻値、中央値がすべて等しいことに注意してください。

正規分布するランダム変数をプロットすると、曲線は平均を中心に対称になり、値の半分は中心の左側にあり、残りの半分は中心の右側にあります。そして、曲線の下の合計面積は 1 です。

 ミュー= 0
 分散= 1
 シグマ= np . sqrt ( 分散)
 x = np . linspace ( mu - 3 * sigma , mu + 3 * sigma , 100 )
 plt . サブプロット( figsize = ( 8 , 5 ))
 plt . plot ( x 、 stats . norm . pdf ( x 、 mu 、 sigma ))
 plt . title ( "正規分布" )
 plt . 表示()

正規分布の場合。経験則によれば、データの割合は平均値から一定数の標準偏差の範囲内に収まります。これらの割合は次のとおりです。

データの 68% が平均値の 1 標準偏差以内に収まります。
データの 95% は平均値の 2 標準偏差以内に収まります。
データの 99.7% は平均値の 3 標準偏差以内に収まります。

対数正規分布

対数正規分布は、対数が正規分布するランダム変数の連続確率分布です。したがって、ランダム変数 X が対数正規分布する場合、Y = ln(X) は正規分布になります。

これは対数正規分布の PDF です。

対数正規分布するランダム変数は、正の実数値のみを取ります。したがって、対数正規分布は右に歪んだ曲線を作成します。

Python でプロットしてみましょう:

 X = np . linspace ( 0 , 6 , 500 )
 標準偏差= 1
 平均= 0
 lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
 lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
 fig 、 ax = plt . subplots ( figsize = ( 8 、 5 ))
 plt . plot ( X 、 lognorm_distribution_pdf 、 ラベル= "μ=0、σ=1" )
 ax.set_xticks ( np.arange ( min ( X ), max ( X )))
 標準偏差= 0.5
 平均= 0
 lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
 lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
 plt . plot ( X 、 lognorm_distribution_pdf 、 ラベル= "μ=0、σ=0.5" )
 標準偏差= 1.5
 平均= 1
 lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
 lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
 plt . plot ( X 、 lognorm_distribution_pdf 、 ラベル= "μ=1、σ=1.5" )
 plt . title ( "対数正規分布" )
 plt . 凡例()
 plt . 表示()

ポアソン分布

ポアソン分布はフランスの数学者シモン・ドニ・ポアソンにちなんで名付けられました。これは離散確率分布であり、有限数の結果を持つイベントをカウントすることを意味します。つまり、カウント分布です。したがって、ポアソン分布は、指定された期間内にイベントが発生する可能性のある回数を示すために使用されます。

イベントが時間内に一定の割合で発生する場合、時間内にイベントの数 (n) を観測する確率はポアソン分布で表すことができます。たとえば、カフェには平均して 1 分あたり 3 人の顧客が訪れるとします。ポアソン分布を使用して、9 人の顧客が 2 分以内に到着する確率を計算できます。

確率質量関数の式は次のとおりです。

λ は時間単位あたりのイベント率です。この場合は 3 です。 k は発生回数です。この場合は 9 です。ここで Scipy を使用して確率計算を完了できます。

 scipy から統計をインポート
印刷( 統計. ポアソン. pmf ( k = 9 、 mu = 3 ))
 「」
 0.002700503931560479
 「」

ポアソン分布の曲線は正規分布に似ており、ラムダがピークを表します。

 X = 統計. ポアソン.rvs ( mu = 3 、 サイズ= 500 )
 plt . サブプロット( figsize = ( 8 , 5 ))
 plt . hist ( X 、 密度= True 、 エッジカラー= "black" )
 plt . title ( "ポアソン分布" )
 plt . 表示()

指数分布

指数分布は、ポアソン点過程におけるイベント間の時間の確率分布です。指数分布の確率密度関数は次のとおりです。

λ はレートパラメータであり、x はランダム変数です。

 X = np . linspace ( 0 , 5 , 5000 )
 指数分布= 統計. 指数.pdf ( X 、 位置= 0 、 スケール= 1 )
 plt . サブプロット( figsize = ( 8 , 5 ))
 plt . plot ( X , 指数分布)
 plt . title ( "指数分布" )
 plt . 表示()

二項分布

二項分布は、実験の成功または失敗の確率と考えることができます。これをコイン投げの確率と表現する人もいるかもしれません。

パラメータ n と p を持つ二項分布は、それぞれが「はい/いいえ」の質問をし、それぞれが成功または失敗というブール結果を持つ n 個の独立した実験のシーケンスにおける成功数の離散確率分布です。

本質的に、二項分布は 2 つのイベントの確率を測定します。 1 つのイベントが発生する確率は p で、他のイベントが発生する確率は 1-p です。

二項分布の式は次のとおりです。

視覚化コードは次のとおりです。

 X = np . ランダム. 二項分布( n = 1 、 p = 0.5 、 サイズ= 1000 )
 plt . サブプロット( figsize = ( 8 , 5 ))
 plt . hist ( X )
 plt . title ( "二項分布" )
 plt . 表示()

スチューデントのt分布

スチューデントの t 分布 (または単に t 分布) は、サンプルサイズが小さく、母集団の標準偏差が不明な場合に、正規分布する母集団の平均を推定するときに発生する連続確率分布のファミリーのメンバーです。これは、「学生」という仮名を使用していた英国の統計学者ウィリアム・シーリー・ゴセットによって開発されました。

PDFは次のとおりです。

n は自由度と呼ばれるパラメータで、「dof」と呼ばれることもあります。n の値が大きいほど、t 分布は正規分布に近くなります。

 Seaborn をSNS としてインポートする
scipy から統計をインポート
X1 = 統計. t . rvs ( 自由度= 1 、 サイズ= 4 )
 X2 = 統計. t . rvs ( 自由度= 3 、 サイズ= 4 )
 X3 = 統計. t . rvs ( df = 9 、 サイズ= 4 )
 plt . サブプロット( figsize = ( 8 , 5 ))
 sns.kdeplot ( X1 , ラベル= "1自由度" )
 sns . kdeplot ( X2 、 ラベル= "3 dof" )
 sns.kdeplot ( X3 , ラベル= "6自由度" )
 plt . title ( "スチューデントのt分布" )
 plt . 凡例()
 plt . 表示()

カイ二乗分布

カイ二乗分布はガンマ分布の特殊なケースです。自由度が k の場合、カイ二乗分布は、いくつかの独立した標準正規乱数の k 乗の合計です。

PDFは次のとおりです。

これは、仮説検定や信頼区間の構築によく使用される一般的な確率分布です。

Python でいくつかのサンプルグラフを描いてみましょう。

 X = np . 範囲( 0 , 6 , 0.25 )
 plt . サブプロット( figsize = ( 8 , 5 ))
 plt.plot ( X , stats.chi2.pdf ( X , df = 1 ), label = "1 dof" ) です。
 plt.plot ( X , stats.chi2.pdf ( X , df = 2 ), label = "2 dof" ) グラフのプロット
plt.plot ( X , stats.chi2.pdf ( X , df = 3 ), label = "3 dof" ) グラフのプロット
plt . title ( "カイ二乗分布" )
 plt . 凡例()
 plt . 表示()