8つの一般的な確率分布の式と視覚化

8つの一般的な確率分布の式と視覚化

現実の世界には、本質的に統計的であると考えられる現象がいくつかあります (気象データ、売上データ、財務データなど)。 これは、場合によっては、データの特性を記述できる数学関数を通じて自然をシミュレートするのに役立つ方法を開発できたことを意味します。

「確率分布は、実験においてさまざまな結果が発生する確率を与える数学的関数です。」

データの分布を理解することは、私たちの周りの世界をより適切にモデル化するのに役立ちます。 さまざまな結果の可能性を判断したり、イベントの変動性を推定したりするのに役立ちます。 これらすべてにより、さまざまな確率分布を理解することは、データ サイエンスと機械学習において非常に価値のあるものになります。

この記事では、いくつかの一般的な分布を紹介し、Python コードを通じて視覚化して直感的に示します。

均等配分

最も単純な分布は均一分布です。 一様分布は、すべての結果が等しく起こる確率分布です。 たとえば、公平にサイコロを振った場合、どの数字が出るかの確率は 1/6 です。 これは離散一様分布です。

しかし、すべての一様分布が離散的であるわけではなく、連続的である場合もあります。 指定された範囲内で任意の実用的な値を取ることができます。 a と b の間の連続一様分布の確率密度関数 (PDF) は次のように表されます。

Python でエンコードする方法を見てみましょう。

 numpyをnp としてインポートする
matplotlib.pyplot plt としてインポートします
scipy から統計をインポート
# 連続の場合
0 = 0 です
50 です
サイズ= 5000
X_continuous = np . linspace ( a , b , サイズ)
連続均一= 統計. 均一( 位置= aスケール= b )
連続ユニフォームpdf = 連続ユニフォーム.pdf ( X_連続)
# 離散の場合
X_discrete = np . arange ( 1 , 7 )
discrete_uniform = 統計.randint ( 1,7 )
discrete_uniform_pmf = discrete_uniform . pmf ( X_discrete )
# 両方の表をプロットする
figax = plt.subplots ( nrows = 1ncols = 2figsize = ( 15、5 ) )
# 離散プロット
ax [ 0 ]. bar ( X_discretediscrete_uniform_pmf ) の座標
ax [ 0 ] .set_xlabel ( "X" )
ax [ 0 ] .set_ylabel ( "確率" )
ax [ 0 ] .set_title ( "離散一様分布" )
# 連続プロット
ax [ 1 ]. プロット( X_連続連続均一pdf )
ax [ 1 ] .set_xlabel ( "X" )
ax [ 1 ] .set_ylabel ( "確率" )
ax [ 1 ]. set_title ( "連続一様分布" )
plt . 表示()

ガウス分布

ガウス分布はおそらく最もよく聞かれ、よく知られている分布です。 この分布にはいくつかの名前があります。確率プロットが鐘のように見えることからベル曲線と呼ぶ人もいれば、最初にこの分布を説明したドイツの数学者カール・ガウスにちなんでガウス分布と呼ぶ人もいます。また、初期の統計学者がこの分布が何度も​​繰り返されることに気づいたことから正規分布と呼ぶ人もいます。

正規分布の確率密度関数は次のようになります。

σ は標準偏差、μ は分布の平均です。 正規分布では、平均、最頻値、中央値がすべて等しいことに注意してください。

正規分布するランダム変数をプロットすると、曲線は平均を中心に対称になり、値の半分は中心の左側にあり、残りの半分は中心の右側にあります。 そして、曲線の下の合計面積は 1 です。

 ミュー= 0
分散= 1
シグマ= np . sqrt ( 分散)
x = np . linspace ( mu - 3 * sigma , mu + 3 * sigma , 100 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . plot ( xstats . norm . pdf ( xmusigma ))
plt . title ( "正規分布" )
plt . 表示()

正規分布の場合。 経験則によれば、データの割合は平均値から一定数の標準偏差の範囲内に収まります。 これらの割合は次のとおりです。

  • データの 68% が平均値の 1 標準偏差以内に収まります。
  • データの 95% は平均値の 2 標準偏差以内に収まります。
  • データの 99.7% は平均値の 3 標準偏差以内に収まります。

対数正規分布

対数正規分布は、対数が正規分布するランダム変数の連続確率分布です。 したがって、ランダム変数 X が対数正規分布する場合、Y = ln(X) は正規分布になります。

これは対数正規分布の PDF です。

対数正規分布するランダム変数は、正の実数値のみを取ります。 したがって、対数正規分布は右に歪んだ曲線を作成します。

Python でプロットしてみましょう:

 X = np . linspace ( 0 , 6 , 500 )
標準偏差= 1
平均= 0
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
figax = plt . subplots ( figsize = ( 85 ))
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=0、σ=1" )
ax.set_xticks ( np.arange ( min ( X ), max ( X )))
標準偏差= 0.5
平均= 0
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=0、σ=0.5" )
標準偏差= 1.5
平均= 1
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=1、σ=1.5" )
plt . title ( "対数正規分布" )
plt . 凡例()
plt . 表示()

ポアソン分布

ポアソン分布はフランスの数学者シモン・ドニ・ポアソンにちなんで名付けられました。 これは離散確率分布であり、有限数の結果を持つイベントをカウントすることを意味します。つまり、カウント分布です。 したがって、ポアソン分布は、指定された期間内にイベントが発生する可能性のある回数を示すために使用されます。

イベントが時間内に一定の割合で発生する場合、時間内にイベントの数 (n) を観測する確率はポアソン分布で表すことができます。 たとえば、カフェには平均して 1 分あたり 3 人の顧客が訪れるとします。 ポアソン分布を使用して、9 人の顧客が 2 分以内に到着する確率を計算できます。

確率質量関数の式は次のとおりです。

λ は時間単位あたりのイベント率です。この場合は 3 です。 k は発生回数です。この場合は 9 です。ここで Scipy を使用して確率計算を完了できます。

 scipy から統計をインポート
印刷( 統計. ポアソン. pmf ( k = 9mu = 3 ))
「」
0.002700503931560479
「」

ポアソン分布の曲線は正規分布に似ており、ラムダがピークを表します。

 X = 統計. ポアソン.rvs ( mu = 3サイズ= 500 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . hist ( X密度= Trueエッジカラー= "black" )
plt . title ( "ポアソン分布" )
plt . 表示()

指数分布

指数分布は、ポアソン点過程におけるイベント間の時間の確率分布です。指数分布の確率密度関数は次のとおりです。

λ はレートパラメータであり、x はランダム変数です。

 X = np . linspace ( 0 , 5 , 5000 )
指数分布= 統計. 指数.pdf ( X位置= 0スケール= 1 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . plot ( X , 指数分布)
plt . title ( "指数分布" )
plt . 表示()

二項分布

二項分布は、実験の成功または失敗の確率と考えることができます。 これをコイン投げの確率と表現する人もいるかもしれません。

パラメータ n と p を持つ二項分布は、それぞれが「はい/いいえ」の質問をし、それぞれが成功または失敗というブール結果を持つ n 個の独立した実験のシーケンスにおける成功数の離散確率分布です。

本質的に、二項分布は 2 つのイベントの確率を測定します。 1 つのイベントが発生する確率は p で、他のイベントが発生する確率は 1-p です。

二項分布の式は次のとおりです。

視覚化コードは次のとおりです。

 X = np . ランダム. 二項分布( n = 1p = 0.5サイズ= 1000 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . hist ( X )
plt . title ( "二項分布" )
plt . 表示()

スチューデントのt分布

スチューデントの t 分布 (または単に t 分布) は、サンプル サイズが小さく、母集団の標準偏差が不明な場合に、正規分布する母集団の平均を推定するときに発生する連続確率分布のファミリーのメンバーです。 これは、「学生」という仮名を使用していた英国の統計学者ウィリアム・シーリー・ゴセットによって開発されました。

PDFは次のとおりです。

n は自由度と呼ばれるパラメータで、「dof」と呼ばれることもあります。n の値が大きいほど、t 分布は正規分布に近くなります。

 Seaborn をSNS としてインポートする
scipy から統計をインポート
X1 = 統計. t . rvs ( 自由度= 1サイズ= 4 )
X2 = 統計. t . rvs ( 自由度= 3サイズ= 4 )
X3 = 統計. t . rvs ( df = 9サイズ= 4 )
plt . サブプロット( figsize = ( 8 , 5 ))
sns.kdeplot ( X1 , ラベル= "1自由度" )
sns . kdeplot ( X2ラベル= "3 dof" )
sns.kdeplot ( X3 , ラベル= "6自由度" )
plt . title ( "スチューデントのt分布" )
plt . 凡例()
plt . 表示()

カイ二乗分布

カイ二乗分布はガンマ分布の特殊なケースです。自由度が k の場合、カイ二乗分布は、いくつかの独立した標準正規乱数の k 乗の合計です。

PDFは次のとおりです。

これは、仮説検定や信頼区間の構築によく使用される一般的な確率分布です。

Python でいくつかのサンプルグラフを描いてみましょう。

 X = np . 範囲( 0 , 6 , 0.25 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt.plot ( X , stats.chi2.pdf ( X , df = 1 ), label = "1 dof" ) です
plt.plot ( X , stats.chi2.pdf ( X , df = 2 ), label = "2 dof" ) グラフプロット
plt.plot ( X , stats.chi2.pdf ( X , df = 3 ), label = "3 dof" ) グラフプロット
plt . title ( "カイ二乗分布" )
plt . 凡例()
plt . 表示()

データサイエンスには、統計と確率を適切に理解することが不可欠です。 この記事では、一般的でよく使用されるディストリビューションをいくつか紹介します。お役に立てば幸いです。


<<:  自然言語処理シーケンスモデル - CRF 条件付きランダムフィールド

>>:  あなたの AI は規制に対応できる準備ができていますか?

ブログ    
ブログ    
ブログ    

推薦する

人工知能技術は民族言語の保護に大きな可能性を秘めている

現在、経済や文化の交流のグローバル化に伴い、主流言語や共通言語が勢力を増し、不利な立場にある言語は絶...

人工知能は人材紹介業界に狙いを定めています。仕事を見つけるにはロボットに頼らなければならないのでしょうか?

実装プロセスにおいて、AI 採用は本当にスローガン通りの結果を達成できるのでしょうか?求職者は3時間...

脳コンピューターインターフェース技術は本当に人気がある

[[274622]]参加者は脳波計を装着し、コンピューターの画面を見つめながら、急速に点滅するターゲ...

中国がテンセントやアリババなどのプラットフォーム構築に力を入れている中、日本は何をしているのでしょうか?

中国ではブロックチェーン、ニューリテール、シェアサイクルが急成長しているが、技術大国である日本は明ら...

...

セキュリティ分野におけるドローン技術応用の現状

[[422011]] 2013年、バハマで仕事をしていたとき、私は現在ドローンとして知られているもの...

自動運転車における LiDAR とカメラセンサーの融合

センサーフュージョンは、自動運転車の重要な技術の 1 つです。これは、すべての自動運転車のエンジニア...

...

...

...

過去 50 年間で最も重要な 8 つの統計的進歩!コロンビア大学教授がAI革命を推進する統計的アイデアを列挙

ディープラーニングと人工知能は誰もが知る名前になりましたが、この革命を推進する統計学の進歩はあまり知...

人工知能の時代に人権と民主主義をどう守るか

人工知能 (AI) システムは近年急速に普及しており、特に 2023 年には大規模言語モデル (LL...

ディープラーニングはオイラー方程式を「破壊」する準備ができている

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

2018 年に人工知能を変える 5 つのビッグデータ トレンド

[[211908]]ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経...

機械学習のための特徴選択の5つの方法!

使用される特徴の数が増えるにつれて、モデルのパフォーマンスが向上することが分かっています。ただし、ピ...