8つの一般的な確率分布の式と視覚化

8つの一般的な確率分布の式と視覚化

現実の世界には、本質的に統計的であると考えられる現象がいくつかあります (気象データ、売上データ、財務データなど)。 これは、場合によっては、データの特性を記述できる数学関数を通じて自然をシミュレートするのに役立つ方法を開発できたことを意味します。

「確率分布は、実験においてさまざまな結果が発生する確率を与える数学的関数です。」

データの分布を理解することは、私たちの周りの世界をより適切にモデル化するのに役立ちます。 さまざまな結果の可能性を判断したり、イベントの変動性を推定したりするのに役立ちます。 これらすべてにより、さまざまな確率分布を理解することは、データ サイエンスと機械学習において非常に価値のあるものになります。

この記事では、いくつかの一般的な分布を紹介し、Python コードを通じて視覚化して直感的に示します。

均等配分

最も単純な分布は均一分布です。 一様分布は、すべての結果が等しく起こる確率分布です。 たとえば、公平にサイコロを振った場合、どの数字が出るかの確率は 1/6 です。 これは離散一様分布です。

しかし、すべての一様分布が離散的であるわけではなく、連続的である場合もあります。 指定された範囲内で任意の実用的な値を取ることができます。 a と b の間の連続一様分布の確率密度関数 (PDF) は次のように表されます。

Python でエンコードする方法を見てみましょう。

 numpyをnp としてインポートする
matplotlib.pyplot plt としてインポートします
scipy から統計をインポート
# 連続の場合
0 = 0 です
50 です
サイズ= 5000
X_continuous = np . linspace ( a , b , サイズ)
連続均一= 統計. 均一( 位置= aスケール= b )
連続ユニフォームpdf = 連続ユニフォーム.pdf ( X_連続)
# 離散の場合
X_discrete = np . arange ( 1 , 7 )
discrete_uniform = 統計.randint ( 1,7 )
discrete_uniform_pmf = discrete_uniform . pmf ( X_discrete )
# 両方の表をプロットする
figax = plt.subplots ( nrows = 1ncols = 2figsize = ( 15、5 ) )
# 離散プロット
ax [ 0 ]. bar ( X_discretediscrete_uniform_pmf ) の座標
ax [ 0 ] .set_xlabel ( "X" )
ax [ 0 ] .set_ylabel ( "確率" )
ax [ 0 ] .set_title ( "離散一様分布" )
# 連続プロット
ax [ 1 ]. プロット( X_連続連続均一pdf )
ax [ 1 ] .set_xlabel ( "X" )
ax [ 1 ] .set_ylabel ( "確率" )
ax [ 1 ]. set_title ( "連続一様分布" )
plt . 表示()

ガウス分布

ガウス分布はおそらく最もよく聞かれ、よく知られている分布です。 この分布にはいくつかの名前があります。確率プロットが鐘のように見えることからベル曲線と呼ぶ人もいれば、最初にこの分布を説明したドイツの数学者カール・ガウスにちなんでガウス分布と呼ぶ人もいます。また、初期の統計学者がこの分布が何度も​​繰り返されることに気づいたことから正規分布と呼ぶ人もいます。

正規分布の確率密度関数は次のようになります。

σ は標準偏差、μ は分布の平均です。 正規分布では、平均、最頻値、中央値がすべて等しいことに注意してください。

正規分布するランダム変数をプロットすると、曲線は平均を中心に対称になり、値の半分は中心の左側にあり、残りの半分は中心の右側にあります。 そして、曲線の下の合計面積は 1 です。

 ミュー= 0
分散= 1
シグマ= np . sqrt ( 分散)
x = np . linspace ( mu - 3 * sigma , mu + 3 * sigma , 100 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . plot ( xstats . norm . pdf ( xmusigma ))
plt . title ( "正規分布" )
plt . 表示()

正規分布の場合。 経験則によれば、データの割合は平均値から一定数の標準偏差の範囲内に収まります。 これらの割合は次のとおりです。

  • データの 68% が平均値の 1 標準偏差以内に収まります。
  • データの 95% は平均値の 2 標準偏差以内に収まります。
  • データの 99.7% は平均値の 3 標準偏差以内に収まります。

対数正規分布

対数正規分布は、対数が正規分布するランダム変数の連続確率分布です。 したがって、ランダム変数 X が対数正規分布する場合、Y = ln(X) は正規分布になります。

これは対数正規分布の PDF です。

対数正規分布するランダム変数は、正の実数値のみを取ります。 したがって、対数正規分布は右に歪んだ曲線を作成します。

Python でプロットしてみましょう:

 X = np . linspace ( 0 , 6 , 500 )
標準偏差= 1
平均= 0
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
figax = plt . subplots ( figsize = ( 85 ))
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=0、σ=1" )
ax.set_xticks ( np.arange ( min ( X ), max ( X )))
標準偏差= 0.5
平均= 0
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=0、σ=0.5" )
標準偏差= 1.5
平均= 1
lognorm_distribution = 統計.lognorm ([ std ], loc = 平均)
lognorm_distribution_pdf = lognorm_distribution.pdf ( X )
plt . plot ( Xlognorm_distribution_pdfラベル= "μ=1、σ=1.5" )
plt . title ( "対数正規分布" )
plt . 凡例()
plt . 表示()

ポアソン分布

ポアソン分布はフランスの数学者シモン・ドニ・ポアソンにちなんで名付けられました。 これは離散確率分布であり、有限数の結果を持つイベントをカウントすることを意味します。つまり、カウント分布です。 したがって、ポアソン分布は、指定された期間内にイベントが発生する可能性のある回数を示すために使用されます。

イベントが時間内に一定の割合で発生する場合、時間内にイベントの数 (n) を観測する確率はポアソン分布で表すことができます。 たとえば、カフェには平均して 1 分あたり 3 人の顧客が訪れるとします。 ポアソン分布を使用して、9 人の顧客が 2 分以内に到着する確率を計算できます。

確率質量関数の式は次のとおりです。

λ は時間単位あたりのイベント率です。この場合は 3 です。 k は発生回数です。この場合は 9 です。ここで Scipy を使用して確率計算を完了できます。

 scipy から統計をインポート
印刷( 統計. ポアソン. pmf ( k = 9mu = 3 ))
「」
0.002700503931560479
「」

ポアソン分布の曲線は正規分布に似ており、ラムダがピークを表します。

 X = 統計. ポアソン.rvs ( mu = 3サイズ= 500 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . hist ( X密度= Trueエッジカラー= "black" )
plt . title ( "ポアソン分布" )
plt . 表示()

指数分布

指数分布は、ポアソン点過程におけるイベント間の時間の確率分布です。指数分布の確率密度関数は次のとおりです。

λ はレートパラメータであり、x はランダム変数です。

 X = np . linspace ( 0 , 5 , 5000 )
指数分布= 統計. 指数.pdf ( X位置= 0スケール= 1 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . plot ( X , 指数分布)
plt . title ( "指数分布" )
plt . 表示()

二項分布

二項分布は、実験の成功または失敗の確率と考えることができます。 これをコイン投げの確率と表現する人もいるかもしれません。

パラメータ n と p を持つ二項分布は、それぞれが「はい/いいえ」の質問をし、それぞれが成功または失敗というブール結果を持つ n 個の独立した実験のシーケンスにおける成功数の離散確率分布です。

本質的に、二項分布は 2 つのイベントの確率を測定します。 1 つのイベントが発生する確率は p で、他のイベントが発生する確率は 1-p です。

二項分布の式は次のとおりです。

視覚化コードは次のとおりです。

 X = np . ランダム. 二項分布( n = 1p = 0.5サイズ= 1000 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt . hist ( X )
plt . title ( "二項分布" )
plt . 表示()

スチューデントのt分布

スチューデントの t 分布 (または単に t 分布) は、サンプル サイズが小さく、母集団の標準偏差が不明な場合に、正規分布する母集団の平均を推定するときに発生する連続確率分布のファミリーのメンバーです。 これは、「学生」という仮名を使用していた英国の統計学者ウィリアム・シーリー・ゴセットによって開発されました。

PDFは次のとおりです。

n は自由度と呼ばれるパラメータで、「dof」と呼ばれることもあります。n の値が大きいほど、t 分布は正規分布に近くなります。

 Seaborn をSNS としてインポートする
scipy から統計をインポート
X1 = 統計. t . rvs ( 自由度= 1サイズ= 4 )
X2 = 統計. t . rvs ( 自由度= 3サイズ= 4 )
X3 = 統計. t . rvs ( df = 9サイズ= 4 )
plt . サブプロット( figsize = ( 8 , 5 ))
sns.kdeplot ( X1 , ラベル= "1自由度" )
sns . kdeplot ( X2ラベル= "3 dof" )
sns.kdeplot ( X3 , ラベル= "6自由度" )
plt . title ( "スチューデントのt分布" )
plt . 凡例()
plt . 表示()

カイ二乗分布

カイ二乗分布はガンマ分布の特殊なケースです。自由度が k の場合、カイ二乗分布は、いくつかの独立した標準正規乱数の k 乗の合計です。

PDFは次のとおりです。

これは、仮説検定や信頼区間の構築によく使用される一般的な確率分布です。

Python でいくつかのサンプルグラフを描いてみましょう。

 X = np . 範囲( 0 , 6 , 0.25 )
plt . サブプロット( figsize = ( 8 , 5 ))
plt.plot ( X , stats.chi2.pdf ( X , df = 1 ), label = "1 dof" ) です
plt.plot ( X , stats.chi2.pdf ( X , df = 2 ), label = "2 dof" ) グラフプロット
plt.plot ( X , stats.chi2.pdf ( X , df = 3 ), label = "3 dof" ) グラフプロット
plt . title ( "カイ二乗分布" )
plt . 凡例()
plt . 表示()

データサイエンスには、統計と確率を適切に理解することが不可欠です。 この記事では、一般的でよく使用されるディストリビューションをいくつか紹介します。お役に立てば幸いです。


<<:  自然言語処理シーケンスモデル - CRF 条件付きランダムフィールド

>>:  あなたの AI は規制に対応できる準備ができていますか?

ブログ    
ブログ    
ブログ    

推薦する

企業がビジネスでAIOpsをどのように活用しているか

AIOps が今日最も人気のある用語の 1 つになったことは間違いありません。厳密に言えば、IT 運...

...

4つの主要な応用分野が開拓され、外骨格ロボットのブルーオーシャンが出現している

現在、ロボット産業の急速な発展に伴い、ロボット製品システムはより完成度が高まり、その用途も多様化して...

IoT生体認証は職場でより大きな役割を果たす

組織はセンサーや監視を通じて職場のセキュリティと従業員の安全性を向上させるために生体認証を使用できま...

高精度地図のデータの問題についてお話ししましょう。地図以外の認識の落とし穴は何でしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

天津市、スマートテクノロジー産業の発展促進に向け多方面から対策

2017年に第1回世界情報会議が開催されて以来、天津では257件のプロジェクトが実施され、1000億...

粒子ロボットの出現はロボットの自己認識覚醒の危機をもたらすかもしれない

11月3日、2019年テンセントサイエンスWEカンファレンスで、世界中の科学者が細胞治療、脳チップ、...

7.4K スター! わずか数分で機械学習モデル用の美しいインタラクティブ インターフェースを生成できます

Gradio は、機械学習やデータ サイエンス関連のデモや Web アプリケーションを構築するための...

AIとブロックチェーンの統合:6つの予測と可能性

今のところ、AI とブロックチェーン技術がもたらす可能性について聞いたことも、気付いていないのであれ...

...

企業の4分の1以上が従業員による生成AIの使用を禁止している

シスコの 2024 年データ プライバシー ベンチマーク調査によると、プライバシーとデータ セキュリ...

...

クラウドベースの生成 AI システムを実行するためのベスト プラクティス

翻訳者 |ブガッティレビュー | Chonglou何だと思う?クラウド コンピューティング カンファ...

スノーフレークアルゴリズムを学ぶのに役立つ記事

[[419666]]序文みなさんこんにちは、パンパンです!これまでは rand と srand を使...