現実の世界には、本質的に統計的であると考えられる現象がいくつかあります (気象データ、売上データ、財務データなど)。 これは、場合によっては、データの特性を記述できる数学関数を通じて自然をシミュレートするのに役立つ方法を開発できたことを意味します。 「確率分布は、実験においてさまざまな結果が発生する確率を与える数学的関数です。」 データの分布を理解することは、私たちの周りの世界をより適切にモデル化するのに役立ちます。 さまざまな結果の可能性を判断したり、イベントの変動性を推定したりするのに役立ちます。 これらすべてにより、さまざまな確率分布を理解することは、データ サイエンスと機械学習において非常に価値のあるものになります。 この記事では、いくつかの一般的な分布を紹介し、Python コードを通じて視覚化して直感的に示します。 均等配分最も単純な分布は均一分布です。 一様分布は、すべての結果が等しく起こる確率分布です。 たとえば、公平にサイコロを振った場合、どの数字が出るかの確率は 1/6 です。 これは離散一様分布です。 しかし、すべての一様分布が離散的であるわけではなく、連続的である場合もあります。 指定された範囲内で任意の実用的な値を取ることができます。 a と b の間の連続一様分布の確率密度関数 (PDF) は次のように表されます。 Python でエンコードする方法を見てみましょう。 numpyをnp としてインポートする ガウス分布ガウス分布はおそらく最もよく聞かれ、よく知られている分布です。 この分布にはいくつかの名前があります。確率プロットが鐘のように見えることからベル曲線と呼ぶ人もいれば、最初にこの分布を説明したドイツの数学者カール・ガウスにちなんでガウス分布と呼ぶ人もいます。また、初期の統計学者がこの分布が何度も繰り返されることに気づいたことから正規分布と呼ぶ人もいます。 正規分布の確率密度関数は次のようになります。 σ は標準偏差、μ は分布の平均です。 正規分布では、平均、最頻値、中央値がすべて等しいことに注意してください。 正規分布するランダム変数をプロットすると、曲線は平均を中心に対称になり、値の半分は中心の左側にあり、残りの半分は中心の右側にあります。 そして、曲線の下の合計面積は 1 です。 ミュー= 0 正規分布の場合。 経験則によれば、データの割合は平均値から一定数の標準偏差の範囲内に収まります。 これらの割合は次のとおりです。
対数正規分布対数正規分布は、対数が正規分布するランダム変数の連続確率分布です。 したがって、ランダム変数 X が対数正規分布する場合、Y = ln(X) は正規分布になります。 これは対数正規分布の PDF です。 対数正規分布するランダム変数は、正の実数値のみを取ります。 したがって、対数正規分布は右に歪んだ曲線を作成します。 Python でプロットしてみましょう: X = np . linspace ( 0 , 6 , 500 ) ポアソン分布ポアソン分布はフランスの数学者シモン・ドニ・ポアソンにちなんで名付けられました。 これは離散確率分布であり、有限数の結果を持つイベントをカウントすることを意味します。つまり、カウント分布です。 したがって、ポアソン分布は、指定された期間内にイベントが発生する可能性のある回数を示すために使用されます。 イベントが時間内に一定の割合で発生する場合、時間内にイベントの数 (n) を観測する確率はポアソン分布で表すことができます。 たとえば、カフェには平均して 1 分あたり 3 人の顧客が訪れるとします。 ポアソン分布を使用して、9 人の顧客が 2 分以内に到着する確率を計算できます。 確率質量関数の式は次のとおりです。 λ は時間単位あたりのイベント率です。この場合は 3 です。 k は発生回数です。この場合は 9 です。ここで Scipy を使用して確率計算を完了できます。 scipy から統計をインポート ポアソン分布の曲線は正規分布に似ており、ラムダがピークを表します。 X = 統計. ポアソン.rvs ( mu = 3 、 サイズ= 500 ) 指数分布指数分布は、ポアソン点過程におけるイベント間の時間の確率分布です。指数分布の確率密度関数は次のとおりです。 λ はレートパラメータであり、x はランダム変数です。 X = np . linspace ( 0 , 5 , 5000 ) 二項分布二項分布は、実験の成功または失敗の確率と考えることができます。 これをコイン投げの確率と表現する人もいるかもしれません。 パラメータ n と p を持つ二項分布は、それぞれが「はい/いいえ」の質問をし、それぞれが成功または失敗というブール結果を持つ n 個の独立した実験のシーケンスにおける成功数の離散確率分布です。 本質的に、二項分布は 2 つのイベントの確率を測定します。 1 つのイベントが発生する確率は p で、他のイベントが発生する確率は 1-p です。 二項分布の式は次のとおりです。 視覚化コードは次のとおりです。 X = np . ランダム. 二項分布( n = 1 、 p = 0.5 、 サイズ= 1000 ) スチューデントのt分布スチューデントの t 分布 (または単に t 分布) は、サンプル サイズが小さく、母集団の標準偏差が不明な場合に、正規分布する母集団の平均を推定するときに発生する連続確率分布のファミリーのメンバーです。 これは、「学生」という仮名を使用していた英国の統計学者ウィリアム・シーリー・ゴセットによって開発されました。 PDFは次のとおりです。 n は自由度と呼ばれるパラメータで、「dof」と呼ばれることもあります。n の値が大きいほど、t 分布は正規分布に近くなります。 Seaborn をSNS としてインポートする カイ二乗分布カイ二乗分布はガンマ分布の特殊なケースです。自由度が k の場合、カイ二乗分布は、いくつかの独立した標準正規乱数の k 乗の合計です。 PDFは次のとおりです。 これは、仮説検定や信頼区間の構築によく使用される一般的な確率分布です。 Python でいくつかのサンプルグラフを描いてみましょう。 X = np . 範囲( 0 , 6 , 0.25 ) データサイエンスには、統計と確率を適切に理解することが不可欠です。 この記事では、一般的でよく使用されるディストリビューションをいくつか紹介します。お役に立てば幸いです。 |
<<: 自然言語処理シーケンスモデル - CRF 条件付きランダムフィールド
>>: あなたの AI は規制に対応できる準備ができていますか?
AIOps が今日最も人気のある用語の 1 つになったことは間違いありません。厳密に言えば、IT 運...
現在、ロボット産業の急速な発展に伴い、ロボット製品システムはより完成度が高まり、その用途も多様化して...
IT Homeは10月12日、Microsoft Translatorが本日、12の新しい言語と方...
組織はセンサーや監視を通じて職場のセキュリティと従業員の安全性を向上させるために生体認証を使用できま...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
2017年に第1回世界情報会議が開催されて以来、天津では257件のプロジェクトが実施され、1000億...
11月3日、2019年テンセントサイエンスWEカンファレンスで、世界中の科学者が細胞治療、脳チップ、...
Gradio は、機械学習やデータ サイエンス関連のデモや Web アプリケーションを構築するための...
今のところ、AI とブロックチェーン技術がもたらす可能性について聞いたことも、気付いていないのであれ...
シスコの 2024 年データ プライバシー ベンチマーク調査によると、プライバシーとデータ セキュリ...
翻訳者 |ブガッティレビュー | Chonglou何だと思う?クラウド コンピューティング カンファ...
[[419666]]序文みなさんこんにちは、パンパンです!これまでは rand と srand を使...