データ サイエンティストが 95% の時間使用する 11 の基本分布

データ サイエンティストが 95% の時間使用する 11 の基本分布

前回のレビュー「データ サイエンティストが 95% の時間に使用する 11 個の基本チャート」に続き、今日はデータ サイエンティストが 95% の時間に使用する 11 個の基本的な分布を紹介します。これらの分布を理解することで、データの性質をより深く理解し、データ分析や意思決定の際により正確な推論や予測を行うことができます。

1. 正規分布

正規分布はガウス分布とも呼ばれ、連続確率分布です。これは、平均 (μ) を中心とし、標準偏差 (σ) を幅とする対称的なベル型曲線です。正規分布は、統計学、確率論、工学など多くの分野で重要な応用価値を持っています。

正規分布の確率密度関数は次のとおりです。

ここで、μ は平均、σ は標準偏差です。確率密度関数は、与えられた値 x の周りの単位区間内の正規分布するランダム変数の値の確率密度を表します。

正規分布の実際の応用: たとえば、人間の身長と体重の分布は正規分布に近く、テストの点数は通常正規分布し、高点と低点の人は少なく、中間の点数の人は多くなります。

2. ベルヌーイ分布

ベルヌーイ分布は、2 つの結果のみの可能性がある単一のランダム実験を記述するために使用される離散確率分布です。ベルヌーイ試行は、表か裏、成功か失敗、はいかいいえなどになります。たとえば、コインを投げる、製品が適格かどうかをテストする、誰かが特定の製品を購入するかどうかなどです。

ベルヌーイ分布の確率質量関数は次のようになります。

ここで、p は成功の確率であり、範囲は 0 から 1 です。 p=0.5 の場合、ベルヌーイ分布は均一分布に近づきます。

ベルヌーイ分布の実際の応用: たとえば、二項分布はベルヌーイ分布の n 回の独立した繰り返し試行です。

3. 二項分布

二項分布は、n 回の独立した繰り返し試行における成功回数の確率分布を表す離散確率分布です。各試行には、成功 (1 で表示) または失敗 (0 で表示) の 2 つの結果のみが可能です。成功の確率は p で、失敗の確率は 1-p です。

二項分布の確率質量関数は次のとおりです。

このうち、P(X=k)はk回の成功の確率を表し、は組み合わせの数、n回の試行からk回の成功を選択する組み合わせの数を表します。 p は成功の確率であり、範囲は 0 から 1 です。 n は試行回数です。

二項分布の実際の応用としては、医療研究においては特定の治療を受けた患者の成功率、工学においては生産工程における製品の合格率などが挙げられます。

4. ポアソン分布

ポアソン分布は、一定時間内にイベントが発生する回数の確率分布を記述するために使用される離散確率分布です。ポアソン分布は、イベントが互いに独立しており、一定の平均率で発生する状況に適用されます。

ポアソン分布の確率質量関数は次のとおりです。

このうち、P(X=k)は一定時間内に事象がk回発生する確率を表し、λは事象の平均発生率、つまり単位時間あたりに事象が発生する平均回数を表します。 e は自然定数で、およそ 2.718 です。 k はイベントが発生する回数です。

ポアソン分布の実際の応用: たとえば、電話コール センターでは、1 分あたりに受信される通話数はポアソン分布と見なすことができ、1 分あたりの平均受信通話数は λ です。

5. 指数分布

指数分布は、一定時間内にイベントが発生する確率を表す連続確率分布です。指数分布は、イベントが互いに独立しており、一定の平均速度で発生する状況に適用されます。

指数分布の確率密度関数は次のようになります。

ここで、f(x,λ)は、与えられた時間x内に発生するイベントの確率密度を表します。 λ はイベントの平均発生率、つまり単位時間あたりにイベントが発生する平均回数を表します。 e は自然定数で、およそ 2.718 です。

指数分布の実際の応用: 放射性崩壊では、放射性原子核の崩壊時間は指数分布とみなすことができ、平均崩壊時間は λ です。

6. ガンマ分布

ガンマ分布は、指定された時間内にイベントが発生する確率を表す連続確率分布です。ガンマ分布は、イベントが互いに独立しており、一定の平均率で発生する場合に適用できます。

ガンマ分布の確率密度関数は次のとおりです。

ここで、f(x) は、与えられた時間 x 内に発生するイベントの確率密度を表します。 α と β はそれぞれ形状パラメータと速度パラメータを表します。 α はガンマ分布の形状を決定し、0 から正の無限大までの範囲になります。 β はイベントの平均発生率、つまり単位時間あたりにイベントが発生する平均回数を表し、その値の範囲は 0 から正の無限大です。 e は自然定数で、およそ 2.718 です。

ガンマ分布の実際の応用:例えば、放射性崩壊:放射性崩壊では、放射性原子核の崩壊時間はガンマ分布とみなすことができ、平均崩壊時間はβ/αです。

7. ベータ分布

ベータ分布は、一連の値における成功数の確率分布を表す連続確率分布です。成功確率の期待値 (平均) と標準偏差を表す 2 つのパラメーターがあります。

ベータ分布の確率密度関数は次のとおりです。

ここで、x は成功数を表し、α と β は分布の形状パラメータを表します。

ベータ分布は多くの実用的な問題に応用されています。たとえば、遺伝子編集では、研究者はベータ分布を使用して、遺伝子編集技術を使用してターゲット サイトを正常に編集できる確率を予測できます。金融では、ベータ分布は資産価格の変動性を説明したり、ポートフォリオの期待収益を計算したりするために使用できます。

8. 均等配分

一様分布は、一定の間隔内で一様に分布する値の集合を表す確率分布です。一様分布には、離散一様分布と連続一様分布の 2 種類があります。

離散一様分布: 離散ランダム変数 X が次の確率分布に従う場合: P(X=k) = k/(n+1)、ここで k は負でない整数、n は区間内の整数、X は離散一様分布に従うと言われます。連続一様分布: 連続ランダム変数 X の確率密度関数が f(x) = 1/(ba)! の場合

一様分布の特徴は、与えられた間隔内で各値が発生する確率が等しいことです。たとえば、公平なコインを投げると、表か裏が出る確率は 1/2 となり、これは一様分布です。

9. 対数正規分布

対数正規分布は連続確率分布であり、ランダム変数の対数が正規分布に従うことによって特徴付けられます。言い換えると、ランダム変数 X の対数 ln(X) が正規分布に従う場合、ランダム変数 X は対数正規分布に従います。

対数正規分布の確率密度関数は次のようになります。

ここで、μ は対数正規分布の平均であり、σ は対数正規分布の標準偏差です。

対数正規分布は、金融(株価、収益など)、生物学(成長率など)、経済学(消費者支出など)など、多くの実用的なアプリケーションで非常に重要です。

10. T分布

T 分布は連続確率分布であり、主に小規模なサンプルの場合の平均の分布を記述するために使用されます。 t 分布は正規分布に似ていますが、自由度 (k) の数に応じて、その裾が左または右に伸びることがあります。 t 分布は、統計的推論、たとえば標本平均と母集団平均の差の重要性を評価するための仮説検定で広く使用されています。

t 分布の平均と分散は次のとおりです。

E(t)=0

Var(t)=k/(k-1)

t 分布の自由度 (k) は、サンプル サイズ (n) と母集団の標準偏差の関係を表します。 k > 30 の場合、t 分布は正規分布に近づきます。k が 1 に近づくと、t 分布はコーシー分布になります。

実際のアプリケーションでは、サンプル サイズが大きい場合 (n>30)、正規分布を仮説検定に使用し、z 統計量を使用して信頼区間を構築できます。サンプルサイズが小さい場合 (n<30)、正規分布の仮定が満たされないため、テストには t 分布が必要になります。 t 分布を使用すると、標本平均と母集団平均の差をより正確に評価し、合理的な決定を下すことができます。

11. ワイブル分布

ワイブル分布は連続確率分布です。

ワイブル分布の確率密度関数は次のとおりです。

ここで、x はランダム変数、λ はスケール パラメーター、k は形状パラメーターであり、k = 1 の場合、ワイブル分布は指数分布になります。 λ=1 の場合、最小化されたワイブル分布と呼ばれます。

<<: 

>>:  ワークフローをよりスマートにする 5 つの AI ツール

ブログ    
ブログ    
ブログ    

推薦する

...

エッジAIとクラウドAIのバランスを見つける

エッジ AI により、ローカライズされた処理を通じてリアルタイムの機械学習が可能になり、即時のデータ...

自動運転車向けエッジAIコンピューティングの可能性

自動運転はエッジコンピューティングの重要な応用分野です。自動運転には100~1000TOPSのエッジ...

...

自動運転の時代が加速するにつれ、支援システムは自動車の標準装備になるかもしれない

近年、自動運転分野で優位に立ち、自動車産業の発展の主導権を握るために、多くの国が自動運転の路上テスト...

新しい展開のアイデア | Minuet: GPU での 3D スパース畳み込みの高速化

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能は社会統治の近代化を効果的に促進できる

現在、人類は急速に人工知能の時代に突入しています。人工知能技術の急速な発展、モノのインターネット、ビ...

...

...

父親が8歳の娘にディープラーニングを説明する:11の事実

「ニューラル ネットワークは数を数えるのと同じくらい簡単です」、「畳み込み層は単なるバット シグナル...

...

将来の顔認識技術の最大の問題は、それがほぼ間違いのないものであることだ

近年、顔認識技術は、女性や有色人種の誤検出率の高さや、個人の自由やプライバシーへの悪影響など、常に世...

...

...

...