随机变量的概率分布

  |   0 评论   |   2,880 浏览

概率分布的定义

概率定义

设P为概率测度,X为随机变量,则函数F(x)=P(X≤x)(x∈R}称为X的概率分布函数。如果将X看成是数轴上的随机点的坐标,那么,分布函数F(x)在x处的函数值就表示X落在区间(-∞ ,x]上的概率。

如果在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率,则如下图所示

3.jpg

伯努利实验与泊松过程

伯努利实验

探究不连续的实验(n)中,关于不连续的发生次数(k)的分布

泊松过程

探究连续的时间(t)或者变化中,关于不连续的发生次数(k)的分布

概率分布的类型

4.jpg

根据随机变量的类型的不同,可以将概率分布区分为如下两种

离散概率分布

我们关心的是取得一个特定数值的概率。例如抛硬币正面向上的概率为:p(x=正面)=1/2

连续概率分布

我们无法给出每一个数值的概率,因为我们不可能列举每一个精确数值。

对于像时间这样的连续型数据,你更关心的是一个特定范围的概率是多少。

离散概率分布

伯努利分布(The Bernoulli Distribution)

最简单的01的离散分布

若伯努利试验成功,则伯努利随机变量取值为1。若伯努利试验失败,则伯努利随机变量取值为0。记其成功概率为p(0≤p≤1),失败概率为q=1-p

其概率质量函数为

5.png

二项分布(Binomial Distribution)

是n个独立的成功/失败试验中成功的次数的离散概率分布。

每一次trail是一个伯努利分布,所有实验合在一起,出现你期望的结果的概率分布

其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n = 1时,二项分布就是伯努利分布。

image.png

概率质量函数

6.jpg

  • n 表示总场数

  • x 表示有利场数

  • p 表示有利场合发生的概率

  • 7.jpg

组合数的计算

8.jpg

9.png

累积分布函数

image.png

其中[x]是小于或等于x的最大整数

18.png

期望

E(x)=np (表示某事情发生n次,预期成功多少次。)

作用

做任何事情之前,知道预期结果肯定对你后面的决策有帮助。

比如你抛硬币5次,每次概率是1/2,那么期望E(x)=5*1/2=2.5次,也就是有大约3次你可以抛出正面。

比如你之前投资的那5支股票,假设每支股票帮你赚到钱的概率是80%,那么期望E(x)=5*80%=4,也就是预期会有4只股票投资成功帮你赚到钱。

如何判断二项分布

  • 做某件事的次数(也叫试验次数)是固定的,用n表示

    • 例如抛硬币3次,投资5支股票

  • 每一次事件都有两个可能的结果(成功,或者失败)

    • 例如每一次抛硬币有2个结果:正面表示成功,反面表示失败

    • 每一次投资美股有2个结果:投资成功,投资失败

  • 每一次成功的概率都是相等的,成功的概率用p表示

    • 例如每一次抛硬币正面朝上的概率都是1/2。

    • 你投资了5家公司的股票,假设每一家投资盈利成功的概率都相同

抽样方法

二项分布是建立在有放回抽样的基础上的,也就是抽出一个样品测量或处理完后再放回去,然后抽下一个

在实际的工作中通常我们很少会这样抽,一般都属于无放回抽样,这时候需要用超几何分布来计算概率

当总体的容量N不大时,要用超几何分布来计算,如果N很大而n很小,则可以用二项分布来近似计算,也就是可以将无放回抽样近似看出有放回抽样

至于n要小到什么程度,有的书上说n/N小于0.1就可以了,有的书上则要求小于0.05

二项分布的正态近似

在大样本的情况下,二项分布的计算会很麻烦,这时可以采用正态分别来近似,其条件是np和n(1-p)都大于5。采用正态分布的参数为

12.jpg

举例

抛硬币10次,出现6次“花”的概率为0.25,出现5次“花”的概率为0.21,所有的可能的结果(比如抛硬币10次,出现11次“花”,这就是不可能)的概率,放在一起就是二项分布

硬币抛10次,为出现“花”的概率

多项式分布(Multinomial distribution)

多项分布是二项分布的推广。对于n个独立的试验,每个试验都导致k个类别中的一个成功,每个类别具有给定的固定成功概率,多项分布给出了各种类别的成功数量的任何特定组合的概率。

当k为2且n为1时,多项分布为伯努利分布。当k为2且n大于1时,它是二项分布。当k大于2且n为1时,它是多项分布。

例如掷n次具有k面的骰子

概率质量函数

image.png

gamma函数表示

image.png

gamma函数是阶乘的扩展,在整个实数域的延申

2.pnggamma函数计算方法

image.png


泊松分布(Poisson Distribution)

定义

在泊松过程中,到时刻 t 位置, t 时间内发生有利场合的频率是λt ,我们直接把这个λt 作为一个整体参数λ,就得到了一般的泊松分布表达式,这时成功的次数服从泊松分布

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。

λ代表事件发生概率的均值

如何判断

  • 一个事件的发生不影响其它事件的发生,即事件独立发生

    • 类似抽奖这样的就是独立事件

  • 事件的发生率是相同的,不能有些区间内发生率高一些而另一些区间低一些

    • 1天内中奖概率,与第2天内中间概率相同

  • X是在一个区间(时间、空间、长度、面积、部件、整机等等)内发生特定事件的次数,可以取值为0,1,2,…;

  • 两个事件不能在同一个时刻发生

  • 一个区间内一个事件发生的概率与区间的大小成比例

概率质量函数

1.jpg

  • X就是泊松随机变量

  • x是在一个区间(时间、空间、长度、面积、部件、整机等等)内发生特定事件的次数,可以取值为0,1,2,…

  • λ>0是常数,是单位时间(或单位面积)内随机事件的平均发生率

2.png

横轴是索引k,发生次数。该函数只定义在k为整数的时候。连接线是只为了指导视觉。

累积分布函数

3.png

横轴是索引k,发生次数。CDF在整数k处不连续,且在其他任何地方都是水平的,因为服从泊松分布的变量只针对整数值。

泊松分布小结

泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量n必须很大。比如一个产品存在瑕疵的数量,广深高速每天出现交通事故的数量,放射性物质在单位时间内的放射次数,一匹布中疵点的数量等等,等等

泊松分布有一个很好的性质,即如果把大区间分成若干个小区间,或者若干个小区间合并成1个大区间,则随机变量仍然服从泊松分布,其均值就变成为λ/k或λ×k,其中k为分解或合并的区间数量

比如交警部门在研究广深高速上车辆事故次数时,发现每天的事故次数太少了,经常是0次、1次,偶尔有2次,这样就可以考虑以周为单位来统计,如果仍嫌少,则可以考虑以月为单位。这样就可以把数据放大到利于分析

泊松分布通常也用于二项分布的近似计算

当n很大,而p很小时,在没有计算机时,二项分布的计算是非常麻烦的,而用泊松分布来近似计算可以降低大量的计算量。近似时,λ=np

用途

某个时间范围内,发生某件事情x次的概率是多大

你搞了个促销抽奖活动,只知道1天内中奖的平均个数为5个,你想知道1天内恰巧中奖次数为7的概率是多少?

此时x=7,λ=5(区间内发生的平均次数),代入公式求出概率为10.44%

已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少?

假定不存在季节因素,可以近似认为,这个问题满足以下三个条件:

  1. 顾客购买水果罐头是小概率事件。

  2. 购买水果罐头的顾客是独立的,不会互相影响。

  3. 顾客购买水果罐头的概率是稳定的。

根据公式,计算得到每周销量的分布

4.jpg

从上表可见,如果存货4个罐头,95%的概率不会缺货(平均每19周发生一次);如果存货5个罐头,98%的概率不会缺货(平均59周发生一次)

普鲁士军队偶然被马伤踢而致死的士兵数量

计算普鲁士军队十四个军团部中偶然被马伤踢而致死的士兵数量

这 20×14= 280个(团年)纪录,按死亡人数来分,则如下表的左二栏所示

5.jpg

在280个团年记录中,死亡的人数共有196,因此致死率为α=196/280=0.7(人/团年)。 因为单位是1团年,所以λ=α×1=0.7,我们就以此λ为泊松分布中的常数

理想中每团每年死亡人数x要遵循泊松分布p(x;0.7)

表中右栏就是根据这样的泊松分布,把280团年该有x人死亡的团年数列出。可以看到,右边两列的数据相当吻合


几何分布(Geometric Distribution)

定义

指的是以下两种离散型概率分布中的一种:

  1. 在伯努利试验中,得到一次成功所需要的试验次数X。X的值域是{ 1, 2, 3, ... }

  2. 在得到第一次成功之前所经历的失败次数γ = X - 1。γ的值域是{ 0, 1, 2, 3, ... }

实际使用中指的是哪一个取决于惯例和使用方便。

概率质量函数

如果每次试验的成功概率是p,那么k次试验中,第k次才得到成功的概率是,

6.jpg

其中x = 1, 2, 3, ....

另一种形式,也就是第一次成功之前所失败的次数,可以写为image.png


其中k = 0, 1, 2, 3, ....

7.png

累积分布函数

8.png

如何判断

  • 做某件事的次数(也叫试验次数)是固定的,用n表示

    • 例如抛硬币3次,投资5支股票

  • 每一次事件都有两个可能的结果(成功,或者失败)

    • 例如每一次抛硬币有2个结果:正面表示成功,反面表示失败

    • 每一次投资美股有2个结果:投资成功,投资失败

  • 每一次成功的概率都是相等的,成功的概率用p表示

    • 例如每一次抛硬币正面朝上的概率都是1/2。

    • 你投资了5家公司的股票,假设每一家投资盈利成功的概率都相同

用途

计算进行x次尝试这个事情,取得第1次成功的概率是多大

  • 例如你在玩抛硬币的游戏,想知道抛5次硬币,只有第5次(就是滴1次成功)正面朝上的概率是多大。

  • 你表白你的暗恋对象,你希望知道要表白3次,心仪对象答应和你手牵手的概率多大。)

连续概率分布

指数分布(Exponential Distribution)

可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等。

概率密度函数

image.png

其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间发生该事件的次数。指数分布的区间是[0,∞)。 如果一个随机变量X 呈指数分布,则可以写作:X ~ Exponential(λ)

image.png

9.png

累积分布函数

10.png

均匀分布(Uniform Distribution)

一般指连续型均匀分布

均匀分布具有下属意义的等可能性。若 X ~ U[a,b],则X落在[a,b]内任一子区间[c,d]上的概率:

image.png

只与区间[c,d]的长度有关,而与他的位置无关。

概率密度函数

image.png

Uniform_distribution_PDF.png

累积分布函数

image.png

12.png

正态分布(Normal/Gaussian Distribution)

又名高斯分布(英语:Gaussian distribution)

概率密度函数

若随机变量X服从一个位置参数为μ、尺度参数为σ的正态分布,记为:

image.png

则其概率密度函数为

image.png

13.png

累积分布函数

image.png

14.png

拉普拉斯分布(Laplace Distribution)

概率密度函数

Laplace_distribution_pdf.png

累积分布函数

15.png

Γ分布(gamma分布)

表示从0到+∞上的函数分布

伽玛分布中的参数α,称为形状参数,β称为尺度参数。

概率密度函数

image.png

函数图像

3.png

累积分布函数

4.png

β分布(Beta Distribution)

可以生成[0~1]之间的分布,如碗型曲线

概率密度函数

16.png

累积分布函数

17.png

读后有收获可以支付宝请作者喝咖啡