概率论中的基本概念

  |   0 评论   |   969 浏览

随机

统计规律性

在所有可观察的现象中,可以从大的方面分为两类——必然现象和随机现象。

必然现象

确定无疑会发生的现象,如果我们完全认识了它们的内在规律,那么在发生之前就是可以完全准确的预测出结果。物理学中各种定律描述的基本上都是必然现象,比如物体会因为重力而从高处下落,某一时刻地球位于太阳系中的位置。

随机现象

不确定是否会发生的现象。它的不确定性表现在,事先无法准确的预测其结果。唯一可以获得这类现象的结果的办法是等到它们发生之后。最典型的例子就是抛硬币。抛一枚均匀的硬币之前,已知结果只有正面和反面两种,但是无法知道到底会是哪一面。生活中还有很多这样的事情,比如说,跟喜欢的人表白;明天是否会下雨等。可以看到,这些现象单次发生的时候,是毫无规律可循的。

统计规律性

正是有了必然现象和随机现象这两种现象,才让这个世界既可以被认识,又不至于完全可以被预测(那不知道会多无聊)。但当我们在相同的条件下,大量重复(如果可以的话)做某件不确定的事,然后统计实验结果,就有可能发现某种规律。

还是拿抛硬币来举例,每次抛硬币都不知道会得到正面还是反面,但如果有耐心将一枚均匀的硬币抛20,000次,然后统计一下正反面分别出现了多少次,就可以发现它们差不多都是10,000次,也就是差不多各占50%。上面的抛硬币的例子中,随机现象(抛硬币)在相同的条件下,大量重复试验中呈现的规律性就叫做统计规律性。《概率论与数量统计》就是研究随机现象的统计规律的一门学科。从这里也可以看到样本量的多少对研究随机变量的规律的影响是巨大的。

随机试验

对随机现象的观察、记录、实验统称为随机试验。它具有以下特性:

  • 可以在相同条件下重复进行;

  • 事先知道所有可能出现的结果;

  • 进行试验前不知道哪个试验结果会发生。

随机试验有很多种,例如常出现的掷骰子,摸球,射击,抛硬币等。

所有的随机试验的结果可以分为两类来表示:

  • 数量化表示:射击命中的次数,商场每个小时的客流量,每天经过某个收费站的车辆等,这些结果本身就是数字;

  • 非数量化表示:抛硬币的结果(正面/反面),化验的结果(阳性/阴性)等,这些结果是定性的,非数量化的。但是可以用示性函数来表示,例如可以规定正面(阳性)为1,反面(阴性)为0,这样就实现了非数量化结果的数量化表示。

样本空间

随机试验的所有可能结果构成的集合。一般即为S(大写的S)。

S中的元素e称为样本点(也可以叫做基本事件);

事件是样本空间的子集,同样是一个集合;

随机事件

在一定条件下,可能发生,可能不发生的事件叫做随机事件。例如我们抛硬币就是一个随机事件

随机变量

是指随机事件的数量表现,是一个随机试验中得到的一系列可能的结果值。

随机变量类型

离散型随机变量(discrete random variables)

特点是CDF取值离散(离散点显然至多可数),呈分段常数函数状。不存在PDF。但是存在PMF

例如:X等于0或1,概率各为二分之一

绝对连续型随机变量(absolutely continuous random variables)

特点是CDF几乎处处连续,几乎处处可导,且微积分基本定理适用。

绝对连续型随机变量都存在PDF分布密度函数),且只有绝对连续型随机变量存在PDF

奇异(连续)型随机变量(singular continuous / singular random variables)

特点是CDF几乎处处连续,但没有绝对连续的成分。当然也没有离散成分。微积分基本定理不能适用,虽然随机变量是连续随机变量,但仍然不存在PDF。当然也不存在PMF。

例如:X服从Cantor分布。此类分布较少见。

表示随机变量的方法

概率密度函数(probability density function, PDF)

表示随机变量每个取值有多大的可能性。

密度函数是分布函数的导数

PDF图形下方的面积=1

正态分布的概率密度函数

1.png

概率质量函数(probability mass function, PMF)

表示离散随机变量在各特定取值上的概率

image.png


和概率密度函数不同之处

  • 概率质量函数是对离散随机变量定义的,本身代表该值的概率;

  • 概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率。

累积分布函数(cumulative distribution function ,CDF)

又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。

是一种概率上更加清楚的方法,但是非专业人士看起来不直观

指随机变量X小于或等于x的概率

Φ(x)一定为单增函数

min(Φ(x))=0, max(Φ(x))=1

2.png

随机变量的期望

给定概率分布下的均值

加权均值,权重就是概率

函数期望

所有函数的值有一个概率,把概率值乘起来就是函数期望

概率

对概率的认识

概率的本质是用数值表示某件事情发生的可能性。给出了概率线,让你对各类事件发生的概率有了大致的认识。

P(x)∈[0,1]

P=0: 事件出现的概率为0→事件不会发生?

若x为离散/连续变量,则P(x=x0)表示x0发生的概率/概率密度

求概率的办法

统计频率

寻找这个行业里的权威机构或者网上查资料去了解,一般会有前人计算出的概率给你参考。如飞机的安全性、座位的存活率

用数据分析来计算出事件发生的数目,然后除以总数目。如计算林志玲脸被高尔夫球打破的的保费

贝叶斯方法

概率有什么用

虽然概率并不会确凿地告诉我们将会发生什么,但我们通过计算概率能够知道很有可能发生什么、不太可能发生什么。

聪明的人会使用这类数据为自己的事业,生活,和投资指明方向。牛人就是持续对大概率事件下注,并同时有意识预防那些足以毁掉你生活的风险。

联合概率

表示两个事件共同发生的概率。A与B的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)。

image.png

边缘概率

边缘概率是某个事件发生的概率。

边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。

x的边缘概率表示为P(x),y的边缘概率表示为P(y)。

条件概率(英语:conditional probability)

是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。

给定联合概率分布式,固定某一方向,来求条件概率

image.png

读后有收获可以支付宝请作者喝咖啡