求连续数据概率分布

推迟几分钟?
朱莉是一名学生,她最好的朋友不断的安排她相亲,如果等待了20分钟对方还不来,她就离场.计算她等待5分钟以上的概率.

我们需要求连续数据概率分布
我们需要求出这种情况的概率:朱莉为了见到约会对象而等待5分钟以上.问题是,朱莉的等待时间是连续数据,也就是说,我们前面学过的概率分布在这里并不适用.

处理离散数据时,我们可以找出特定的概率分布.为此,我们可以将每个数值的概率列于表格,也可以指出数据符合某个特定概率分布(例如二项分布或泊松分布),通过这些做法,可以确定每一个可能数值的概率.例如,在我们求出肥弹赌场每一台老虎机的每局收益概率分布后,我们就知道所有可能赢得的金额,还能算出每一种赢钱金额的概率.

连续数据则是另一番情形,我们再也无法给出每一个数值的概率,因为我们不可能列举每一个精确数值.例如,朱莉的约会可能4分钟以后出现,在4分钟10秒出现,或在4分钟10.5秒出现,我们不可能数清楚所有的可能时间.相反,我们需要关心的是一个特定精度水平,以及取得一个数值范围的概率.

概率密度函数可用于描述连续数据
我们可以用概率密度函数描述连续随机变量的概率分布.
概率密度函数f(X)是这样一种函数:通过它可以求出一个数据范围内的某个连续变量的概率,它向我们指出概率分布的形状.

概率的实质是告诉我们事情发生的可能程度,而频数告诉我们数值出现的频繁程度.频数越高,数值出现的概率越大.由于在最初20分钟内,朱莉的等待事件的频数为常数,这意味着概率密度函数也是常数.

概率=面积
连续随机变量的概率通过面积表示,为了求出一个特定的数值范围的概率,首先可画出概率密度函数,位于函数图形下方且介于这个特定数值范围之间的面积就是这个特定数值范围概率.
例如,我们想求出朱莉为了见到约会对象而等待5~20分钟的概率,可以画出概率密度函数,再求出位于这个概率密度函数下方且x值介于5~20之间的面积.

线下总面积必须等于1,因为总面积代表总概率–对于任何概率分布来说,总概率必须等于1,因此面积也必须等于1.
让我们利用这张图求出,朱莉为了见到约会者而需要等待5分钟以上的概率.

欲算概率,先求f(x)…
在为朱莉算出概率之前,我们需要求的f(x),即概率密度函数.
我们已知知道f(x)是一个常数,也知道这个函数下方的总面积等于1.观察f(x)的图形可知,图形下方是一个矩形,底宽为20.只要求矩形的高,就可以得出f(x)的数值.

矩形的面积等于宽乘以高,即:
1=20x高
=1/20
=0.05
这意味着f(x)必须等于0.05,才能确保线下面积等于1.即:
f(x)=0.05(其中x的值介于0~20之间)
求出概率密度函数后,就可以求P(X>5)了

再求面积,可得概率
概率密度线下方介于5~20之间的区间是一个矩形,于是算出矩形面积将能得出概率P(X>5)
P(X>5)=(20-5)x0.05
=0.75
所以,朱莉等待5分钟以上的概率为0.75

这种做法不使用连续概率
对于连续概率,我们必须通过计算概率密度曲线下方的面积得出概率.不能通过把数值范围内的每一个数值的概率相加得出概率分布的概率,原因是数值个数无穷无尽,因此求和计算也会无休无止.
对于连续概率分布的概率,唯一的办法是算出由连续概率函数形成的曲线下方面积.