用正态分布近似代替二项分布

在40个问题(4选1)中答对30个问题的概率是多少呢?

使用二项分布会带来繁重的工作
为了求出答对30题以上的概率,我们需要把11个单独算得的概率加起来–其中每一个概率都来之不易,计算过程中极易出错.
我们需要找到一个更简便的算法计算二项分布.

在某些情况下,泊松分布可以近似代替二项分布,不过,在另一些情况下,正态分布也可以近似代替二项分布.
懂得用其他分布近似代替二项分布十分有用,他能化繁为简.在某些情况下,泊松分布可以帮助我们计算一些繁杂难解的概率.

在另一些情况下,则可以利用正态分布代替二项分布.这样做好处极大,我们可以用正态概率表方便的查找要求解的概率,从而免去种种计算.

何时用正态分布近似代替二项分布
在某些情况下,二项分布的形状看上去和正态分布的形状十分相似,在这样的情况下,我们可以用正态分布代替二项分布,得出与二项分布的概率极其近似的结果.我们可以不再大量计算单个概率,而是在标准概率表中查找整个范围的概率.

那么在哪些情况下可以这么做呢?
一般说来,当np和nq双双大于5时,可以用正态分布近似代替二项分布.

求解均值和方差
为了能用正态概率表查找概率,我们需要知道均值和方差,以便算出标准差.均值和方差可以直接从二项分布得出,在最初讲到二项分布时,我们发现:

μ=np 且 σ²=npq

我们可以把以上数值做为正态分布的参数

两种概率计算方法得出了截然不同的结果
在应用正态分布解决40个问题之前,让我们先用一个简单问题验证一下这样方法的有效性.

通过二项分布进行计算,即求出P(X<6),其中X~B(12,0.5) 得到 0.387
通过正态分布算得的结果为0.5
两者的结果不够接近.

再谈正态相似
错在哪里?让我们仔细研究这个问题,看看能否发现蹊跷,能否相处办法进行处理.
首先看概率分布X~B(12,0.5),我们想求出答对的问题不足6个的概率,并已通过计算P(X<6)获得答案.
然后我们用X~N(6,3)对这个分布进行近似,根据需要,为了求出二项分布的概率P(X<6),我们用正态分布计算P(X<6)

进一步仔细关键两种概率分布,虽然不易察觉,但两者之间确实存在重大差别:我们分别用于计算两个概率的两个范围略有不同.在计算正态分布的时候,我们使用的实际范围略微大一些,这正式概率变大的原因.

二项分布是离散分布,正态分布则是连续分布
我们在对前面的两种概率进行计算时,忽略了一件事–没有考虑到其中一种分布是离散分布(二项分布),而另一种分布是连续分布(正态分布).这很重要,因为我们所用的概率范围会大大影响最终概率.

当我们送一个离散概率分布中取出一些整数,并将这些整数转化为连续标度时,我们所观察的并不仅仅是哪些精确的孤立数值,相反,我们观察的是由多个数字形成的范围,这些数字经过取整,得到的正是我们取用的哪些精确的离散整数.

让我们以离散数值6为例,当我们将数字6转化为一个连续标度时,我们需要考虑所有去整后等于6的数字,即从5.5到6.5的整个数字范围.

这对于我们的概率问题有什么影响呢?
此前我们试着用正态分布近似计算答对题数在6以下的概率时,没有注意到离散数值6转变成了连续标度.可实际上,离散数值6包含了从5.5到6.5之间的一个范围,因此,我们不应该计算P(X<6),而应该试着计算P(X<5.5).
这样调整被称为连续性修正.在将离散数值转换为连续标度时,所作的小幅度调整就是连续性修正.

在计算近似值之前先进行连续性修正
让我们试着求出P(X<5.5),其中X~N(6,3),看看这个概率与答对5题或5题以下的概率的近似值程度如何.之前我们已经利用二项分布求出目标概率为0.387左右.

我们想求P(X<5.5),其中X~(6,3),让我们先算标准分.
z=x-μ/σ
=-0.29
查找标准正态概率表,得到概率0.3859,即P(X<5.5)=0.3859

这个概率和我们用二项分布求的概率十分近似–之前用二项分布算得的概率为0.387,因此正态分布得到的是十分近似的结果.