一盒大包装糖球可供人分享,每一盒装有100粒糖球;糖球总一种有25%是红色的.
我们需要求一大盒糖球中有40颗或40颗以上红色糖球的概率.
由于一大盒糖球的容量为100颗,也就是说我们要求出在一大盒特定糖球中红色糖球占40%的概率,且已知糖球总体的25%是红色的.
这和抽样有什么关系?
这一次,情况有所不同–总体参数已知,需要为某一盒特定糖球计算概率.也就是说,在这里要算的不是总体的概率,而是样本比例的概率.
这一次我们需要为样本计算概率,而不是为总体计算概率.
我们并不计算取得概率分布中的某个特定频数或特定数值的概率,而是要计算样本比例本身的概率–我们要算出在一个整体中出现一种特定比例的概率.
1.查看与我们的特定样本大小相同的所有样本
2.观察所有样本形成的分布,然后求出比例的期望和方差
3.得出上述比例的分布后,利用该分布求出概率
比例抽样分布
让我们先看糖球总体,已知总体中红色糖球的比例,用p表示,即p=0.25
每一大盒糖球其实就是从糖球总体中取出的一个样本.每一大盒装有100颗糖球,因此样本大小为100,让我们用n表示这个大小.
如果用随机变量X代表样本中的红色糖球的数目,则X~B(n,p),其中n=100,p=0.25
样本中的红色糖球的比例取决于X–样本中的红色糖球的数目,即比例本身是一个随机变量,可以将此记作Ps,且Ps=X/n
可以取出的大小为n的可能样本为数众多.每一个可能样本会包含n粒糖球,每一盒样本中的红色糖球的数量会符合相同的分布–对于每一个样本,红色糖球的数量符合B(n,p),成功比例则为X/n
利用所有可能的样本,我们能得出所有样本比例的分布,该分布称作”比例的抽样分布”,或者称作”Ps的分布”
利用比例的抽样分布,能够求出某一个随机选择的,大小为n的样本的”成功比例”的概率
也就是说,我们能够利用比例的抽样分布求出”某一大盒糖球中的红色糖球比例至少为40%”的概率
不过,在此之前,我们需要知道上述分布的期望和方差
Ps的期望是多少?
前面讲到,我们可以通过所有可能取用的,大小为n的样本的各个比例形成的一个分布,为了能够用这个分布计算概率,我们还需要了解更多有关这个分布的数据–有其需要知道方差和期望.
让我们先考虑期望,出于直觉,我们会期望样本中的红色糖球的比例与总体中的红色糖球的比例保持一致,如果糖球总体中包含25%的红色糖球,那么,可以期望样本中也包含25%的红色糖球.
那么Ps的期望是应该如何计算?
我们想求E(Ps),其中Ps=X/n,也就是说,我们想求出所期望的样本比例数值,这里的样本比例等于红色糖球的数量除以样本糖球的总数量,即:
E(Ps)=E(X/n)=E(X)/n
上式中的X为样本中的红色糖球数目,如果我们把红色糖球数目视为”成功数目”,则X~B(n,p)
在二项分布已经讲过:E(X)=np,于是:
E(Ps)=E(X)/n=np/n=p
这个结果正好符合我们直觉中的期望,我们可以期望样本的成功比例与总体的成功比例一致.
Ps的方差是多少?
为了能股求出任何样本比例的概率,我们还需要先知道Ps的方差–可以用求期望的相似方法求方差.
那么Var(Ps)是多少?让我们像以前一样从Ps=X/n开始
Var(Ps)=Var(X/n)=Var(X)/n²
如上所述,X为样本中的红色糖球的数目,如果我们将红色让球的数目视为”成功数目”,则X~B(n,p),于是Var(X)=npq,即二项分布的方差.得到:
Var(Ps)=Var(x)/n²=npq/n²=pq/n
取方差的平方根,可得Ps的标准差,它指出样本比例与p的可能差距,有时候我们将它称为”比例标准误差”,因此它能指出样本比例的可能误差
比例标准误差=根号(pq/n)
n越大,比例标准误差越小,也就是说,样本中包含的对象越多,用样本比例做为p的估计量就越可靠.
现在,如何用所求的的期望和方差计算比例的概率呢?
求解Ps的分布
我们在前面求出了Ps–比例的抽样分布的期望方差,我们发现,如果通过所有样本比例形成一个分布,则:
E(Ps)=p
Var(Ps)=pq/n
我们可以借助以上结果求出”大小为100的样本中红色糖球的比例至少为40%”的概率
Ps符合正态分布
当n很大时,Ps的分布接近正态分布,所谓”很大”是指大于30.n越大,Ps的分布越接近正态分布.
我们已经求得Ps的期望期望和方差,也就是说,当n很大的时候:
Ps~N(p,pq/n)
由于在n>30的时候Ps符合正态分布,所有可以用正态分布解答我们的糖球问题,我们可以用正态分布计算”某一大盒糖球中的红色糖球比例至少为40%”的概率
只是有一件事别忘了:需要对抽样分布进行连续性修正
Ps–需要进行连续性修正
每个样本的”成功数目”都是离散的,由于使用”成功数目”计算比例,因此在用正态分布计算概率是,需要进行连续性修正.
我们前面讲过,如果用X表示样本中的成功数目,则Ps=X/n;X的正态连续性修正为正负(1/2)
如果我们用以上数值替代公式Ps=X/n中的X,则:
连续性修正=正负(1/2)/n=正负1/2n
最后我们开始进行计算:
p表示盒中红色糖球的概率即p=0.25
ps表示盒中红色糖球的比例
Ps~N(p,pq/n),其中p=0.25,q=0.75,且n=100,由于pq/n=0.25×0.75/100=0.001875,得到:
Ps~N(0.25,0.001875)
求P(Ps≥0.4)的数值
P(Ps≥0.4)=P(Ps>0.4-1/(2×100)) — 连续性修正
=P(Ps>0.395)
由于Ps~N(0.25,0.001875),我们需要求出0.395的标准分,这样就能在概率表中查找结果,于是:
Z=0.395-0.25/根号(0.001875)
=3.35
P(Z>z)=1-P(Z<3.35)
=1-0.9996
=0.0004
即一盒100粒装的糖球中,红色糖球至少为40%的概率是0.0004.