有多少糖球

每一个小包包装袋里的糖球数目均值为10,方差为1.麻烦来了,有一位顾客买了30袋糖球,结果发现每袋糖球中的糖球平均数为8.5

求这种事发生概率有多大?

我们需要求样本均值的概率
这个问题与前面的问题略有不同,我们已知小包装糖球的总体均值和方差,然后抽取了几袋糖球作为样本,需要为该样本计算概率.这一次,我们不需要计算样本比例的概率,而要计算样本均值的概率.

为了计算样本均值的概率,先要得出样本均值的概率分布:
1.查看与我们研究的样本大小相同的所有可能样本
2.查看所有样本形成的分布,求出样本均值的期望和方差
3.得知样本均值的分布后,用该分布求出概率

均值的抽样分布
我们如何求样本的均值的分布?让我们从袋装糖球的总体开始.我们已知中一的均值和方差,并用μ和σ²表示,一个包装袋中的糖球数量可以用X表示.

随机选择的每一袋糖球都是X的一个独立观察结果,因此,每一袋糖球都符合相同的分布.即,如果用Xi代表随机选择的一袋糖球中的糖球数量,则每个Xi的期望都是μ,方差都是σ².

现在,让我们取n包糖球做为样本,我们可以表示从X1到Xn的包装袋中的糖球数量,每个Xi都是X的一个独立观察结果,于是它们遵守相同的分布;每一个Xi的期望都是μ,方差都是σ²

我们可以用x-表示这n袋糖球的容量均值,x-的数值取决于n袋糖球中的每一袋糖球的容量,计算时,要将所有糖球的数量加起来,再除以n.

可以取出的大小为n的可能样本为数众多.每一个可能样本都包含n袋糖球,即每一个样本都包含X的n个独立观察结果;每一个随机选择的包装中的糖球数量都遵循正态分布;我们以相同的方法计算每一个样本的糖球数量均值.

我们可以利用从所有可能样本得出的所有样本均值形成一个分布,叫做”均值的抽样分布”,或叫做x-的分布.

均值的抽样分布为我们提供了一种计算样本均值的概率的方法
为了计算任何一个变量的概率,先要知道这个变量的概率分布,所以,若要计算样本均值的概率,就需要知道样本均值的分布.我们的例子是这样的,在一个有30袋糖球的样本中,求糖球数目的均值小于等于8.5的概率

和比例的抽样分布一样,为了能够动手计算概率,先要知道分布的期望和方差.

求x-的期望
前面讲过如何构建均值的抽样分布,即考虑所有大小为n的可能样本,然后用这些样本的均值形成一个分布.
为了能用分布求出概率,先要求出x-的期望和方差,让我们先求E(X-),这里的X-是样本中的每一袋糖球的容量均值,即:

x-=x1+x2+x3…+xn/n

其中X1代表第i袋糖球的容量,我们可以利用它求出E(X-)

即,只要我们知道每一个x1的期望,就能得出E(X-)的表达式.
这里的每一个Xi都是X的一个独立观察值,且我们已知E(X)=μ,也就是说,可以用μ代替上式的各个E(xi)

x-的方差是多少?
前面得出了E(x-)的算法,不过,在计算样本均值的概率之间,我们还需要求出Var(X-),这样就能朝着X-的分布再迈进一步

x-的分布不同于x的分布
x代表一个包装袋中的糖球数量,我们已知一个包装袋中的糖球数目均值,且已知方差.
x-代表一个样本的糖球容量均值,因此x-的分布代表所有可能样本的均值的分布,E(x-)表示所有样本均值的均值,而Var(X-)指的是样本均值的变异情况.

Var(X-)=σ²/n

X-如何分布?
前面我们求出了方差和期望,但还要知道X-的分布,才能求出概率.让我们先看X为正态分布时,X-符合哪种分布.

下面是各种μ,σ²所对应的分布图,其中X符合正态分布.你注意到什么了?
各种情况下的X-均符合正态分布,也就是说
如果X~N(μ,σ²),则X-~N(μ,σ²)

X可能不符合正态分布
为了算出样本均值的概率,我们需要知道X-的分布情况,问题是,我们并不知道X如何分布.
我们需要知道,如果X不符合正态分布,X-符合什么分布.

当n很大时,X-仍然可以用正态分布近似
随着n增大,X-越来越接近正态分布,我们已经知道,当X符合正态分布时,X-符合正态分布;如果X不符合正态分布,但如果n足够大,我们仍然可以用正态分布近似的分布.

现在的情况是,我们知道总体的均值和方差,但却不知道总体的分布.不过这没关系,由于样本大小为30,我们还是能用正态分布求X-的概率.这叫做”中心极限定理”

认识中心极限定理
中心极限定理是指:如果从一个非正态总体X中取出一个样本,且样本很大,则X-的分布近似为正态分布.如果总体的均值和方差为μ和σ²且n很大,例如大于30,则:

X-~N(μ,σ²/n)

根据中心极限定理,如果X的样本很大,则X-的分布近似为正态分布.

使用中心极限定理
二项分布
假设你有一个总体,用X~B(n,p)表示,其中n大于30,如前所述,μ=np,σ²=npq
根据中心极限定理,在这种情况下,X-~N(μ,σ²),为了求出X-的分布,我们代入总体的数值,即,代入μ=np和σ²=npq,得到:
X-~N(np,pq)

泊松分布
现在,假设总体符合泊松分布X~Po(λ),n还是大于30,对于泊松分布来说,μ=σ²=λ
和以前一样,我们可以借助正态分布求出σ²的概率,如果将以上总体参数代入X-~N(μ,σ²/n)得到:

X-~N(λ,λ/n)

求出概率
由于X-符合正态分布,于是可以用标准正态分布概率表查找概率,也就说是说,其他正态分布的算法完全适用于你的情况.

我们已知X-~N(μ,σ²/n),μ=10,σ²=1,n=30,而1/30=0.0333,于是得到
X-~N(10,0.0333)

P(X-<8.5)的数值是多少?
由于X-~N(10,0.0333),我们需要求8.5的标准分,以便能够在概率表中查找结果,得到:

Z=8.5-10/根号0.0333
=-8.22

P(Z<z)=P(Z<-8.22)

这个概率表太小了,因此求出现在在概率表中,我们可以认为概率如此之小的事件几乎不会出现