置信区间

曼帝糖果公司用一个包含100粒糖球的样本得出口味持续时间均值的点估计量为62.7分钟,同时总体方差的点估计量为25分钟.这时根据手头证据有可能得出的最可靠的口味持续时间估计,可要是略有差池,那该怎么办?

精度引起的问题
颠覆计量是我们有可能给出的总体统计量的追加估计.你取用最具代表性的数据样本,以此估计总体的主要统计量,如均值,方差,比例,这意味着超长效口香糖球的口味持续时间均值的点估计量是我们有可能给出的最佳估计.

点估计量的推导过程存在这样的问题:我们依赖来自唯一的一个样本的结果得出非常精确的估计.我们想了很多办法,确保样本无偏,使样本尽量具有代表性;但对于这个样本是不是能100%地代表总体,我们并没有绝对的把握,原因很简单–我们用的是样本.

点估计量是有价值的,但也许存在小小的误差
由于我们并没有使用整个总体,归根结底,我们只是得到了最佳估计量,如果我们所用的样本无偏,则这个估计量很可能接近总体的真值.如果我们所用的样本无偏,则这个估计量很可能接近总体的真值.问题是,多接近才算”够接近”

与其给出一个精确值做为总体均值的估计值,不如采用另一种方法.我们可以指定某个区间–而不是用一个十分精确的时间长度,作为糖球口味持续时间的估计.例如,我们可以说:我们期望糖球的口味持续时间为55至65分钟,这仍然会让听者觉得糖球口味持续时间接近1小时,但却留有更大的误差空间.

认识置信区间
此前,我们以样本数据为基础,利用点估计量估计了糖球口味持续时间的均值,通过点估计量,我们能够给出糖球口味平均持续时间的非常精确的估计.
那么,如果我们为总体均值指定一个区间,情况会怎么样呢?我们不指定一个确切的数值,而指定两个数值–我们期望糖球口味持续时间介于这两个数值之间.我们让均值的点估计量处于这个区间的中央,并将这个区间的上下限设定为这个颠覆计量加上或减去某个误差.

选择区间上下限是为了让”总体均值介于a和b之间”,这一结果均由特定概率.例如,你可能希望通过选择a和b,使得区间中包含总体均值的几率为95%,也就是说,锁选择的a和b使得:
P(a<μ<b)=0.95

我们用(a,b)表示这个区间,由于a和b的确切数值取决于你希望自己对于”该区间包含总体均值”,这一结果的可信程度,因此,(a,b)被称为置信区间.

求解置信区间的四步骤
1.选择总体统计量
第一步是选去要为之构建的统计量,这取决于要解决的实际问题.
在我们的实例中,需要为口香糖球口味持续时间的均值构建一个置信区间,于是就需要为总体均值μ构建一个置信区间.

2.求出所选统计量的抽样分布
为了求出中一均值的抽样分布,我们需要知道均值的抽样分布,即需要知道X-的期望和方差以及其分布.
让我们先求期望和方差,回顾上一章的内容,我们知道均值的抽样分布的期望和方差为:
E(X-)=μ
Var(X-)=σ²/n
为了利用以上结果求出μ的置信区间,我们代入总体方差的数值σ²和样本大小数值n

我们不代入μ的数值,这是因为我们正在为这个数值求置信区间
我们正在利用抽样分布求μ的置信区间,因此,除了μ以外,我们代入所有数值,代入σ²和n之后,就能用X-的分布求出置信区间,我们很快就会进行说明
只有一个问题–我们并不知道σ²的真值,必须根据样本进行估算

点估计量出手相救
那么用哪个数值做为σ²的值呢?
尽管我们不知道总体方差σ²的真实值,却可以用它的点估计量进行估计,于是我们代入^σ²或者叫做S²
于是均值的抽样分布的均值和方差等于:
E(X-)=μ
Var(X-)=s²/n

3.决定置信水平
置信水平表明你希望自己对于”置信区间包含总体的统计量”这一说法有多大把握,例如.假设我们希望总体均值的置信水平为95%,这表示总体均值处于置信区间中的概率为0.95

如何选择合适的置信水平
那么由谁决定置信水平?多大的置信水平才合适?
答案完全取决于你的具体情况以及你需要对”区间中包含总体统计量”这一说法有多大信心,常用的置信水平是95%,但有时候你可能会另有要求
关键是记住一点:置信水平越高,区间越宽,置信区间包含总体统计量的几率就越大

把置信区间弄的太宽的问题是:置信区间会失去其意义

4.求出置信上下限
最后一步是求a和b–置信区间的上下限,上下限指出一个范围的左右边界–均值有95%的概率落入这个范围内,a和b的确切值取决于需要使用的抽样分布以及需要具有的置信水平

对于我们的实例,需要让糖球口味持续时间均值具有95%的置信度,即,μ位于我们求得的a和b之间的概率必须为0.95,我们还知道X-符合正态分布,其中X~N(μ,0.25)

利用X-的分布我们可以求出a和b的值,即,我们可以利用X-~N(μ,0.25)求出a和b

先求Z
为了能够利用正态分布表,先对X-进行标准化,我们已知X-~N(μ,0.25),于是,经过标准化计算,得到:

Z=X–μ/根号0.25 其中Z~N(0,1)

我们需要求出za和zb其中P(za<Z<zb)=0.95,即标准置信上下限为Za和Zb,其中P(Z<za)=0.025,且P(Z>zb)=0.02255,利用概率表求出za=-1.96,zb=1.96

用μ改成不等式
到此为止,我们求出了置信区间的标准形式,得到P(-1.96<Z1.96)=0.95,即:

P(-1.96<X–μ/0.5<1.96)=0.95

用μ改写不等式,即可以得到μ的置信区间

如果将 -1.96<X–μ/0.5<1.96

改写为 a<μ<b 就能得到μ的上下限

最后求X-的数值
写出不等式后,我们就非常接近描述糖球典型口味持续时间的数值–μ的置信区间

P(X–0.98<μ<X-+0.98)

我们的置信上下限为X–0.98和X-+0.98,只要知道哪个数值作为X-,就能得出置信上下限.代入样本均值,则置信上下限等于62.7-0.98和62.7+0.98,即置信区间为(61.72,63.68)