t分布

曼帝糖果公司最后还有一个问题需要解决,有一家糖果店想知道糖球的典型重量,原因是他们发现顾客往往按照重量购买糖球,而不是按照数量购买.钥匙糖果店知道糖球的典型重量,就能利用这个信息进行促销.

曼帝糖果公司抽取了一个具有代表性的样本,共10颗,然后称了每一粒糖球的重量,这个样本的x-=0.5盎司,s²=0.09
我们如何求出置信区间?

1.选择总体统计量
第一步是选去要为其构建置信区间的统计量.我们需要为糖球重量均值构建一个置信区间,也就是腰围总体均值μ构建置信区间.
由于需要求μ的置信区间,于是下一步就是求μ的抽样分布–x-的分布.

2.求x-的概率分布
那么x-符合什么分布呢?
并非任何情况都能用正态分布进行良好近似.

我们前面讲过的所有抽样分布要么符合正态分布,要么可以用正态分布进行近似.问题是,我们无法对每一个置信区间都使用正态分布.不巧,目前碰上的就是这种不能用正态分布的情况.

不能用正态分布的原因何在?
当抽样很大时,正态分布是求解置信区间的理想分布–能得出精确结果,且与总体本身是否是正态分布无关.

现在我们碰到了另一种情况–尽管x本身符合正态分布,x-却并不符合.

主要原因有二
第一,我们不知道总体方差的确切值,因此必须利用样本数据估计σ²,我们可以通过点估计量轻松的完成这项工作,但是,还有第二个原因:样本太小,估计值有可能出现较大误差–比使用大样本的误差要大得多.这些潜在的误差意味着使用正态分布无法得出足够精确的x-的概率,那样就无法得出精确的置信区间.

那么x-符合哪种分布呢?实际上,他符合t分布.让我们具体看看.

当样本很小时,x-符合t分布
当总体符合正态分布.σ²未知,且可供支配的样本很小时,x-符合t分布–这种分布正好可以用来处理我们面临的问题.
t分布是外形光滑,对称的曲线,确切形状取决于样本大小,当样本很大时,t分布外形很想正态分布;当样本很小时,曲线较为扁平,有两条粗粗的尾巴,他只有一个参数–v,v=n-1.n为样本的大小,v被称为自由度.

“T符合t分布且自由度为v”的简明表示方法为:
T~t(v)

t分布的使用方法与正态分布相似–先将概率区间的上下限转化为标准分,然后用概率表求出锁需要得奖结果.

求t分布的标准分
t分布的标准分的计算方法与正态分布的标准分的计算方法相同.像处理正态分布一样,我们先减去抽样分布的期望,然后用所得到的差除以标准差.唯一的差别是,我们用T而不是Z代表结果,这时为了配合t分布的使用.
我们需要求出x-的分布,于是要用到x-的期望和标准差.x-的期望为μ,标准差为σ/n.由于需要用s估计σ的数值,于是t分布的标准分的算式如下:
T=x–μ/x/根号n

我们只需要代入x-,^σ和n就行了

第3步,决定置信水平
那么该为曼帝糖果选用哪个置信水平呢?记住:置信水平指的是你希望自己对”置信区间包含总体统计量”这个说法有多大信息,它帮助我们指出置信区间应该有多宽.像以前一样,让我们用95%作为总体均值的置信水平,于是总体均值位于置信区间之后的概率为0.95.

第4步求出置信上下限
t分布的位置上下限的算法类似于正态分布的算法,即可通过下式进行计算
(x–t*(s/根号n),e-+t*(s/根号n))

其中

P(-t≤T≤t)=0.95

使用t分布概率表
通过t分布概率表可求出P(T>t)=p中的t值.在我们的实例中,p=0.025
为了求出t值,先从概率表查找第一列的v值,再查找第一行的p值,二者的交点处即为t值.例如,查找v=7和p=0.05,可得t=1.895
求出t值后,就能求置信区间了

t分布与正态分布比较
在用小样本估计总体方差时,t分布更精确

基于小样本估计σ²有一个问题,即可能无法精确的反映总体方差的真实值,也就是说,我们需要让区间变宽,以便在置信区间中留出一些误差空间.
t分布的形状随着v值发生变化,由于考虑了样本的大小,即使σ²的估计精度存在各种足以让人有所察觉的不确定性,t分布也能忽略不计.当n很小时,t分布给出的置信区间比正态分布的置信区间更宽,这使它更适合用于小样本.

置信区间求出来了
有两种估计总计统计量的方法了.
第一种估计方法是使用点估计量,点估计量方法可用于估计总体统计量的精确数值,是根据样本数据有可能做出的最好猜测.
另一种估计方法是使用总体统计量的置信区间,这个方法得到的并非总体统计量的精确估计,而是求出总体统计量的一个有较高可信度的数值范围.