前面讲到如何利用样本均值估计总体均值,也就是说,我们为超长效口香糖总体找到了一个估计口味持续时间均值的办法.
我么可以把哪个算式当作总体方差的点估计量呢?即我们该如何利用样本数据求出^σ²?
样本数据的方差可能不是总体方差的最好估计办法
你已经知道,一个数据集的方差所量度的是数据与均值的偏离程度,当你选择一个样本后,相比总体,你拥有的数值数量变少了,因此与总体中的数值偏离均值的程度相比,样本中的数值更有可能以更紧密的方式聚集在均值周围–极端数值出现在样本中的可能性下降,这是因为总的来说这样的数值太少了.
我们需要一个有别于样本方差的点估计量
用样本方差估计总体方差会出现这样的问题:估计结果会稍微偏低–样本方差可能会略小于总体方差,差别程度则取决于数值的大小.样本较小时,样本方差与总体方差的差别有可能更大.
我们需要找到一个更好的办法来估计总体方差–找到样本数据的某个函数,而这个函数说的出的结果要稍微大于所有样本数值的方差.
那么用哪个算式做为估计量?
我们不使用样本数据的方差,而用其他方式估计总体方差.如果样本大小为n,可以用下列算式估计总体方差:
^σ²=∑(x-x(样本))²/n-1
即,取样本中的每一个数值,减去样本均值,所得之差取平方数;然后将所有平方值加起来,除以样本数减1.这个算法与样本差的算法相似,不过除数是n-1,而不是n.
这个公式与总体方差的数值更接近
一组数字除以n-1的结果大于这一组数字除以n的结果,当n相当小时,这种差别最为显著.也就是说,通过公式算得的结果与样本数据的方差近似,但会稍微偏大.
总体方差往往大于样本数据的方差,因此,用这个公式做为总体方差的点估计量,效果更好一些.
总体方差点估计量通常写作s²
即:s² = ^σ² = ∑(x-x(样本))²/n-1
在什么应用场景使用此公式?
使用n做除数求方差,还是用n-1做除数求方差?这个问题有时候真实让人愁肠百结.做出判断的黄金准则是:用n做除数会得出”手头拥有的一组数据的实际方差”
如果手头拥有整个总体的数据,则以除以n会得出总体的实际方差–需要所有σ²的公式,除数为n
如果手头拥有总体的一个样本数据,则你可能会希望用这个样本估计总体方差–需要使用s²公式,除数为n-1