教练不仅需要球员得分的全距,他还需要以某种更为精确的方法量度大部分数值的位置所在,借此判定哪一位球员真正值得信赖.
全距和四分位距的问题是:它们仅告诉你最大值和最小值之间的差值,却无法告诉你球员们得到这些最高分或最低分的频率,以及球员得到更接近数据中心的得分的频率–而这对教练很重要
我们应该如何更精确的量度变异性?
变异性比分散性更具体
我们希望量度每批得分的分散性,不止如此,还希望找到某种方法,利用所得到的分散性看出球员的稳定程度,也可以这样说:我们希望能够量度球员得分的”变异性”
实现以上目的的一个方法是:观察每个数值与均值的距离.如果我们能够算出各个数值与均值的某种平均距离,就有办法量度变异性的分散性.结果越小,数值与均值的距离越近.
计算平均距离
假想你有3个数字:1,2,9,均值为4.如果我们求出这几个数值与均值的平均距离,结果如何?
平均距离=(1至μ)+(2至μ)+(9至μ)/3=(3+2+(-5))/3=0
各个数值与均值的平均距离总是为0–正负距离相互抵消.那么,我们现在该怎么办?
我们可以用方差计算变异性
我们要相处一个办法量度各个数值与均值的平均距离,这个办法要能防止距离之间相互抵消.
让我们试着用原来的三个数字算一下:
平均距离=(1至μ)2+(2至μ)2+(9至μ)2/3=(9+4+25)/3=12.67
这一次,各个距离没有相互抵消,我们得到了一个有意义的数.由于我们使用了各个数值与均值的距离的平方数,所有的加数都为非负数,把这些数字加起来,结果为非负数此次如此.
这种量度数据分散情况的方法称为方差,是一种非常常用的描述数据分散性的方法.
方差=∑(x-μ)2/n
但标准差才是更直观的量度方法
统计师大量使用方差量度数据的分散情况,方差很有用,这是因为它用到了每一个数据,据此得出结果.可以认为方差是数值与均值的距离的平方数的平均值.
我们真正想要的是这样一个数:能根据与均值的距离–而不是距离的平方指出分散性
方差的问题是:人们恐怕难以根据距离的平方数去考虑分散性.
有一个简单的办法可以对此进行修正–取方差的平方根,我们将此结果称为 标准差.
让我们 算出前面提到的数据集的标准差.方差为12.67.即:
标准差 = 平方根(12.67) = 3.56
也就是说,典型值与均值的距离是3.56
标准差技术要诀
我们已经看出,标准差是描述典型值与均值距离的一种方法,标准差越小,数值离均值越近.标准差可能得到的最小数为0.
像均值一样,标准差也有自己的专用符号σ,即希腊字母∑的小写.
σ = 根号(方差)