全距仅仅描述了数据的宽度,并没有描述数据在上,下界之间的分布形态.
以上两个数据具有相同的全距,但第二个数据集有异常值(即极大值和极小值).看来,全距能量度数值的展开宽度,但很难得出数据的真实分布形态.
异常值带来的问题
全距是描述数据集分散程度的渐变方法,但通常并非描述数据在该全距内的分布形态的最好方法.如果你的数据中包含异常值,那么,使用全距描述数据的分散情况会极具误导性,原因是全距很容易受异常值影响,让我们看看具体情况:
1,1,2,2,3,3,4,4,5,5
这里的数字非常均匀的分布在上界和下界之间,并且无需担心任何异常值.这一批数据的全距为4.
可要是增加一个异常值,例如10,会发生什么变化呢?
1,1,2,2,3,3,4,4,5,5,10
下界保持不变,但上界增加至10,于是新全距为9.仅仅因为额外增加了一个数–一个异常值,全距就增加了5.
没有这个异常值的时候,以上两批数据是相等的,那么,我们对数值分布形态的描述为什么会出现这样大的差异呢?
全距是表述数值分布情况的一种极其简单的办法,但颇有一些局限性.
全距之处数据最大值和最小值的差距,但仅此而已–全距只是对数据分布情况极其基本的描述.
全距的主要问题是:仅仅描述了数据的宽度,由于全距是通过数据极值计算得出的,因此不可能指出数据的真实形态以及数据是否包含异常值.构成相等全距的途径很多–有时候这一点附加信息十分重要.
主要全因是全距非常简单
全距如此简单,大家都能够理解–即使很少解除统计学的人也不例外.例如:当你谈起年龄全距时,大家很容易就能理解你的意思.
不过,请小心,在全距极其简单的表象下却潜伏着危机.由于全距无法反应最大值和最小值之间的清晰情形,使用时很容易让人对基础数据产生误会.