从全距的定义可以看出,全距的主要问题是包含异常值.只要数据中有异常值,即使只有一两个,全距中就会包含这些异常值.我们需要通过某种方法消除这些异常值的影响,这样才能最好的描述数据的分布形态.
有一个办法可以解决这个问题,即使用所谓的迷你距忽略异常值.我们不再量度整个数据集的全距,而是找出这个全距的一部分–不包含异常值的部分.
我们需要用一个统一的方法摆脱异常值
如果随心所欲地忽略异常值,会产生这样一个问题:很难对几个数据集进行比较–谁知道是不是所有数据集都以完完全全相同的方式忽略了异常值?
我们需要确保这一点:对要进行比较的几个数据集统统使用相同的迷你距定义.
四分位数
构建迷你距的一个办法是:仅使用数据中心周边的数值.为此,首先按升序排列数据,然后将这些数据分成四个相等的数据块,每一个数据块包含四分之一原有数据.
1111,2222,3333,4444
我们可以用介于两条外分割线之间的数值构建一个距:
1111 Q1 2222 Q2 3333 Q3 4444
如上,起到将整批数据一分为四的几个数值就是所谓的四分位数.求四分位数的方法有点类似求中位数,不同之处在于,需要求出将整批数据一分为四的几个数值,而不是求出整批数据一分为二的一个数值.
最小的四分位数(Q1)称为下四分位数,最大的四分位数(Q3)称为上四分位数.中间的四分位数(Q2)就是中位数,因为它将数据一分为二.每两个四分位数之间的距被成为四分位距(IQR)
四分位距 = 上四分位数 – 下四分位数
四分位距为我们提供了一种用于量度数据分散成都的标准的,可重复使用的方法,这是另一种能对数据进行比较的方法.但异常值会怎么样呢?四分位距也能帮助我们处理异常值吗?
四分位距剔除异常值
四分位距的优点是:与全距相比,较少受到异常值的影响.
上四分位数和下四分位数所在的位置造成了这样的结果:下四分位数以下还有25%的数据,上四分位数以上还有25%的数据.也就是说,四分位距仅使用了中间50%的数据,如此将异常值弃之不用.前面已经讲过,异常值就是数据中的极大值或极小值.因此,当我们仅考虑数据中心周边的数值时,就自然地将异常值排除在外了.
下面再看看我们的数据.能看出四分位距如何有效的忽略异常值
11122 Q1 22333 Q2 33444 Q3 455510
由于四分位距仅用了处于中心部位的50%的数据,因此,无论异常值是极大值还有极小值,均被排除在外.异常值不可能处于中心部位–这意味着,数据中的所有异常值都被有效的剔除了.