通过四分位距将异常值排除在外的意义是:得到一种对几个数据集进行比较且比较结果不会被异常值扭曲的办法.为了能算出四分位距,我们必须先算出四分位数.
求一个数据集的四分位数的过程与求中位数的过很非常相似.如果将所有数值按照升序排列.中位数就是正好位于中央的数值.如果有n个数,则中位数是位于(n+1)/2位置的数值,如果这个位置处于两个数字之间,则要去这两个数的平均值.如果进一步将这些数据分为四分,四分位数就是处于每个分割位置的数值,最小值为下四分位数,最大值是上四分位数.
求四分位数的位置比求中位数的位置稍微棘手一点,因为我们需要确保所选择的数值能按正确的比例划分整批数据,不过还是有办法的:让我们从下四分位数算起.
求下四分位数的位置:
1.n/4
2.如果结果为整数,则下四分位数位于(n/4)这个位置和下一个位置的中间,取这两个位置上的数值的平均值,即得下四分位数.
3.如果n/4不为整数,则向上去整,所得结果即为下四分位数的位置.
求上四分位数的位置:
1.3n/4
2.如果结果为整数,则上四分位数位于3n/4这个位置和下一个位置的中间,将这两个位置的数加起来,然后除2
3.如果3n/4不是整数,则想向上去整,所得到的新数字即为上四分位数的位置
例:
数据集:2 3 6 9 12 18 24 55
下四分位数:4.5
10.5
上四分位数:21
四分位距:21-4.5=16.5