碰上需要比较基准的情况该怎么办?
我们已经讲过如何使用标准差量度一批数据的变异情况,也已经用标准差挑选出了得分最稳定的球员,但标准差的用途不止如此.
假想有两位能力不同的篮球队员,第一位投篮命中率为70%,其标准差为20%;第二位投篮命中率为40%,标准差为10%.
在某一次训练中,球员1投篮命中率为75%,球员2投篮命中率为55%.从球员本人的历史记录看来,哪一位球员的表现更好?
只看百分数无法了解全部真相
75%听起来是个很高的百分数,但我们并不是在研究每一位球员的均值和标准差.每一位球员的得分情况都高于自己的均值,但相比球员本人的历史记录,哪一位发挥的更好呢?我们该如何对这两位球员进行比较.
使用标准分比较不同数据集中的数值
使用标准分可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同–标准分是对不同环境下的相关数据进行比较的一种方法.例如:你可以使用标准分对球员相对其本人历史记录的表现,这有点像私人教练的一贯做法.
通过整个数据集的均值和标准差可以求出一个特定数值的标准分.标准分通常以字母z表示,为了求出特定数值x的标准分,可以用下式进行计算:
z=(x-μ)/σ
计算标准分
球员1 μ=70,σ=20,x=75
球员2 μ=40,σ=10,x=55
球员1标准分
z1=(75-70)/20=0.25
球员2标准分
z2=(55-40)/10=1.5
这两个标准分有什么意义呢?
标准分释义
标准分为我们提供了一种对不同数据集的数据进行比较的办法,这些不同数据集的均值和标准差甚至都各不一样.通过这种方法,我们可以把这些数值视为来自同一个数据集或数据分布,从而进行比较.
每一位球员的投篮命中率都有不同的均值和标准差,若要比较球员们相对于自己的历史记录的表现情况,这就带来了困难.我们可以看出,在一次特定训练中,一位球员的投篮命中率高于另一位球员,我们还注意到,这两位球员的投篮命中率都比自己的平均成绩更高.难点在于要比较两位球员相对于他们本人的历史记录的表现.
标准分将每一个数据集转化为更为通用的分布形态,从而有可能进行上述比较.我们可以求出每位球员在训练中的标准分,进行转化,然后比较.
这能让我们知道球员的什么信息?
球员1的标准分是0.25,而球员2的标准分是1.5.换句话说.在将得分标准化后,球员2的得分比球员1的得分更高.
这意味着,尽管从总体上看球员1是一位更优秀的投篮手,投篮命中率比球员2更高,但相对于本人的历史记录,是球员2表现的更好.球员2表现更好指的是和自己相比…
标准分的作用是将几个数据集转换成一个理论的新分布,这个分布的均值为0;标准差为1,这是一种可用于进行比较的通用分布.标准分将你的数据有效的转化为符合这个模型的数据,同时确保数据的基本形状不变.
标准分可以取任意值,这些值表示相对于均值的位置.正的z分表示数值高于均值,负的z分表示数值低于均值.若z分为0,则数值等于均值本身.数值大小体现了数值与均值的距离.
距离均值若干个标准差
有时候,统计师会用距离均值若干个标准差表示某个特定数值的相对位置.例如:统计师可能会说某个特定值在距离均值1个标准差的范围内,这其实只不过是表示数值距离均值远近的另一种方法–它有何实际意义呢?
我们已经讲过如何通过z分将数据集转化为一个均值为0,标准差为1的通用分布.如果一个数值在距离均值1个标准差的范围内,我们就知道,数值的标准分在-1~1之间.与此类似吗,如果一个数值在距离均值两个标准差的范围内,则数值的标准分在-2~2之间.