用相关系数衡量直线与数据的拟合度

我们使用线性回归法建立了预计天晴时数与音乐会听众人数之间的关系模型,利用y=a+bx,只要知道预计天晴时数,就能预测出音乐会人数.

尽管美其名曰”最佳拟合线”,我们却并不知道这条线准确性如何

切实有用的做法是,找到某种办法指出各个点偏离直线的距离,这会告诉我们根据已知条件得出期望结果待地有多大精确性.

让我们查看一些关系
一组数据的最佳拟合线是我们所能得出的可作为两个变量之间数学关系模型的最佳直线.尽管最佳拟合线是与数据拟合程度最高的直线,但它并不可能与每一个点都精确拟合.

精确线性相关
这一组数据的线性相关性呈现出精确的数据拟合,回归线并非百分百完美,但几近如此.

非线性相关
这一组数据未体现出线性相关性,你可能能用最小二乘回归法计算出一条回归线,但据此做出的任何预测都不太可能准确.

最小二乘估计可用于预测数值,也就是说,如果有某种方法能够指出数据点与直线的拟合程度,同时能指出我们的期望预测结果能够达到的精确程度,那么最小二乘估计就能发挥作用.
有一种方法可用于计算直线拟合度–称为相关系数

用相关系数衡量直线与数据的拟合度
相关系数是介于-1与1之间的一个数,描述了各个数据点与直线的偏离程度.通过他可以量度回归线与数据的拟合度,通常用字母r表示.

如果r等于-1,则数据为完全负线性相关
如果r等于1,则数据为完全正线性相关
如果r等于0,则不存在相关性

相关系数r有专用计算公式
r=bsx/sy

其中b=5.32

sx=根号∑(x-x-)²/n-1=1.81
sy=根号∑(y-y-)²/n-1=780.875

于是
r=0.91