二变量-相关与回归

前面讲过的统计量只描述一个变量–如个人身高,篮球队员得分或是糖球口味持续时间,但是,另外还有一些统计量可以说明变量之间的关系.了解事物的相互关系可以丰富你的信息,让你了解真相.

永远不要相信天气
小伙子们希望自己能够根据预计天晴时数预测出音乐会听众人数,这样一来,他们就可以衡量阴天可能给听众人数造成的影响,如果听众人数小于3500–这时票房收入将无法抵消成本费用,那么他们就会取消音乐会.

让我们分析天晴时数和听众人数
下面是样本数据,废除了不同场次的预计天晴时数和音乐会听众熟人的关系数据,利用这些数据,我们如何基于当天预计天晴时数估计出票情况?

1.9 22
2.5 33
3.2 30
3.8 42
4.7 38
5.5 49
5.9 42
7.2 55

大多数时候,我们只需要如此这般行事就能预测各种可能结果
这一次的问题在于,我们该求哪些数据的均值和标准差?我们该以音乐会听众人数作为计算基础,还是该以天晴时数作为计算的基础?二者都没有给出我们所需要的全部信息–我们不能只使用一组数据,而是两组数据都要使用.

前面我们只讲过独立随机变量,相关变量还没有讲到.我们可以假设,如果天气不好,则露天音乐会高上座的概率将比天气好的概率低.可是我们如何为这种关系建立模型呢?我们如何利用这个模型按照天晴时数预测听众上座率呢?

数据类型探讨

至今为止,我们所使用的变量都是单变量
单变量数据考虑的是一个单一变量的频数或概率,例如,单变量数据可以描述收益或是统计体重,在这两种情况下,所描述的对象各只有一种.但变量数据无法显示多组数据之间的关系.所以,如果我们需要了解不同变量之间的关系,该怎么办?尽管单变量无法为我们提供这类信息,却有另一种类型的数据能够办到–二变量数据.

二变量数据面面观
对于每一个观察结果,二变量数据给出两个变量数值–而不是一个,例如,对于同一场音乐会,或者说对于同一个观察结果,二变量数据会同时给出预计天晴时数和音乐会听众人数.
如果其中一个变量以某种方式受到控制,或者被用来解释另一个变量,则这个变量被称为自变量或解释变量,另一个变量则称为因变量或反应变量.在以上例子中,我们希望用天晴时数预测听众人数,所以天晴时数是自变量,听众人数是因变量.

二变量数据可视化
像绘制单变量数据图形一样,你可以绘制二变量数据图形,借此了解数据模式,这种图不是依赖频数或频率绘制数值,而是以x轴描述一个变量,以y轴描述另一个变量.借助这种图可以以可视化的方式体现两个 变量之间的关系.

这种图叫做散点图或散布图,其绘制方法与其他图形的绘制方法相同

散点图为你指出模式
散点图的作用在于能体现数据的实际模式,通过散点图,你可以愈发清晰的勾勒出两个变量之间的关系–如果确实存在某种关系的话.
音乐会数据散点图显示出一种独特的模式–数据点呈直线分布,我们将这种现象称为相关.

正线性相关
当x轴上的低端值对应y轴上的低端值,同时x轴上的高端值对应y轴上的高端值且呈直线分布时,为正线性相关.

负线性相关
当x轴上的低端值应对y轴上的高端值,同时x轴上的高端值对应y轴的低端值且呈直线分布时,为负线性相关.

不相关
如果x轴和y轴的数值呈现出一种随机模式,则我们说二者不相关

两个变量之间存在相关关系并不一定意味着一个变量会影响另一个变量,也不意味着二者存在实际关系.