统计抽样的运用–抽取样本

统计需要处理数据,数据从何而来
有时候数据很容易收集–例如参加一家健身俱乐部的人员的年龄,或一家游戏公司的销售数据.但有时候不太容易,这时候该怎么办?–当事件数量十分庞大时,很难决定该从何处着手收集数据.在本章中,我们将看看如何在实际工作中成功收集数据–有效的,正确的,省时省钱的收集数据.

对糖球样本而非糖球本身进行检验
曼帝糖果之所以碰到问题,是因为他们的试吃检验出现了”试吃每一颗糖球”这个环节,这个环节费时,费钱,并且剩不下糖球卖给消费者.
那么,曼帝糖果该做什么改变呢?让我们从总体和样本的差别讲起.

糖球总体
目前,曼帝糖果对现有的每一粒糖球进行口味检验,若用统计术语表达,那么他们是在用总体进行检验.
统计学上的总体指的是准备对其进行测量,研究或分析的整个群体,可以是人,得分,也可以是糖果–关键在于指的是所有对象.

普查指的是对总体进行研究或调查,在曼帝糖果的实例中,他们对每一粒糖球进行品尝,因此,是对糖球总体进行普查,普查可以给出关于总体的准确信息,但并不是在任何情况下都切实可行.当总体数量很大,或者说无穷无尽时,就不可能对每一个对象进行研究了.

糖球样本
不需要尝遍所有糖球也能搞清楚糖球口味持续时间–你可以不检验总体,而检验样本.
一个统计样本就是从总体中选去的一部分对象.通过选去样本,使其恰当的代表总体,从而得到代表总体的一个子集.对于曼帝糖果来说,一个口香糖球样本就是所选去的一小部分糖球,而不是每一粒糖球.

仅对总体的一个样本进行的研究或调查称为样本调查,在多数情况下,进行样本调查比进行普查更切实可行,通常样本调查所费的时间和费用都比较低,且不用考虑整个总体.

那么如何利用样本得出关于总体的结论呢?让我们看一看.

抽样方法
建立一个好样本的关键是尽量选择最符合总体的样本,如果样本具有代表性,则表示该样本具有与总体十分相似的特性,进而意味着通过样本预测出总体具有那种特性.

假定你用一个具有代表性的口香糖球样本检验每种口香糖球的口味持续事件,检验结果的分布可能如下所示:
即使只是试吃了一个小样本的口香糖球,你也能对分布形状得出印象,试吃数量越多,图形形状越清晰,例如,通过查看抽样分布的形状,可以对总体分布的中心位置得出初步印象.

让我们与实际总体进行比较:
可以看出,尽管一个图形代表所有的口香糖球,另一个图形仅代表其中一些糖球,但二者的大致形状十分相似,他们具有一些共同的特点–例如数据中心的位置相同,这意味着可以用样本数据预测总体数据.

当抽样有误时
单元我们能保证每一个样本都与做为样本来源的总体相吻合–可惜,并非每一个样本都酷似其总体.这似乎不是什么大问题,但是,使用具有误导性的样本实际上会导致对总体做出错误的结论.
例如,设想你为了检验糖球口味典型持续事件而抽取一个口香糖球样本,但这个样本却仅包含红色糖球,这时,样本可能能够代表红球,却不能代表总体重各种其他颜色的糖球,这时,样本的结果推测有关口香糖球总体的信息,最终会对口香糖球的特性形成错误结论.

使用错误的样本会导致对总体参数得出错误的结论,你可能会对数据形成截然不同的观点,进而做出错误决策.
麻烦在于,你可能当局者迷–你可能会觉得总体会如此这般,而事实却并非如此,我们务必建立某种机制,确保样本能够可靠的代表总体.