我们已经讲过如何设计样本,也讨论过需要避免哪几类偏倚,现在我们需要从样本空间中选取实际样本,该怎么选呢?
简单随机抽样
一种做法是随机选取样本,假设你有一个包含N个抽样单位的总体,需要选取包含n个抽样单位的样本.简单随机抽样就是通过随机过程选去一个大小为n的样本,所有大小为n的可能样本被选中的可能性都相同.
简单随机抽样有两种具体做法:重复抽样和不重复抽样
重复抽样
重复抽样指的是:在选去一个抽样单位并记录下这个抽样单位的相关信息之后,再将这个单位放回总体中.这样做的结果是某个抽样单位有可能被选去不止一次.重复抽样的例子有:决定向大街上的行人提问,事前并不查看是否已经向该行人提问过.当你拦住行人请他回答问题,然后在问完后让他们离开,实际上就是将行人放回了总体,这意味着你有可能不止一次向他们提问.
不重复抽样
不重复抽样指的是:不再将抽样单位放回总体,不重复抽样的例子有:口香糖检验–尝过的口香糖不会被放回总体.
如何选取简单随机样本
使用简单随机抽样有两种方法:抽签或使用随机编号
抽签
抽签就是把抽样空间的成员的名字或编号写在纸上或是球上,然后将其全部放入一个容器,再随机取出n个名字或编号,以便得到足够的样本单位.
随机编号生成器
如果你所处理的是一个大型抽样空间,抽签可能不太可行,于是可以采用另一种做法–随机编号生成器或者随机编号表.这时,你为抽样空间的每个成员编一个编号,再生成一组共n个随机编号,然后从该空间中取出编号等于所生成的随机编号的成员.
重要提示:确保每个编号的生成机会相同,从而避免偏倚.
其他类型的抽样
即便是简单随机抽样也免不了有问题.
使用简单随机抽样时,仍然存在在样本无法代表的可能性,例如,可能你最终随机抽到的全是黄色口香糖,却错失其他颜色.
怎么避免这种情况呢?
我们可以用分层抽样
有一个方法可以取代简单随机抽样,即分层抽样.这种抽样类型将总体分割为几个相似的组,每个组具有类似的特性.这些特性或者组被称为层.例如,我们可以将口香糖划分为不同的颜色–黄色,绿色,红色及粉色,这样每一种颜色就形成一个不同的层.
完成以上分层工作以后,就可以对每一个层进行简单随机抽样,确保最终样本中具有每一个的代表.为此需查看每一个层在总体中所占的比例,然后按照相应比例从每一个层中抽取抽样单位.例如,如果曼帝糖果公司所生产的口香糖有50%是红色的,那么样本的一半应该由红色口香糖球组成.
或可用整群抽样
如果总体中包括大量相似的组或群,则整群抽样可以派上用场.例如,口香糖球可能会按盒出售,每一盒中的口香糖球的数量和颜色组成都相似,于是每一盒糖球形成一个群.
进行整群抽样时,不是对抽样单位进行简单随机抽样,而是对群进行简单随机抽样,然后对每一个群的各种特性进行调查.例如,你可以对一盒盒口香糖进行简单随机抽样,然后品尝这些盒子里的糖球味道.
整群抽样之所以行得通,是因为群与群互相之间很相似,另外它还有一个优点,不需要使用总体抽样空间就可以进行整群抽样.例如,如果你正在调查树木情况,并把几片特定的森林作为群,则只需要了解你所选定的几片森林中的数目就行了.
整群取样的问题在于可能做不到完全随机.例如,很有可能一盒包装中的所有口香糖球都是同一个厂家生产的–如果有不同生产厂家,你就不能选去这些糖球.
或甚至可用系统抽样
使用系统抽样时,按照某种顺序列出总体名单,然后每k个单位进行一次调查,其中k为一个特定数字.例如,可以选择每10个样本抽样一次.
相对而言,系统抽样即快捷又简单,但却有一个重大缺陷:例如,如果糖球的生产工艺造成每到第10个糖球就是红色,那么你最终抽到的都是红色糖球,这会导致你对总体形成错误结论.