如果样本增大会怎么样? 刘立博的代码

前面讲过,医生仅以15人为样本进行了实验,以这个样本为依据得出的证据不足以否定制药公司的断言.

有可能样本不够大,这才无法得出正确的结果,如果医生使用一个大一点的样本,可能会得出更可靠的结果.

下面是医生的新实验结果:

治愈 80 未治愈 20

让我们再进行一次假设检验

1.确定假设
我们首先需要确定药物的原假设和备择假设.提醒一下:原假设即我们正在进行检验的断言,备择假设则是在没有充分证据拒绝原假设的情况下接受的假设.

在上一次的检验中,我们采用制药公司的断言,以此为基础形成原假设.我们现在要对同样的断言进行检验,因此原假设还是老样子:
H0:P=0.9

备择假设也是老样子,如果有有力的证据否定制药公司的断言,则我们将接受”药物的患者治愈率低于90%”这一说法,于是备择假设为:
H1:P<0.9

2.选择检验统计量
如上所述,第二步是选择检验统计量,即需要找出某个统计量,以便对假设进行检验.
在前一个假设检验中,我们通过观察样本的成功数目以及结果的显著性进行检验,我们用二项分布球出了一个至少以样本数值为极值的概率,换句话说,我们用检验统计量X~B(15,0.9)检验P(X≤11)是否小于显著性水平0.05

这一次,样本中的患者数是100,要检验的断言还是老样本–治愈某位患者的概率为0.9,即我们的新检验统计量为X~B(100,0.9)

我们可以用另一种分布代替二项分布
用二项分布解决这一类问题需要计算大量概率,因此很费时间.

幸运的是,还有另一种方法.我们可以不用二项分布,而改用其他分布.

在我们的检验统计中用正态分布近似二项分布
我们照样需要找到一个能用于进行假设检验的检验统计量.由于样本数量很大,使用二项分布将会费时费力.

样本中有100名患者,而按照制药公司的说法,成功比例为0.9.这就是说,成功数目服从二项分布,其中n=100,p=0.9.
由于n很大,且np和nq都大于5,我们就用X~N(np,npq)作为检验统计量,其中X为成功治愈的患者的数目,即我们能够用

X~N(90,9)

近似我们所需要的任何概率
经过标准化,得到:

Z=X-90/根号9
=X-90/3

你用检验统计量计算概率–该概率可以当作证据

这就是说,我们将Z作为检验统计量–因为他可以轻松查出概率,进而了解在以制药公司断言为前提的情况下,我们的样本结果的不可能程度如何.我们将80代入X,这样就能求出治愈人数为80或80以下的概率.

3.求出拒绝域
有了检验统计量之后,还需要求拒绝域,由于我们的备择假设为P<0.9,这表明拒绝域位于左尾,这和前面是一样的.拒绝域还取决于检验的显著性水平,让我们选择和前面一样的显著性水平,即以5%水平进行检验.

由于我们的检验统计量符合标准正态分布,于是可以用概率表查出临界值c,临界值即具有足够证据拒绝原假设和不具有足够证据拒绝原假设这两种情况的分界值.

由于我们的显著性水平为5%,于是临界值c等于令P(Z<c)=0.05的数值.在概率表中查找0.05,得到c的数值为-1.64,即:

P(Z<-1.64)=0.05

这说明只要检验统计量小于-1.64,我们就有足够的证据拒绝原假设.

4.求P值
拒绝域位于分布的左尾,治愈人数为80人,Z=(X-90)/3,利用这些条件求出P值

让我们先求80的标准分
Z=(80-90)/3=-3.33

5.查看检验统计量是否位于拒绝域内
如果P值小于0.05,则检验统计量位于拒绝域内,由于p值等于0.0004,说明检验统计量位于拒绝域中

6.做出决策
由于检验统计量位于假设检验的拒绝域中,说明在5%显著性水平的情况下,我们有足够的证据拒绝原假设