假设检验的运用--研究证据刘立博的代码

假设检验为你提供了一种方法–利用样本检验各种统计断言是否可能属实

制药公司断言他们的神药能在2周内治愈90%的患者,但统计邦外科诊所的医生随机抽取了15位鼻鼾患者,对这些患者实施为期2周的治疗,结果如下:

治愈11人,未治愈4人

问题出在哪里?
按照制药公司的说法,你会期望治愈14名患者,但其实只治愈了11名

制药公司可能不是存心撒谎,但他们的断言可能具有误导性
制药公司的检验可能有缺陷,进而是的断言可能存在误导性–由于疏忽大意,他们进行的检验可能有缺陷,或者说有偏差,以致于对总体做出来不准确的预测.

制药公司的断言实际上可能是准确的
如果制药公司没有出差错,那么很可能是那位医生的抽样患者无法代表整个患者总体,很有可能药物确实治愈了90%的患者,医生却正好抽中了不治愈人数比例较高的样本,也就是说,医生的样本可能存在某种偏倚,要不然就是因为样本中的患者数目较少.

纵观全局
我们该如何裁决医生与制药公司之间的矛盾说法?让我们纵观全局,看看需要做点什么.

我们可以对制药公司的断言进行检验,以期裁决制药公司和医生的矛盾之说,即,我们权且相信制药公司的断言,可是一旦出现强有力的反驳证据,我们就改为站到医生一边.

假设检验六步骤
1.确定要进行检验的假设
2.选择检验统计量
3.确定用于做决策的拒绝域
4.求出检验统计量的p值
5.查看样本结果是否位于拒绝域内
6.作出决策

我们需要确保对药品断言进行正确的检验,然后才能加以否定

1.确定假设
让我们先执行检验第一步,了解要进行检验的主要断言,该断言被称为假设.

制药公司断言
根据制药公司的断言,药品能在2周内治愈90%的患者,除非我们有充分证据进行反驳,否则就要接收这个结论.

我们所检验的这个断言被称为原假设,以H0表示,除非我们有充分证据进行反驳,否则就要接受这个断言.

用什么做备选假设?
前面讲过我们即将检验的断言–原假设,可如果这个假设不为真该怎么办?用什么做备选假设?

医生的简洁
医生认为制药公司对疗效的断言过于理想,反而显得不真实–她认为治愈率不会达到90%,低于90%的可能性更大.

与原假设对立的断言被称为备择假设,用H1表示,如果有足够的证据拒绝H0,我们就接受H1.

药品的备择假设
药品的备择假设就是在证实制药公司的断言有假之后要认同的另一个断言.如果有足够的证据反驳制药公司的断言,那么有可能医生的断言是对的.

医生认为药品治愈的患者少于90%,即备择假设为:P<90%
既然我们已经为药品的假设检验确定了原假设和备择假设,就可以进行第二步了.

第二步选择检验统计量

既然已经完全确定了要进行检验的内容,接着就需要通过某些手段进行检验–这可以借助检验统计量实现.
“检验统计量”即用于对假设进行检验的统计量,是与该检验关系最为密切的统计量.

药品的检验统计量是哪一个?
我们做假设检验的目的是检验药品是否能治愈90%以上的患者,为此,可以根据制药公司的说法查看概率分布,看看抽样中的成功次数是否显著.

如果用X表示样本人数,就可以将X作为检验统计量,样本中共有15名患者,根据制药公司的说法,成功概率为0.9,由于X符合二项分布,于是检验统计量实际上符合:X~B(15,0.9)

我们根据原假设H0选择检验统计量
我们需要检验是否有充足的证据反驳原假设,办法是:首先假设H0为真,然后寻找不利于H0的证据.在针对药品的检验中,我们假设治愈率为0.9–除非有有力证据证明这不成立

为此,我们假定治愈概率0.9,看看得出观察结果的可能性有多大.也就是说,取样本结果,然后计算发生这个结果的概率–我们通过求拒绝域实现这个目标.

第三步实现拒绝域
假设检验的拒绝域是一组数值,这组数值给出反驳原假设的最极端证据.让我们再看看医生的样本,以便了解拒绝域的使用方法.如果治愈人数为90%或90%以上,这就与制药公司的断言吻合了,随着治愈人数下降,制药公司的断言为真的可能性就越来越小.

何时能够拒绝制药公司的断言?
样本中的到成功治愈的患者人数越少,可以用于反驳制药公司断言的证据就越有力.问题是:这些证据的强度达到多大时,我们能够坚决地拒绝原假设?
我们需要通过某种方法指出何时能够合理的拒绝原假设–指定一个拒绝域即可实现这一目的.如果治愈患者位于拒绝域以内,我们就说有足够的证据可以反驳原假设,如果治愈患者在拒绝域以外,我们就承认没有足够证据可以反驳原假设,并接受制药公司的断言.我们把拒绝域的分界点称为c–临界值

为求拒绝域,先定显著性水平
为了切除假设检验的拒绝域,首先需要定下”显著性水平”,检验的显著性水平所量度的是一种愿望,即:希望在样本结果的不可能程度达到多大时,就拒绝原假设H0,像置信区间的置信水平一样,显著性水平以百分数标识.

我们该使用多高的显著性水平?
让我们在假设检验中使用5%的显著性水平,即,如果样本中的治愈患者的数目落在概率分布的最低5%的范围内,我们将否定制药公司的断言,如果治愈患者的数目落在概率分布的95%高端范围内,则我们将判定没有足够的证据反驳原假设,同时接受制药公司的断言.

如果我们用X表示治愈的患者数目,则我们将拒绝域定义为能令下列不等式成立的一些数目:
P(X<c)<α
其中
α=5%

第四步求出P值
讲过拒绝域之后,我们就可以求出P值了
P值即某个小于或者等于拒绝域方向上的一个样本数值概率,具体求法是利用样本进行计算,然后判定样本结果是否落在假设检验的拒绝域以内,也就是说,我们通过P值确定是否该拒绝原假设.

如何求P值?
具体用哪种方法求P值取决于拒绝域和检验统计量.对于药品检验来说,治愈人数为11人,而拒绝域位于分布的低端,于是P值为P(X≤11),其中X为样本中的治愈人数的分布.

由于检验的显著性水平为5%,说明如果P(X≤11)小于0.05,则数值11落在拒绝域中,这时我们可以拒绝原假设.

P(X≤11)=1-P(X≥12)
=0.0555

P值即为取得样本中的各种结果或取得拒绝域方向上的某些更为极端的结果的概率

第五步样本结果位于拒绝域中吗?
我们已经求出了P值,可以用它检验我们的样本结果是否落在拒绝域内.如果的确如此,则我们就有足够的证据否定制药公司的断言.

我们的拒绝域位于概率分布的左尾,所用显著性水平为5%,这意味着,如果P值小于0.05,就能拒绝原假设,由于我们的P值为0.0555,因此样本中用治愈患者数不在拒绝域内.

第六步做出决策
我们已经进入假设检验的最后一步,决定接受原假设.接受制药公司的断言.