p值
p值[注 1]为假设检验中假设零假设为真时观测到的至少与实际观测样本相同的样本的概率。[2][3]很小的p值说明在零假设下观测到的概率很小。学术出版物中常常报告假设检验的p值。p值由于其确切意义难以掌握而屡遭误用;对p值的误用是元科学的主要课题。[4][5]
简介
p值(p value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果p值很小,说明在原假设下极端观测结果的发生概率很小。而如果出现了,根据小概率原理,就有理由拒绝原假设;p值越小,拒绝原假设的理由越充分[3] 。
对于一个统计模型的参数空间,把参数空间划分为两个不相交的集合和,然后给定的随机样本,想检验参数在哪一个划分的空间
构造的拒绝域是 对于一个可以探测参数的统计量,定义拒绝域为该统计量大于阈值的形式:
那么,一个拥有拒绝域是的假设检验方法,则该检验的统计功效函数被定义为
一个检验的检验水准(size)是犯第一类错误概率的上确界。我们称一个检验具有显著性水平,如果它的检验水准小于等于,即
假定对于所有小数,存在一个显著性水平为的检验,其拒绝域是,那么p值的数学定义是满足包含关系的最小
p值是基于数据的检验统计量算出来的概率值。如果p值是5%,也就是说,如果以此为界拒绝原假设的话,那么只有5%的可能性犯错。原假设是对的,但却拒绝了,这是错误的。所以说p值越大,拒绝原假设的理由越不充分。如果p值接近于0,拒绝原假设,那么几乎不可能犯错,于是说明数据是极其不符合原假设。
换言之,p值是假设检验中零假设成立或表现更严重的可能性。p值若与选定显著性水平(0.05或0.01)相比更小,则零假设会被否定而不可接受。然而这并不直接表明原假设正确。通常在连续分布的假设下,p值是一个服从[0,1]区间均匀分布的随机变量,在实际使用中因样本等各种因素存在不确定性。近100年来,统计学家使用p值来描述数据的统计显著性,这种方法造成了许多人在工作中把统计显著性的阈值(事先给定值)强行假定为大于等于实际显著性(实际数据计算出的p值),于是强行拒绝原假设,做出了很多不科学的决策。p值产生的结果可能会带来争议[6]。2018年,由72位科学家组成的小组在《自然·人类行为》上发表了一篇名为《重新定义统计意义》的评论文章,赞同将统计显著性的阈值从0.05调整到0.005。这样就使得科研人员不能强行让如此小的统计显著性阈值大于实际数据计算出来的p值。这篇文章的主要作者本杰明认为:“这是一个不完美的短期解决方案,但可以立即实施。我担心的是,如果我们不立即做这事,我们将失去变革的动力,而我们最终将花费所有的时间争论理想化的解决方案。”
在科学研究的许多领域,p值小于0.05被认为是确定实验数据可靠性的金标准。这个标准支持了大多数已发表的科学结论,违反这一标准的论文很难发表,而且也很难得到学术机构的资助。然而,即使是费雪也明白,统计显著性的概念以及支撑它的p值具有相当大的局限性。几十年来,科学家也逐渐意识到了这些局限性。
历史
p值的计算可以追溯到18世纪,当时计算的是人类出生性别比,并与男女出生概率相同的零假设相比的统计学差异[7]。约翰·阿布斯诺特于1710年研究了这一问题[8][9][10][11],并检查了伦敦从1629年到1710年的82年中每一年的出生记录。阿布斯诺特观察到每一年在伦敦出生的男婴数都超过了女婴数。考虑到零假设是男性或女性出生概率相同,这一观察结果出现的概率是1/282,或约为4,836,000,000,000,000,000分之1;这个计算得到的值,用现代术语说,就是P值。这个数字小得惊人,使阿布斯诺特认为这一结果的出现不是由于几率,而是由于神的旨意。“由此可见,支配一切的是艺术,而不是几率”。用现代术语来说,他在p=1/282的显著性水平上拒绝了男女出生可能性相同的零假设。
1925年,英国遗传学家兼统计学家罗纳德·爱尔默·费希尔出版了《研究者的统计方法》(Statistical Methods for Research Workers)一书。这本书的书名在当时看起来并不会“畅销”,但实际上这本书却取得了巨大的成功,而且还使费雪成为现代统计学之父。在这本书中,他着眼于研究人员如何将统计检验理论应用于实际数据,以便基于数据得出他们所发现的结论。当使用某个统计假设来做检验时,该检验能够概述数据与其假设的模型之间的兼容性,并生成一个p值。 费雪建议,作为一个方便的指南,研究人员可以考虑将p值设为0.05。对于这一点,他专门论述道:“在判断某个偏差是否应该被认为是显著的时候,将这一阈值作为判断标准是很方便的。”他还建议,p值低于该阈值的结论是可靠的,因此不要把时间花在大于该阈值的统计结论上。因此,费雪的这一建议诞生了p小于0.05等价于所谓的统计显著性,这成了 “显著”的数学定义。
注释
参考资料
- ^ 存档副本 (PDF). [2021-02-01]. (原始内容存档 (PDF)于2017-10-10).
- ^ Aschwanden, Christie. Not Even Scientists Can Easily Explain P-values. FiveThirtyEight. 2015-11-24 [11 October 2019]. (原始内容存档于2019-09-25).
- ^ 3.0 3.1 Wasserstein, Ronald L.; Lazar, Nicole A. The ASA's Statement on p-Values: Context, Process, and Purpose. The American Statistician. 7 March 2016, 70 (2): 129–133 [2021-02-01]. doi:10.1080/00031305.2016.1154108 . (原始内容存档于2019-06-30).
- ^ Hubbard, Raymond; Lindsay, R. Murray. Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing. Theory & Psychology. 2008, 18 (1): 69–88. doi:10.1177/0959354307086923.
- ^ Ioannidis, John P. A.; et al. A manifesto for reproducible science (PDF). Nature Human Behaviour. January 2017, 1: 0021 [2021-02-01]. S2CID 6326747. doi:10.1038/s41562-016-0021. (原始内容存档 (PDF)于2019-09-24) (英语).
- ^ Denworth Lydia,张慧铭(译). P值危机:统计学需要一场变革 (PDF). 环球科学. 2019, 21 [2020-02-17]. (原始内容存档 (PDF)于2020-02-17).
- ^ Brian, Éric; Jaisson, Marie. Physico-Theology and Mathematics (1710–1794). The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. 2007: 1–25. ISBN 978-1-4020-6036-6.
- ^ John Arbuthnot. An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes (PDF). Philosophical Transactions of the Royal Society of London. 1710, 27 (325–336): 186–190 [2021-09-30]. S2CID 186209819. doi:10.1098/rstl.1710.0011 . (原始内容 (PDF)存档于2021-06-03).
- ^ Conover, W.J., Chapter 3.4: The Sign Test, Practical Nonparametric Statistics Third, Wiley: 157–176, 1999, ISBN 978-0-471-16068-7
- ^ Sprent, P., Applied Nonparametric Statistical Methods Second, Chapman & Hall, 1989, ISBN 978-0-412-44980-2
- ^ Stigler, Stephen M. The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. 1986: 225–226. ISBN 978-0-67440341-3.