跳至內容

顯著性差異

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書
雙尾檢定英語one- and two-tailed tests中,顯著水準α = 0.05下的拒絕域分處在抽樣分布兩端的尾部,共占曲線下方面積的5%。

統計學假說檢定[1][2]顯著性差異(或統計學意義,英語:statistical significance)是對數據差異性的評價,當某次實驗的結果在虛無假說下不大可能發生時,就認為該結果具有顯著性差異。更準確而言,譬如某項研究設定了一個數值α(顯著水準),表示虛無假說本來正確但卻被拒絕的出錯機率[3]並非虛無假說為真的機率、對立假說為假的機率、實驗再現失敗率[4]),然後用p值表示虛無假說條件為真時得到某結果或更極端結果的機率[5]。當pα時,就可以認為結果具有統計學意義,或數據之間具有了顯著性差異。[6][7][8][9][10][11][12]顯著水準應當在開始數據收集前就設定,通常習慣設定為5%[13]或更低,因研究的具體學科領域而異。[14]

在任何涉及到從母體抽取樣本實驗觀察性研究中,觀察到的結果都有可能只不過是由抽樣誤差英語sampling error產生的。[15][16]但是,如果一個觀察結果的p值小於(或等於)顯著水準α,研究者就可以得出「該結果能反映母體的特徵」的結論[1],並拒絕虛無假說[17]

顯著性差異的原因可能是:

  • 參與比對的數據是來自不同實驗對象,如比-西一般能力測驗中,大學學歷被試組的成績與小學學歷被試組之間,會存在顯著性差異;
  • 也可能是因為實驗處理對實驗對象造成了改變,因而前測、後測的數據會有顯著性差異。例如,記憶術研究發現,被試者學習某記憶法前的成績,和學習記憶法後的記憶成績會有顯著性差異,則這一差異很可能來自於這種記憶法對被試記憶能力的改變。

歷史

顯著性差異的提出可追溯到18世紀,約翰·阿巴思諾特英語John Arbuthnot皮埃爾-西蒙·拉普拉斯作出了男女出生機率均等的虛無假說,然後計算了人類出生時性別比p值[18][19][20][21][22][23][24]

1925年,羅納德·費雪在《研究工作者的統計方法英語Statistical Methods for Research Workers》一書中提出了統計假說檢定的思想,稱之為「顯著性檢定」(tests of significance)。[25][26][27]費雪建議將1/20(=0.05)的機率作為拒絕虛無假說的一個截斷值。[28]在1933年的一篇論文中,耶日·內曼埃貢·皮爾森把這個截斷值稱為「顯著水準」,並賦予它符號α。他們建議,α值應當在收集任何數據收集之前提前設定。[28][29]

費雪最初將顯著水準定為0.05,但他並不打算將這一截斷值定死。在他1956年出版的《統計方法與科學推斷》一書中,他建議根據具體情況確定顯著水準。[28]

相關概念

顯著水準αp值的閾值,當pα時就拒絕虛無假說(即使虛無假說仍有可能是正確的)。這意味著α也是在虛無假說正確的情況下錯誤地將其否定的機率[3],稱為偽陽性型一錯誤、棄真錯誤、α錯誤。

而有些研究者偏好使用信心水準γ = 1 − α。它是虛無假說成立時不拒絕虛無假說的機率。[30][31]信心水準和信賴區間是Neyman於1937年提出的。[32]

顯著水準

顯著水準significance level,符號:α)常用於假說檢定中檢定假設和實驗結果是否一致,它代表在虛無假說(記作)為真時,錯誤地拒絕的機率,即發生型一錯誤(棄真錯誤、α錯誤)的機率。

比如,我們從兩個母體中分別抽取了兩組樣本數據A和B,這兩組數據在顯著水準α = 0.05下具備顯著性差異。這是說,兩組數據所代表的母體具備顯著性差異的可能性為95%;但它們代表的母體仍有5%的可能性是沒有顯著性差異的,這5%是由於抽樣誤差英語sampling error造成的。也可表述為:

  • 如果拒絕「兩組數據一致(二者不具備顯著性差異)」的虛無假說(接受「兩組數據不一致」的對立假說),此時有5%的可能性犯型一錯誤
  • 如果A=兩組數據不具備顯著差異;B=實際數據具有顯著差異,則P(A|B) = 0.05,即統計100次,預期是B情況,但可能出現5次的A情況。

假說檢定所測得之數據之間具有顯著性差異,實驗的虛無假說就可被推翻,也就是拒絕,接受對立假說(alternative hypothesis,記作);反之,若數據之間不具備顯著性差異,則拒絕對立假說,不拒絕虛無假說。通常情況下,實驗結果需要證明達到顯著水準α = 0.050.01,才可以說數據之間具備了顯著性差異,否則就如上所述,容易作出錯誤的推論。在作結論時,應確實描述方向性(例如顯著大於或顯著小於)。

數學表述為:引入p值作為檢定樣本(test statistic)觀察值的最低顯著水準。在α = 0.01α = 0.05的條件下,若虛無假說成立的機率p)小於α,則表示虛無假說成立的情況下得到這種觀測結果的機率,比1%或5%還低,在該顯著水準下,我們可拒絕該虛無假說。

  • P(X=x)<α=0.05為「顯著(significant)」,統計分析軟體SPSS中以*標記;
  • P(X=x)<α=0.01為「極顯著(extremely significant)」,通常以**標記。

局限性

研究人員常常只關注他們的結果是否具有統計學意義,但其報告的結果可能並沒有實質性[33],或者研究結果無法重現英語Reproducibility[34][35]。統計學意義與實際意義之間也不能等同,有統計學意義的研究未必就有實際意義。[36][37]

效應值

效應值是衡量一項研究的實際意義。[36]統計上顯著的結果可能效應量很低。為了衡量結果的研究意義,研究人員最好同時給出效應值和p值。效應量量化了效應的強度,例如以標準差為單位的兩個平均值之間的距離(Cohen's d)、兩個變量之間的相關係數其平方,以及其他度量。[38]

再現性

統計上顯著的結果未必能夠輕易重現英語Reproducibility[35]特別是一些有顯著性差異的結果實際上是假陽性。重現結果每失敗一次,都意味著研究結果實際上為假陽性的可能性增加。[39]

參見

參考文獻

  1. ^ 1.0 1.1 Sirkin, R. Mark. Two-sample t tests. Statistics for the Social Sciences 3rd. Thousand Oaks, CA: SAGE Publications, Inc. 2005: 271–316. ISBN 978-1-412-90546-6. 
  2. ^ Borror, Connie M. Statistical decision making. The Certified Quality Engineer Handbook 3rd. Milwaukee, WI: ASQ Quality Press. 2009: 418–472. ISBN 978-0-873-89745-7. 
  3. ^ 3.0 3.1 Dalgaard, Peter. Power and the computation of sample size. Introductory Statistics with R. Statistics and Computing. New York: Springer. 2008: 155–56. ISBN 978-0-387-79053-4. doi:10.1007/978-0-387-79054-1_9. 
  4. ^ 平克, 史蒂芬. 理性. : 282. 
  5. ^ Statistical Hypothesis Testing. www.dartmouth.edu. [2019-11-11]. (原始內容存檔於2020-08-02). 
  6. ^ Johnson, Valen E. Revised standards for statistical evidence. Proceedings of the National Academy of Sciences. October 9, 2013, 110 (48): 19313–19317. Bibcode:2013PNAS..11019313J. PMC 3845140可免費查閱. PMID 24218581. doi:10.1073/pnas.1313476110可免費查閱. 
  7. ^ Redmond, Carol; Colton, Theodore. Clinical significance versus statistical significance. Biostatistics in Clinical Trials. Wiley Reference Series in Biostatistics 3rd. West Sussex, United Kingdom: John Wiley & Sons Ltd. 2001: 35–36. ISBN 978-0-471-82211-0. 
  8. ^ Cumming, Geoff. Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. New York, USA: Routledge. 2012: 27–28. 
  9. ^ Krzywinski, Martin; Altman, Naomi. Points of significance: Significance, P values and t-tests. Nature Methods. 30 October 2013, 10 (11): 1041–1042. PMID 24344377. doi:10.1038/nmeth.2698可免費查閱. 
  10. ^ Sham, Pak C.; Purcell, Shaun M. Statistical power and significance testing in large-scale genetic studies. Nature Reviews Genetics. 17 April 2014, 15 (5): 335–346. PMID 24739678. S2CID 10961123. doi:10.1038/nrg3706. 
  11. ^ Altman, Douglas G. Practical Statistics for Medical Research需要免費註冊. New York, USA: Chapman & Hall/CRC. 1999: 167. ISBN 978-0412276309. 
  12. ^ Devore, Jay L. Probability and Statistics for Engineering and the Sciences 8th. Boston, MA: Cengage Learning. 2011: 300–344. ISBN 978-0-538-73352-6. 
  13. ^ Craparo, Robert M. Significance level. Salkind, Neil J. (編). Encyclopedia of Measurement and Statistics 3. Thousand Oaks, CA: SAGE Publications: 889–891. 2007. ISBN 978-1-412-91611-0. 
  14. ^ Sproull, Natalie L. Hypothesis testing. Handbook of Research Methods: A Guide for Practitioners and Students in the Social Science 2nd. Lanham, MD: Scarecrow Press, Inc. 2002: 49–64. ISBN 978-0-810-84486-5. 
  15. ^ Babbie, Earl R. The logic of sampling. The Practice of Social Research 13th. Belmont, CA: Cengage Learning. 2013: 185–226. ISBN 978-1-133-04979-1. 
  16. ^ Faherty, Vincent. Probability and statistical significance. Compassionate Statistics: Applied Quantitative Analysis for Social Services (With exercises and instructions in SPSS) 1st. Thousand Oaks, CA: SAGE Publications, Inc. 2008: 127–138. ISBN 978-1-412-93982-9. 
  17. ^ McKillup, Steve. Probability helps you make a decision about your results需要免費註冊. Statistics Explained: An Introductory Guide for Life Scientists 1st. Cambridge, United Kingdom: Cambridge University Press. 2006: 44–56. ISBN 978-0-521-54316-3. 
  18. ^ Brian, Éric; Jaisson, Marie. Physico-Theology and Mathematics (1710–1794). The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. 2007: 1–25. ISBN 978-1-4020-6036-6. 
  19. ^ John Arbuthnot. An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes (PDF). Philosophical Transactions of the Royal Society of London. 1710, 27 (325–336): 186–190 [2022-06-19]. doi:10.1098/rstl.1710.0011可免費查閱. (原始內容 (PDF)存檔於2021-06-03). 
  20. ^ Conover, W.J., Chapter 3.4: The Sign Test, Practical Nonparametric Statistics Third, Wiley: 157–176, 1999, ISBN 978-0-471-16068-7 
  21. ^ Sprent, P., Applied Nonparametric Statistical Methods Second, Chapman & Hall, 1989, ISBN 978-0-412-44980-2 
  22. ^ Stigler, Stephen M. The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. 1986: 225–226. ISBN 978-0-67440341-3. 
  23. ^ Bellhouse, P., John Arbuthnot, in Statisticians of the Centuries by C.C. Heyde and E. Seneta, Springer: 39–42, 2001, ISBN 978-0-387-95329-8 
  24. ^ Hald, Anders, Chapter 4. Chance or Design: Tests of Significance, A History of Mathematical Statistics from 1750 to 1930, Wiley: 65, 1998 
  25. ^ Cumming, Geoff. From null hypothesis significance to testing effect sizes. Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. Multivariate Applications Series. East Sussex, United Kingdom: Routledge. 2011: 21–52. ISBN 978-0-415-87968-2. 
  26. ^ Fisher, Ronald A. Statistical Methods for Research Workers. Edinburgh, UK: Oliver and Boyd. 1925: 43. ISBN 978-0-050-02170-5. 
  27. ^ Poletiek, Fenna H. Formal theories of testing. Hypothesis-testing Behaviour. Essays in Cognitive Psychology 1st. East Sussex, United Kingdom: Psychology Press. 2001: 29–48. ISBN 978-1-841-69159-6. 
  28. ^ 28.0 28.1 28.2 Quinn, Geoffrey R.; Keough, Michael J. Experimental Design and Data Analysis for Biologists 1st. Cambridge, UK: Cambridge University Press. 2002: 46–69. ISBN 978-0-521-00976-8. 
  29. ^ Neyman, J.; Pearson, E.S. The testing of statistical hypotheses in relation to probabilities a priori. Mathematical Proceedings of the Cambridge Philosophical Society. 1933, 29 (4): 492–510. Bibcode:1933PCPS...29..492N. doi:10.1017/S030500410001152X. 
  30. ^ "Conclusions about statistical significance are possible with the help of the confidence interval. If the confidence interval does not include the value of zero effect, it can be assumed that there is a statistically significant result." Prel, Jean-Baptist du; Hommel, Gerhard; Röhrig, Bernd; Blettner, Maria. Confidence Interval or P-Value?. Deutsches Ärzteblatt Online. 2009, 106 (19): 335–9. PMC 2689604可免費查閱. PMID 19547734. doi:10.3238/arztebl.2009.0335. 
  31. ^ StatNews #73: Overlapping Confidence Intervals and Statistical Significance (PDF). [2022-06-19]. (原始內容 (PDF)存檔於2020-06-21). 
  32. ^ Neyman, J. Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability. Philosophical Transactions of the Royal Society A英語Philosophical Transactions of the Royal Society A. 1937, 236 (767): 333–380. Bibcode:1937RSPTA.236..333N. JSTOR 91337. doi:10.1098/rsta.1937.0005可免費查閱. 
  33. ^ Carver, Ronald P. The Case Against Statistical Significance Testing. Harvard Educational Review. 1978, 48 (3): 378–399. S2CID 16355113. doi:10.17763/haer.48.3.t490261645281841. 
  34. ^ Ioannidis, John P. A. Why most published research findings are false. PLOS Medicine. 2005, 2 (8): e124. PMC 1182327可免費查閱. PMID 16060722. doi:10.1371/journal.pmed.0020124. 
  35. ^ 35.0 35.1 Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias. The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research. PeerJ. 2017, 5: e3544. PMC 5502092可免費查閱. PMID 28698825. doi:10.7717/peerj.3544. 
  36. ^ 36.0 36.1 Hojat, Mohammadreza; Xu, Gang. A Visitor's Guide to Effect Sizes. Advances in Health Sciences Education. 2004, 9 (3): 241–9. PMID 15316274. S2CID 8045624. doi:10.1023/B:AHSE.0000038173.00909.f6. 
  37. ^ Hooper, Peter. What is P-value? (PDF). University of Alberta, Department of Mathematical and Statistical Sciences. [November 10, 2019]. (原始內容 (PDF)存檔於2020-03-31). 
  38. ^ Pedhazur, Elazar J.; Schmelkin, Liora P. Measurement, Design, and Analysis: An Integrated Approach Student. New York, NY: Psychology Press. 1991: 180–210. ISBN 978-0-805-81063-9. 
  39. ^ Stahel, Werner. Statistical Issue in Reproducibility. Principles, Problems, Practices, and Prospects Reproducibility: Principles, Problems, Practices, and Prospects. 2016: 87–114. ISBN 9781118864975. doi:10.1002/9781118865064.ch5.