統計誤用
統計誤用是指統計學的爭論被斷言為謬誤。在一些情況,這些誤用是意外發生的。可是,在其他情況,這都是有目的的,而且會令使用統計誤用的人從中得到好處。當其統計原因涉及到錯誤或誤用,便構成了統計謬誤。
錯誤的統計會對知識的追求甚至現實生活帶來負面的影響。例如一個醫學上的謬誤會浪費人們數十年的時間,並會招致人命損失。
統計誤用容易發生,即使數學家和專業統計學家在仔細小心的狀況下也會被統計謬誤給整到,哪怕這些專家再小心翼翼、整到他們的謬誤再簡單也一樣;此外,已知有科學家因為缺乏對機率論的了解,對測試也沒有標準化之故,而被統計謬誤給整到的例子。
簡單的成因
許多統計謬誤因為以下原因而出現:
- 資料來自相關專家,而非統計學家,[1]在這種狀況下,資料來源可能會包含對數據錯誤的研究方法或解釋。
- 資料源自統計學家,而非相關專家[2]在這種狀況下,相關專家應當要知道比較的數據描述的是不同的東西。在法律定義或政治邊界變動時,數字會變,但事實不會變。
- 研究的對象缺乏良好的定義,[3]或者研究對象的一些部分容易量化、另一些部分不容易量化,或者沒有已知的量化方式(也就所謂的麥納馬拉謬誤)。例子如下:
- 資料來源品質不佳,[6]成衣在此給了一個例子。人有各種不同的體型和大小,這表示說衣服大小必然是多向度的;然而除此之外,這問題在一些想不到的地方變得複雜,一些衣服只以尺寸出售,而不特別考慮體型;不同國家和成衣商用的尺寸有差異,且一些服裝的尺寸是刻意誤導的。因此盡管尺寸是數字化的,但只有在小心使用這些數字的狀況下才能做出最粗淺的統計分析。
- 大眾向媒體專業不足且各有不同的動機,[7]如果事實不是那麼地具有新聞價值(而這可能需要誇大),那就可能不會受到報導;至於廣告的動機則更是各懷鬼胎。
- 《對犯罪數據的使用和誤用》(Uses and abuses of crime statistics)這篇來自澳洲的對犯罪統計的報告呈現了許多對統計數據的解讀和誤讀:「媒體對取得犯罪資訊的能力的增加,與其對犯罪報導的品質並未成正比,媒體對犯罪數據的濫用,已阻礙了對法律和秩序的理性辯論」;而媒體的濫用如次:選擇性引用資料、選擇性報導事實、誤導性評論、對事實的錯誤呈現與具誤導性的標題等。警察和政治人物也濫用統計數據。[7]
- 「政治人物對統計數據的使用,就如醉鬼對路燈的使用一般,都是為了尋求支持而非光明。」(出自安德魯·朗格)─「我們從看到同樣數據的兩種方式中學到了什麼?我們學到了說左派或右派的宣傳家幾乎總是可以找到一個方法,使得經濟成長的數據看似支持自己的論點;而我們也學到說要對任何來自高度政治化來源資料的統計分析抱持懷疑態度。」[8]英語「統計」一詞statistics,源自為政府製造並為政府使用的數據,好的政府可能需要精確的數據,但民粹政府可能需要支持性的數據,而這兩者未必相同,而「政府對統計的使用和濫用,是一門古老的藝術。」[9]
誤用的類型
一間公司若要推廣中性(無用)或不良的產品,一個方法就是找到該產品有用或有益的「證據」,像例如說如果該產品真的是無用的,那麼在置信等級有95%的狀況下,40個產品相關的研究數據便有可能是由1份指出產品是好的、1份指出產品是不好的及38份不確定的研究(38是40的95%)所組成的。當研究報告越多時,這個策略便越有效。
組織是不會把他們的所有的研究都公開的,人們也常會引用與支持自身信念的數據,例如煙草公司會否認吸煙和癌症之間的關聯,而提倡禁煙組織和媒體則會嘗試著證明吸煙和多種病症是有關聯的,減肥藥物製造商也常用這個策略;同理,推動廢除死刑的個人或人權團體也會傾向採用死刑無助治安的數據,其他的個人或團體也常會傾向使用對自身論點有利的數據和研究。
另一個常見的技巧就是進行測試中有大量應變項(dependent variable)的研究。一個例子如次︰一個測試治療方法的效果的研究可以存活率、在醫院的平均日數、病人自報的疼痛程度等作為應變項,而在這種狀況下,最少一個變項會剛好與自變項(independent variable)發生關連的可能性便會增加,研究人員也可藉此得到想要的結果。
羅納德·愛爾默·費雪在他女士對茶的味覺的研究中提到了此問題(可見於他於1935年出版的《實驗設計》一書中),對於這重複的實驗,他說:「這明顯是不合理的,且在不考慮不成功的結果下,這可能會將我們的運算從基礎中奪走」
採櫻桃謬誤是與此相關的一個概念。
忽略重要特徵
多變量資料會有超過兩個向度,假若使用太少的向度(像例如只選取一個特徵且只做簡單線性回歸,而非做多重線性回歸)的話,就可能導致誤導性的結果,而這使得分析師容易受統計悖論或下述的某種假關係影響。
不恰當的問題
問題的用字能引導受訪者給予某一答案,問卷的結果因而能被操縱(參見觀察者期望效應)。例如在有關戰爭的民意調查中,問題為︰
- 你支持美國的企圖能為其他國家帶來自由和民主嗎?
- 你支持美國的無故軍事行動嗎?
以上兩道問題雖然也有關戰爭的民意調查,但所得出的結果會有所不同。(參見預立論題)
另一做法是在問題前加上支持「理想答案」的資料。例如︰
- 已知稅項會增加中產家庭的負擔,你支持扣減所得稅嗎?
- 在考慮國家的預算赤字和收入的迫切需求,你支持扣減所得稅嗎?
在前者,有較多人會傾向回答「支持」。(參見誘導性提問)
輕率概化
輕率概化是當一個統計的的特定總體不能代表原本總體時發生的謬誤。
例如,假設在夏天時的蘋果100%也是紅色的。那麼,「所有蘋果都是紅色」的推斷便是過度類化,因為原本的統計只對那些在夏天的蘋果正確,而不能代表所有蘋果;或者看到已開發國家廢除死刑後的治安數據,就斷定死刑對治安沒有影響,但已開發國家廢除死刑後的狀況不能代表所有國家的狀況。
在現實生活中,禁止通過電話的政治民意調查可見到過度類化的謬誤。由於年青人只擁有一部手提電話,而非也擁有一部家用電話,這種年青人會被視為自由主意者,而沒有家用電話的年青人很大機會會被當作整體,這些民意調查便有效地使很多自由的選民排除在外。[10]
因此,使用這種技巧的民意調查所檢驗的年青人的投票意願,是不能在沒有過度類化的情況下聲稱能代表所有年青人的真正投票意願,這是因為其使用的樣本不是整個總體的代表。
當資料在某個媒體經過非技術性的來源,過度類化便經常出現。[11]
以偏概全(抽樣偏差, biased samples)
科學家在過去以巨大的代價學到蒐集良好的實驗數據以做統計分析是困難的,像例如說安慰者效應常常會非常強大,一個例子是在一個實驗中,所有的受試者在接觸被貼上「毒藤」標籤的惰性物質之後,都起了皮疹,反倒那些接觸被貼上「無害」標籤的毒藤的人,只有少數人起來皮疹。[12]研究者現在藉由雙盲隨機化比較實驗來應對此現象。比起分析本身,統計學家通常更擔心資料的真確性,而這反映在統計學當中一門被稱為「實驗設計」的研究當中。
做民調的人在過去也以巨大的代價學到蒐集良好的調查資料以做統計分析是困難的。一個潛在的例子是在資料收集上手機所產生的選擇效應(此事在本文「輕率概化」一節中也有談及),如果擁有傳統電話的年輕人並不能代表年輕人整體,那麼電話抽樣就會出現偏差。樣本觀察當中有許多陷阱,在實際執行時,要非常地小心[13];另外,在電話抽樣時,往往要打將近3000通電話,才能得到一千個樣本。因此對於母體的簡單隨機抽樣「並不簡單,也未必隨機」。[14]
估計錯誤的誤報或誤解
如果一個研究小組希望知道300萬人對指定題目的看法,一一詢問是個不實際的做法。可是,如果這個小組隨意抽出1000人作樣本,這些人給予的回應便可代表那300萬人的意願。
這個置信區間可以被中心極限定理和其他數學的結果量化。它會被表達為一個在指定範圍的估計值(較小組別的數字)的真實結果(較大組別)的概率。這是經常被統計調查引用的「正或負」數。這個置信區間的概率部份不是常常被提起,即使有被提起,它也會被假設為像95%的標準數。
這兩個數字是有關的。如果一個問卷調查在95%的置信區間中,其估計誤差為±5%;在99%的置信區間中,其估計誤差為±6.6%。當置信區間為95%時是±%,那置信區間為99%時,就會變為±%。
當估計錯誤越少時,便需要越大的樣本空間。像例如說置信區間為95.4%時,各種估計誤差所需要的調查人數如下︰
- ±1%需要10,000人。
- ±2%需要2,500人。
- ±3%需要1,111人。
- ±4%需要625人。
- ±5%需要400人。
- ±10%需要100人。
- ±20%需要25人。
- ±25%需要16人。
- ±50%需要4人。
很多人採用了這些數字,因為忽略了置信區間而以為這是100%肯定真實結果,忘了這是存有估計誤差的,而這種看法在數學上是不正確的。
很多人可能不會發現說樣本空間的隨意性,是會造成十分重要的差異的。在日常的做法中,很多輿論調查也通過電話進行,而這種方法會在幾方面歪曲樣本空間,當中包括剔除了沒有電話的人、重覆計算了擁有多於一部電話的人等。非隨機抽樣會使估計誤差變得不可靠。
非隨機抽樣使估計變得不可靠的一個例子是1936年美國總統選舉前,《文學文摘》郵寄1,000萬份問卷予其讀者,回收230萬份。他們預測共和黨候選人阿爾夫·蘭登會在531張選舉人票中獲得370張選票並勝過民主黨候選人富蘭克林·德拉諾·羅斯福。
該次總統大選,阿爾夫·蘭登實際上只獲得8張選舉人票,而富蘭克林·德拉諾·羅斯福則在大選中大勝。一個說法認為,《文學文摘》的讀者比美國人口擁有更多共和黨人,故此他們更傾向於投票給阿爾夫·蘭登。《文學文摘》的民調樣本有明顯的偏差。
在另一方面,由於不是所有人的意見也問到或他們從來亦未被訪問,所以很多人都認為統計是不可靠的。不少人認為只透過調查數千人是不可能取得數百萬人的意見,這也是不準確的。一個有完美公正的抽樣和可信答案的調查在數學上被定義為誤差範圍,這是只取決於調查的人數。
可是,問卷調查通常只有一個誤差範圍。當一小群人的結果被報告時,誤差範圍便會較大,但這可能不太清楚,例如,一個1000人的問卷調查可能會包含100位來自指定種族或經濟組別。聚焦組別得出的結果會比總體的不太可靠。如果整個樣本空間的誤差範圍是4%,那麼一個分組的誤差範圍便會是大約13%。
人口調查還會出現很多其他量度上的問題。以上提及的問題不只會發生在人口調查,還會發生在所有的統計實驗。
錯誤的因果關係
當一個統計測試展示A和B之間的關係時,通常也會有5種可能性︰
- A導致B。
- B導致A。
- A和B互相導致對方出現。
- C導致A和B。
- 觀察得的關係純屬偶然。
第五個可能性可透過統計測試來量化,計算出來的機率與其可能發生的機會是一樣大的。事實上,變量之間是沒有關係的。可是,即使那個機率的可能性很少,其餘四個可能性仍有機會發生。
以下以現實中可能會碰到的狀況,來說明錯誤因果關係。如果今天有人說「在沙灘裡購買雪糕的人越多,那麼在沙灘裡遇溺的人就越多,因此購買雪糕導致更多人溺水」,那也不會有多少人認真考慮這說法,因為顯然地,就算在沙灘裡購買雪糕的人數是與在沙灘裡遇溺的人數有關的,也沒有人會斷言雪糕會導致遇溺,這是因為這兩件事情明顯地無關,而遇溺和購買雪糕清楚地與第三個因素,也就是沙灘上的人數有關;然而,這不表示類似的謬誤就不會出現,這個謬誤的一個例子,是證明接觸化學品會導致癌症。很多時候人們會把「購買雪糕的人數」用「接觸化學品X的人數」代替,以及把「溺水的人數」用「患上癌症的人數」代替。在這個情況,即使這樣做沒有真正的效果,那仍然有一個統計上的關聯。
例如,如果某一地方對化學品站是「危險」(即使它不危險)的資產的看法減少,這會誘使更多低收入家庭搬到該地,即使那種化學品本身不危險亦然。如果低收入家庭較高收入家庭容易患上癌症(這可能是基於更差膳食和醫療技術欠佳等原因),然後患癌率上升的話,那這樣就會導致錯誤的結論。在一些證明電源線的EMF(電磁場)和癌症的關聯的研究中[15],這個情況真的發生了。[16]
其他的例子像是古人所謂的「賢士國之寶,美女國之咎:夏亡以妹喜,殷亡以妲己,周亡以褒姒。」《吳越春秋》[note 1]這件事,但盡管可以觀察到說「美女出現,之後朝代覆亡」,這不代表美女的出現,就是之後朝代覆亡的原因,要同時考慮「有其他的因素,如君王本身的人格特質,導致了美女的出現與之後朝代的覆亡」或者「美女的出現與之後朝代的覆亡之間的關係純屬偶然」等等各種可能性;還有一個例子就是看到死刑判決數越多的時候,謀殺犯罪率也越高,就斷定死刑導致更多謀殺,但就算如此,有可能死刑和謀殺之間的關係,純屬偶然,或更可能地,謀殺增加導致更多死刑判決。
在構思甚佳的研究中,錯誤的因果關係的影響可透過隨機分別分配一些人到「受試組」及「控制組」中來排除,研究人員可藉由對受試組的人施加影響(例如進行治療),不對控制組的人施加影響的方式,來得知真實的因果關係。在以上化學品X的例子中,研究人員應當要將受測者隨機分成兩組,讓其中一組人暴露在化學品X中,並讓另一組人不暴露在化學品X中,以將其他變因的可能性給降到最低。如果在這實驗中,第一組人有較高的患癌率,由於研究員控制了實驗對像有否暴露在化學品X中,他便知道沒有第三個因素影響,進而可以斷定化學品X會導致癌症;或在以上死刑的例子中,將國家隨機分成兩組,一組對謀殺有死刑,另一組對謀殺沒有死刑,以查看死刑對謀殺的影響;可是,這樣做實驗是十分昂貴、不可行、不合法或完全不可能的。例如說機構審查委員會大多不會批准進行為了測試某物質的毒性而把人類暴露在危險物質當中的實驗,這類實驗明顯的道德暗示會限制了研究員憑驗經驗地判斷實驗因果關係的能力。
零假設的證明
深挖數據
深挖數據是對数据挖掘的一種濫用。在深挖數據中,行為者在沒有預先對需要檢驗的假設做出決定的狀況下,檢視大筆的資料,以尋找關聯。由於在一般狀況下,要建立兩個變數間的關聯所需的置信區間通常是95%(這表示觀察到的關係,有95%的可能性不是隨機的),因此在任意兩組隨機的變數間找到關聯的機率依舊有5%。由於人們在深挖數據的時候,通常會檢視大筆且有多個變數的資料,進而會檢視更大量的變數對之故,因此在任何這類的研究中,幾乎都一定能找到統計上看起來相關但可疑的結果。
當注意的是,深挖數據是找到可能假說的有效方法,但由此方法找到的假說,必須以其他的資料來檢視,而不能用被用於深挖數據的原始資料來檢視;而深挖數據所造成的誤用,會在將發現的假說視為事實,而未做進一步確認的時候發生。
或曰:「你不能合理地用和指出某特定假說的資料相同的資料,來檢驗該項假說,對治此狀況的方法很明確,就是一旦你有了一個假說,就要為你現在認為存在的效應,特別設計一項研究。一旦測試的結果是統計相關的,你就有了確實的證據。」[note 2][17]
數據操縱
數據操縱指的是選擇性使用數據(可參見發表偏差)或甚至捏造數據的作為。
選擇性使用數據的狀況很多,最常見的例子就是選擇那些模式符合研究者所偏好的假說的結果,而忽略掉其他那些和假說不合的結果。
一般而言,科學家會質疑不能被其他調查者重現的研究結果;然而,一些科學家會拒絕出版他們所用的數據和研究方法。[18]
數據操縱是統計分析誠實性上一個非常嚴重的問題;不過離群值、數據缺失和非常態性都會對統計分析的真確性,造成負面的影響,在分析開始前,研究數據本身並對其確實存在的問題進行修補是合理的。或曰:「在任何分散的圖表上,都多少會有一些點,是偏離資料主體所形成的雲的。這些點應當被剔除,以清楚呈現因果關係。」[note 3][19]
其他謬誤
其他的謬誤包括「拿蘋果跟橘子比」[note 4]、誤用平均數(像是例如說「男人和女人平均有一顆睪丸」[note 5],前总统德怀特·艾森豪威尔对一半的美国人的智力不足平均水平的震惊)、「均值迴歸」(regression toward the mean)以及「垃圾進,垃圾出」等等;此外,一些統計數據就純粹與議題無關。
安斯庫姆四重奏是一組虛構的數據,被用以顯示簡單描述統計(以及未經過數值分析的統計圖的數值)的不足。
參見
註解
- ^ 白話翻譯:「賢能的士人,是國家的珍寶,而美女則是國家的禍害。像例如說夏朝的滅亡,就是因為一個叫妹喜的美女造成的;商朝的滅亡,就是因為一個叫妲己的美女造成的;周朝的滅亡,就是因為一個叫褒姒的美女造成的。」
- ^ 原文:"You cannot legitimately test a hypothesis on the same data that first suggested that hypothesis. The remedy is clear. Once you have a hypothesis, design a study to search specifically for the effect you now think is there. If the result of this test is statistically significant, you have real evidence at last."
- ^ 原文:"[I]n any scatter diagram there will be some points more or less detached from the main part of the cloud: these points should be rejected only for cause."
- ^ 這是一個常見的比喻,用以指稱拿兩個頂多只是有點相關但本質不同、因而不應該相互比較的事物進行比較的行為。
- ^ 這是顯而易見沒有考慮母體分布特性所做出的平均值,經常被用以反諷無意義的統計數據,例如以平均收入、財富宣稱人民生活富裕,卻忽略貧富差距
參考資料
- ^ Spirer, Spirer & Jaffe 1998,chapters 7 & 8.
- ^ Spirer, Spirer & Jaffe 1998,chapter 3.
- ^ Spirer, Spirer & Jaffe 1998,chapter 4.
- ^ Adler, Robert; John Ewing; Peter Taylor. Citation statistics. Statistical Science. 2009, 24 (1): 1–14. doi:10.1214/09-STS285 .
- ^ Spirer, Spirer & Jaffe 1998,chapter title.
- ^ Spirer, Spirer & Jaffe 1998,chapter 5.
- ^ 7.0 7.1 Weatherburn, Don, Uses and abuses of crime statistics (PDF), Crime and Justice Bulletin: Contemporary Issues in Crime and Justice (NSW Bureau of Crime Statistics and Research), November 2011, 153, ISBN 9781921824357, ISSN 1030-1046, 原始内容存档于June 21, 2014
- ^ Krugman, Paul. Peddling prosperity: economic sense and nonsense in the age of diminished expectations. New York: W.W. Norton. 1994: 111. ISBN 0-393-03602-2.
- ^ Spirer, Spirer & Jaffe 1998.
- ^ Silver, Nate. ‘Robopolls' Significantly More Favorable to Republicans Than Traditional Surveys. The New York Times. 28 October 2010 [2012-03-04]. (原始内容存档于2020-10-15).
- ^ Lisa M. Schwartz, Steven Woloshin. On the prevention and treatment of exaggeration. Journal of General Internal Medicine. 2003-02-01, 18 (2): 153–154 [2018-04-02]. ISSN 0884-8734. doi:10.1046/j.1525-1497.2003.21216.x. (原始内容存档于2019-06-29) (英语).
- ^ Moore & Notz 2006,第97頁.
- ^ Moore & McCabe 2003,第252–254頁.
- ^ Moore & Notz 2006,第53, Sample surveys in the real world頁.
- ^ Gaia Vince. Large study links power lines to childhood cancer. New Scientist. 2005-06-03 [2017-06-16]. (原始内容存档于2014-08-16) (美国英语).
- ^ John W. Farley. Power Lines and Cancer: Nothing to Fear. www.quackwatch.org. [2017-06-16]. (原始内容存档于2020-01-14).
- ^ Moore & McCabe 2003,第466頁.
- ^ Neylon, C. Scientists lead the push for open data sharing. Research Information (Europa Science). 2009, 41: 22–23. ISSN 1744-8026. 原始内容存档于December 3, 2013.
- ^ Freedman, Pisani & Purves 1998,chapter 9: More about correlations, §3: Some exceptional cases