方差分析
此條目需要精通或熟悉数学的编者参与及协助编辑。 (2011年2月11日) |
變異數分析(英語:Analysis of variance,簡稱:ANOVA)為資料分析中常見的統計模型,主要為探討連續型(Continuous)資料型態之因变量與類別型資料型態之自变量的關係,當自變項的因子中包含等於或超過三個類別情況下,檢定其各類別間平均數是否相等的統計模式,廣義上可將T檢定中變異數相等(Equality of variance)的合併T檢定(Pooled T-test)視為是變異數分析的一種,基於T檢定為分析兩組平均數是否相等,並且採用相同的計算概念,而實際上當變異數分析套用在合併T檢定的分析上時,產生的F值則會等於T檢定的平方項。
變異數分析依靠F-分布為機率分布的依據,利用平方和(Sum of square)與自由度(Degree of freedom)所計算的組間與組內均方(Mean of square)估計出F值,若有顯著差異則考量進行事後比較或稱多重比較(Multiple comparison),較常見的為薛費法(事後比較法)、杜其範圍檢定與邦費羅尼校正,用於探討其各組之間的差異為何。
在變異數分析的基本運算概念下,依照所感興趣的因子數量而可分為單因子變異數分析、雙因子變異數分析、多因子變異數分析三大類,依照因子的特性不同而有三種型態,固定效應變異數分析(fixed-effect analysis of variance)、隨機效應變異數分析(random-effect analysis of variance)與混合效應變異數分析(Mixed-effect analaysis of variance),然而第三種型態在後期發展上被認為是Mixed model的分支,關於更進一步的探討可參考Mixed model的部份。
變異數分析優於兩組比較的T檢定之處,在於後者會導致多重比較(multiple comparisons)的問題而致使第一型錯誤(Type one error)的機會增高,因此比較多組平均數是否有差異則是變異數分析的主要命題。
在统计学中,方差分析(ANOVA)是一系列统计模型及其相关的过程总称,其中某一变量的方差可以分解为归属于不同变量来源的部分。其中最简单的方式中,方差分析的统计测试能够说明几组数据的平均值是否相等,因此得到两组的T檢定。在做多组双变量T檢定的时候,错误的機率会越来越大,特别是第一型錯誤,因此方差分析只在二到四组平均值的时候比较有效。
背景和名称
方差分析(ANOVA)是一种特殊形式的統計假設檢定,广泛应用于实验数据的分析中。統計假設檢定是一种根据数据进行决策的方法。测试结果(通过零假设进行计算)如果不仅仅是因为运气,则在统计学上称为显著。统计显著的结果(当可能性的p值小于临界的“显著值”)则可以推翻零假设。
在方差分析的经典应用中,原假设是假设所有数据组都是整体测试对象的完全随机抽样。这说明所有方法都有相同效果(或无效果)。推翻原假设说明不同的方法,会得到不同的效果。在操作中,假设测试限定I类型错误(假阳性导致的假科学论断)达到某一具体的值。实验者也希望II型错误(假阴性导致的缺乏科学发现)有限。II型错误受到多重因素作用,例如取样范围(很可能与试验成本有关),相关度(当实验标准高的时候,忽视发现的可能性也大)和效果范围(当对一般观察者来说效果明显,II型错误发生率就低)。
ANOVA的模式型態
變異數分析分為三種型態:
固定效應模式(Fixed-effects models)
用於變異數分析模型中所考慮的因子為固定的情況,換言之,其所感興趣的因子是來自於特定的範圍,例如要比較五種不同的汽車銷售量的差異,感興趣的因子為五種不同的汽車,反應變數為銷售量,該命題即限定了特定範圍,因此模型的推論結果也將全部著眼在五種汽車的銷售差異上,故此種狀況下的因子便稱為固定效應。
隨機效應模式(Random-effects models)
不同於固定效應模式中的因子特定性,在隨機效應中所考量的因子是來自於所有可能的母群體中的一組樣本,因子變異數分析所推論的並非著眼在所選定的因子上,而是推論到因子背後的母群體,例如,藉由一間擁有全部車廠種類的二手車公司,從所有車廠中隨機挑選5種車廠品牌,用於比較其銷售量的差異,最後推論到這間二手公司的銷售狀況。因此在隨機效應模型下,研究者所關心的並非侷限在所選定的因子上,而是希望藉由這些因子推論背後的母群體特徵。
混合效應模式(Mixed-effects models)
此種混合效應絕對不會出現在單因子變異數分析中,當雙因子或多因子變異數分析同時存在固定效應與隨機效應時,此種模型便是典型的混合型模式。
ANOVA的模式假設
變異數分析之統計分析假設通常會依照各種模式型態不同而有差異,但廣義而言,變異數分析一共有三大前提假設:
- 各組樣本背後所隱含的族群分布必須為常態分布或者是逼近常態分布。
- 各組樣本必須獨立。
- 族群的變異數必須相等。
總變量(TSS):
i為組別(i=1,2...,I),j為觀測值個數(j=1,2,3,...,J),為第i組第j個觀測值,為所有觀測值的平均數。
組間變異量(BSS):
為i組內觀測值總數,為第i組的平均數
組內變異量(WSS):
由上述的計算公式可知,BSS代表所有觀測值的期望值與分組後各組內的期望值差異,換言之,當各組的期望值沒有差異的時候,BSS=0,這個時候我們會認為各組間平均值就沒有差異存在,但並不代表所有觀測值的一致性也會很高,因此計算WSS來幫助我們判斷所有期望值的差異量多寡,當WSS=0的情況,代表各組內的所有觀測值與各組的期望值沒有差異存在,因此只有WSS與BSS都為0情況下,我們才能斷定所有觀測值達到完美的一致,然而當WSS>0, BSS=0的情況,則是各組期望值達到一致,但組內卻存在變異,WSS=0, BSS>0,則是組內沒有變異存在,但各組間卻存在差異,然後真實狀況不可能如此極端,因此必須比較WSS與BSS的差異來判斷變異數分析的結果,也就是各組期望值是否有差異存在。而這個部份在比較變異量的過程中,必須考量到各組變易量會受到觀測數量與組別數量的多寡而有所差異,因此必須進行自由度的調整,也就是計算出均方值來比較組內變異與組間變異量。
組間均方BMSS(between means sum of squares):= =
組內均方WMSS(within means sum of squares):= =
其中k為組別數量,N為觀測值總數。兩個均方值的比較為
此比較值也就是目前慣稱的F檢定值,F越大,則組間均方大於組內均方,也就是組間變異量大於組內變異量,各組間的差異遠超出總期望值離差,代表各組的平均數存在明顯的差異,相反的,F越小甚至於逼近於0,則是組間變異量小於組內變異量,代表各組間的差異很小,各組平均數則不存在明顯的差異。整個分析概念中,受到變異數分析所規範的族群的變異數必須相等的條件下,組內變異量成為了基準,因此組間變異量的多寡就成了判定變異數分析結論的重要數值,然而F值僅為提供判斷虛擬假設存在的可能性,為了方便下結論,由alpha值決定可容許的錯誤判斷機率為5%,因此F值所計算的虛擬假設機率值若小於0.05,則下定論為各組存在差異,其隱含的意義則是否定了各組間無差異的機率,也就是容許了各組無差異可能成真的錯誤判斷機率,因為判斷錯誤的機率太小而能容許,但並不代表不可能判斷錯誤,因此任何F檢定的結果均只能下定論為達到統計上的意義,而非絕對意義。
隨機效應
雖然在單因子變異數分析中有隨機效應的存在,但運算上與Fixed-effect並無太大差異,其F檢定的結果相同,唯一的差別是在於均方期望值上。
雙因子變異數分析(Two-way ANOVA)
在許多情境下,某現象並非僅受單一因子的影響,甚至存在另一個因子的效應,例如要比較五個都市的空氣汙染總指標差異,除了都市別的因素之外,還必須考量汽機車密度的因素,在這樣的情境下,都市別與汽機車密度可能就存在著某種效應影響著空氣汙染的多寡,因此在雙因子變異數分析中,除了考量雙因子彼此的效應之外,也可能存在因子之間的聯合效應,也就是因子間的交互作用(interaction),這也使得雙因子變異數分析變的比較複雜。
1. 固定效應
延續單因子變異數分析的基本概念,雙因子變異數分析也能將總變異量分解成雙因子的主效應與雙因子的聯合效應,還有表示誤差項的組內差異量,為了簡化問題,其下列的計算均表示為各組間樣本數一致的情況下,其線性關係為TSS=ASS+BSS+WSS+ABSS。
- 總變異量(TSS):
- A因子的主效應(ASS): 其均方AMSS為:
- B因子的主效應(BSS): 其均方BMSS為:
- AB因子的交互作用(ABSS): 其均方ABMSS為:
- 組內差異量(WSS): 其均方WMSS為:
- 在F檢定中,由於考慮的雙因子的個別主效應與交互作用,因此會出現三個檢定方向,其一為A因子檢定、B因子檢定與交互作用的檢定。
- A因子的F檢定為:
- B因子的F檢定為:
- 交互作用的F檢定為:
在交互作用不顯著的情況下,才會考慮依照各別因子主效應的檢定結果做為雙因子變異數分析的結論。
2. 隨機效應
3. 混合效應
多因子變異數分析(Factorial ANOVA)
重複測量變異數分析(Repeated measure ANOVA)
共變數分析(ANCOVA)
多變量變異數分析(MANOVA)
事後檢定
當變異數分析檢定結果呈現統計顯著,代表反應變數的平均值在與所感興趣的因子有差異存在,因此事後檢定用於進一步探討其反應變數的平均數差異為何。在其事後檢定的統計發展上有不少各具特色的方法,至今仍然陸續有新方法發表,但其運算理念都大同小異,都是為了修正第一型誤差因為多重比較而出現誤差上升的狀況。較常用的為Bonferroni、Tukey、Duncan、Scheffé四種,其餘方法如下所列:
- 邦佛洛尼檢定(Bonferroni T tests)
- 杜奇範圍檢定(Tukey's range test)
- 丹肯新多重範圍檢定(Duncan's new multiple range test)
- Dunnett's two-tailed test
- Dunnett's one-tailed test
- Gabriel's multiple-comparison procedure
- 雷文檢定(Levene's test)
- Waller-Duncan test
- Ryan-Einot-Gabriel-Welsch multiple range test
- Scheffé's multiple-comparison procedure
- Student-Newman-Keuls multiple range test
- Fisher's least-significant-difference test
- Waller-Duncan K-ratio T test
參考文獻
- Anscombe, F. J. The Validity of Comparative Experiments. Journal of the Royal Statistical Society. Series A (General). 1948, 111 (3): 181–211. JSTOR 2984159. MR 0030181. doi:10.2307/2984159.
- Bailey, R. A. Design of Comparative Experiments. Cambridge University Press. 2008 [2013-12-22]. ISBN 978-0-521-68357-9. (原始内容存档于2013-12-24). Pre-publication chapters are available on-line.
- Belle, Gerald van. Statistical rules of thumb 2nd. Hoboken, N.J: Wiley. 2008. ISBN 978-0-470-14448-0.
- Cochran, William G.; Cox, Gertrude M. Experimental designs 2nd. New York: Wiley. 1992. ISBN 978-0-471-54567-5.
- Cohen, Jacob (1988). Statistical power analysis for the behavior sciences (2nd ed.). Routledge ISBN 978-0-8058-0283-2
- Cohen, Jacob. Statistics a power primer. Psychology Bulletin. 1992, 112 (1): 155–159. PMID 19565683. doi:10.1037/0033-2909.112.1.155.
- Cox, David R. (1958). Planning of experiments. Reprinted as ISBN 978-0-471-57429-3
- Cox, D. R. Principles of statistical inference. Cambridge New York: Cambridge University Press. 2006. ISBN 978-0-521-68567-2.
- Freedman, David A.(2005). Statistical Models: Theory and Practice, Cambridge University Press. ISBN 978-0-521-67105-7
- Gelman, Andrew. Analysis of variance? Why it is more important than ever. The Annals of Statistics. 2005, 33: 1–53. doi:10.1214/009053604000001048.
- Gelman, Andrew. Variance, analysis of. The new Palgrave dictionary of economics 2nd. Basingstoke, Hampshire New York: Palgrave Macmillan. 2008. ISBN 978-0-333-78676-5.
- Hinkelmann, Klaus & Kempthorne, Oscar. Design and Analysis of Experiments. I and II Second. Wiley. 2008. ISBN 978-0-470-38551-7.
- Howell, David C. Statistical methods for psychology 5th. Pacific Grove, CA: Duxbury/Thomson Learning. 2002. ISBN 0-534-37770-X.
- Kempthorne, Oscar. The Design and Analysis of Experiments Corrected reprint of (1952) Wiley. Robert E. Krieger. 1979. ISBN 0-88275-105-0.
- Lehmann, E.L. (1959) Testing Statistical Hypotheses. John Wiley & Sons.
- Montgomery, Douglas C. Design and Analysis of Experiments 5th. New York: Wiley. 2001. ISBN 978-0-471-31649-7.
- Moore, David S. & McCabe, George P. (2003). Introduction to the Practice of Statistics (4e). W H Freeman & Co. ISBN 978-0-7167-9657-2
- Rosenbaum, Paul R. (2002). Observational Studies (2nd ed.). New York: Springer-Verlag. ISBN 978-0-387-98967-9
- Scheffé, Henry. The Analysis of Variance. New York: Wiley. 1959.
- Stigler, Stephen M. The history of statistics : the measurement of uncertainty before 1900. Cambridge, Mass: Belknap Press of Harvard University Press. 1986. ISBN 0-674-40340-1.
- Wilkinson, Leland. Statistical Methods in Psychology Journals; Guidelines and Explanations. American Psychologist. 1999, 54 (8): 594–604. doi:10.1037/0003-066X.54.8.594.
延伸閱讀
- Box, G. e. p. Non-Normality and Tests on Variances. Biometrika. 1953, 40 (3/4): 318–335. JSTOR 2333350. doi:10.1093/biomet/40.3-4.318.
- Box, G. E. P. Some Theorems on Quadratic Forms Applied in the Study of Analysis of Variance Problems, I. Effect of Inequality of Variance in the One-Way Classification. The Annals of Mathematical Statistics. 1954, 25 (2): 290. doi:10.1214/aoms/1177728786.
- Box, G. E. P. Some Theorems on Quadratic Forms Applied in the Study of Analysis of Variance Problems, II. Effects of Inequality of Variance and of Correlation Between Errors in the Two-Way Classification. The Annals of Mathematical Statistics. 1954, 25 (3): 484. doi:10.1214/aoms/1177728717.
- Caliński, Tadeusz; Kageyama, Sanpei. Block designs: A Randomization approach, Volume I: Analysis. Lecture Notes in Statistics 150. New York: Springer-Verlag. 2000. ISBN 978-0-387-98578-7.
- Christensen, Ronald. Plane Answers to Complex Questions: The Theory of Linear Models Third. New York: Springer. 2002. ISBN 978-0-387-95361-8.
- Cox, David R. & Reid, Nancy M. (2000). The theory of design of experiments. (Chapman & Hall/CRC). ISBN 978-1-58488-195-7
- Fisher, Ronald. Studies in Crop Variation. I. An examination of the yield of dressed grain from Broadbalk (PDF). Journal of Agricultural Science. 1918, 11 (2): 107–135. doi:10.1017/S0021859600003750. (原始内容 (PDF)存档于12 June 2001).
- Freedman, David A.; Pisani, Robert; Purves, Roger (2007) Statistics, 4th edition. W.W. Norton & Company ISBN 978-0-393-92972-0
- Hettmansperger, T. P.; McKean, J. W. Edward Arnold , 编. Robust nonparametric statistical methods. Kendall's Library of Statistics. Volume 5 First. New York: John Wiley & Sons, Inc. 1998: xiv+467 pp. ISBN 978-0-340-54937-7. MR 1604954.
- Lentner, Marvin; Thomas Bishop. Experimental design and analysis Second. P.O. Box 884, Blacksburg, VA 24063: Valley Book Company. 1993. ISBN 978-0-9616255-2-8.
- Tabachnick, Barbara G. & Fidell, Linda S. (2007). Using Multivariate Statistics (5th ed.). Boston: Pearson International Edition. ISBN 978-0-205-45938-4
- Wichura, Michael J. The coordinate-free approach to linear models. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge: Cambridge University Press. 2006: xiv+199. ISBN 978-0-521-86842-6. MR 2283455.
- Phadke, Madhav S. Quality Engineering using Robust Design. New Jersey: Prentice Hall PTR. 1989. ISBN 978-0-13-745167-8.
相關條目
外部連結
- 方差分析在线计算
- SOCR ANOVA Activity (页面存档备份,存于互联网档案馆) and interactive applet (页面存档备份,存于互联网档案馆).
- Examples of all ANOVA and ANCOVA models with up to three treatment factors, including randomized block, split plot, repeated measures, and Latin squares, and their analysis in R (页面存档备份,存于互联网档案馆)
- NIST/SEMATECH e-Handbook of Statistical Methods, section 7.4.3: "Are the means equal?" (页面存档备份,存于互联网档案馆)