皮尔逊卡方检验
此条目可参照英语维基百科相应条目来扩充。 |
皮尔逊卡方检验(英语:Pearson's chi-squared test)是最有名卡方检验之一(其他常用的卡方检验还有叶氏连续校正、似然比检验、一元混成检验等等--它们的统计值之概率分配都近似于卡方分配,故称卡方检验)。“皮尔逊卡方检验”最早由卡尔·皮尔逊在1900年发表,[1] 用于类别变量的检验。科学文献中,当提及卡方检验而没有特别指明类型时,通常即指皮尔逊卡方检验。
原假设
“皮尔逊卡方检验”的零假设(H0)是:一个样本中已发生事件的次数分配会遵守某个特定的理论分配。
在零假设的句子中,“事件”必须互斥,并且所有事件总概率等于1。或者说,每个事件是类别变量(英语:categorical variable)的一种类别或级别(英语:level)。
简单的例子:常见的六面骰子,事件=丢骰子的结果(可能是1~6任一个)属于类别变量,每一面都是此变量的一种(一个级别)结果,每种结果互斥(1不是2, 3, 4, 5, 6; 2不是1, 3, 4 ...),六面的概率总和等于1。
用途和步骤
“皮尔逊卡方检验”可用于三种情境的变项比较:拟合度检验、同质性检验和独立性检验。
- “适配度检验”验证一组观察值的次数分配是否异于理论上的分配。
- “同质性检验”可以比较在使用相同的分类变量时,两组或两组以上群体的计数分布。
- “独立性检验”验证从两个变量抽出的配对观察值组是否互相独立(例如:每次都从A国和B国各抽一个人,看他们的反应是否与国籍无关)。
不管哪个检验都包含三个步骤:
- 计算卡方检验的统计值“ ”:把每一个观察值和理论值的差做平方后、除以理论值、再加总。
- 计算 统计值的自由度“”。
- 依据研究者设定的置信水平(显著性水平、P值或对应Alpha值),查出自由度为 的卡方分配临界值,比较它与第1步骤得出的 统计值,推论能否拒绝零假设。
拟合优度检验
适配度检验(英语:Goodness of Fit test):测试样本的概率分配与总体有多相似。
总体假设为离散型均匀分配
当理论上的总体分配为每个类别概率一致时,即应适用离散型均匀分配的计算方法。 个观察值于理论上应均匀分配在所有的 个栏位(类别)中,因此每个栏位(类别)的“理论次数”(或期望次数)为:
- ,其中
自由度 。“”是总共要计算离差平方的个数(每个类别计算一次观察值与理论值的差,再平方)。“”是因为对于计算而言只有一个限制条件:观察值的个数总和为 。
总体假设为其他种分配
贝氏算法
例子
独立性检验
在同一个个体(例如:同一个人)身上有两个二元变量(X, Y),例如 X(男/女)和 Y(右撇子/左撇子),观察两个变量的相关性。零假设是:两个变量呈统计独立性。在本例中:性别与惯用手是独立事件。
- 首先,每个观察值(每个抽出的人)会被重新编排到一个叫做“列联表”(英语:contingency table,又称:条件次数表)的二维表格里。本例的列联表是2×2的构造(不算入Total栏位):
男 | 女 | 总计 | |
---|---|---|---|
右 | 43 | 44 | 87 |
左 | 9 | 4 | 13 |
总计 | 52 | 48 | 100 |
- 如果列联表共有 r 行 c 列,那么在独立事件的假设下,每个栏位的“理论次数”(或期望次数)为:
- ,
- 其中 N 是样本大小(观察值的个数,亦即2×2列联表所有栏位的总和,本例:N = 100)。本例的各栏位期望如下(括号里的数字):
男 | 女 | 总计 | |
---|---|---|---|
右 | 43 (45.24) | 44 (41.76) | 87 |
左 | 9 (6.76) | 4 (6.24) | 13 |
总计 | 52 | 48 | 100 |
- 统计值的公式是:
- 本例的统计值是:
- 自由度 是这样得出:虽然总共要计算 个离差平方(每个栏位计算一次观察值与理论值的差,再平方),但 X 变量有1个限制条件(样本抽出后,男性的人数即固定),Y 变量也有1个限制条件(样本抽出后,右撇子的人数即固定),所以可自由变动的栏位数只有 。
- 在本例中。
- 在 的条件下,得出卡方分配右尾概率 ,无法拒绝零假设,亦即:无法拒绝性别变量与惯用手变量互相独立的假设。
限制
- 如果个别栏位的期望次数太低,会使概率分配无法近似于卡方分配。一般要求:自由度 时,期望次数小于5的栏位不多于总栏位的20%。
- 若自由度 ,且若期望次数 ,则近似于卡方分配的假设不可信。此时可以将每个观察值的离差减去 之后再做平方,这便是叶慈连续校正。
参考文献
引用
- ^ Karl Pearson. X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science: 157–175. doi:10.1080/14786440009463897.
期刊文章
- Herman Chernoff, E. L. Lehmann. The Use of Maximum Likelihood Estimates in $\chi^2$ Tests for Goodness of Fit. The Annals of Mathematical Statistics. 1954-09, 25 (3): 579–586 [2018-04-02]. ISSN 0003-4851. doi:10.1214/aoms/1177728726. (原始内容存档于2021-02-26) (英语).
- R. L. Plackett. Karl Pearson and the Chi-Squared Test. International Statistical Review / Revue Internationale de Statistique. 1983, 51 (1): 59–72 [2018-04-02]. doi:10.2307/1402731. (原始内容存档于2021-04-16).
书籍
- Nikulin, Priscilla E. Greenwood ; Mikhail S. A guide to chi-squared testing. New York, NY [u.a.]: Wiley. 1996. ISBN 047155779X.