三均值
在统计学中, 三均值(TM)或图基三均值, 是概率分布中的一个概念, 由如下式定义:
其中, 为数据的两个四分位点, 为其中位数.
三均值最初由Arthur Bowley在教学中提出, 而后由统计学家John Tukey在其于1997年出版的书籍中推广, 并在探索性数据分析技术中命名.
同中位数及中轴数 (上、下四分位数)相似, 而相迥于样本平均值, 三均值是一个有25%崩溃点的具有统计学抗性的L-估计. 三均值的这个属性十分有用, 正如下面的引述所言.
作为一个分布的中心的测量值, 三均值的一个优势是, 它综合了中位数和中轴数, 既反映了分布的中心值, 也不失对极端值的注意.
——Herbert F. Weisberg,Central Tendency and Variability[1]
效率
三均值尽管计算简单, 却是一个非常有效率的估计人口中值的估计量. 确切而言, 对于从均匀人口中得到的一个大数据集 (超过100个人口数据), 其中位于20%, 50%, 80%百分位数, 是得出人口的L-估计的最高效的3个数, 效率为88%.[2] 相较之下, L-估计中最好的一点估计, 是中位数, 效率为64%或更高; 最高效的两点估计 (用于一个从均匀人口中获得的超过100个数据的大数据集), 是用29%中程数 (29%和71%百分位数的平均值), 效率约为81%. 这些最佳估计可以使用中轴数及三均值近似. 当然, 使用相距更远的点能获得更高的效率; 总之, 只需要3个点就能获得较高的计算效率.
参考文献
- ^ Weisberg, H. F. (1992). Central Tendency and Variability. Sage University. ISBN 0-8039-4007-6 (p. 39)
- ^ Evans 1955,Appendix G: Inefficient statistics, pp. 902–904.