在回归分析 当中,最常用的估计
β
{\displaystyle \beta }
(回归系数 )的方法是普通最小二乘法 (英语:ordinary least squares ,简称OLS),它基于误差值之上。用这种方法估计
β
{\displaystyle \beta }
,首先要计算残差平方和 (residual sum of squares ;RSS),RSS是指将所有误差值 的平方 加起来得出的数:
R
S
S
=
∑
i
=
1
n
e
i
2
{\displaystyle RSS=\sum _{i=1}^{n}e_{i}^{2}\,}
β
0
{\displaystyle \beta _{0}}
与
β
1
{\displaystyle \beta _{1}}
的数值可以用以下算式计算出来:
β
^
1
=
∑
(
x
i
−
x
¯
)
(
y
i
−
y
¯
)
∑
(
x
i
−
x
¯
)
2
{\displaystyle {\widehat {\beta }}_{1}={\frac {\sum (x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum (x_{i}-{\bar {x}})^{2}}}}
β
^
0
=
y
¯
−
β
^
1
x
¯
{\displaystyle {\widehat {\beta }}_{0}={\bar {y}}-{\widehat {\beta }}_{1}{\bar {x}}}
当中
x
¯
{\displaystyle {\bar {x}}}
为
x
{\displaystyle x}
的平均值,而
y
¯
{\displaystyle {\bar {y}}}
为
y
{\displaystyle y}
的平均值。
假设总体的误差值有一个固定的变异数 ,这个变异数可以用以下算式估计:
σ
^
ε
2
=
R
S
S
n
−
2
.
{\displaystyle {\hat {\sigma }}_{\varepsilon }^{2}={\frac {RSS}{n-2}}.\,}
这个数就是均方误差 (mean square error),这个分母是样本大小减去模型要估计的参数的量。这个回归模型当中有两个未知的参数(
β
0
{\displaystyle \beta _{0}}
与
β
1
{\displaystyle \beta _{1}}
)。[ 1]
而这些参数估计的标准误差 (standard error)为:
σ
^
β
1
=
σ
^
ε
1
∑
(
x
i
−
x
¯
)
2
{\displaystyle {\hat {\sigma }}_{\beta _{1}}={\hat {\sigma }}_{\varepsilon }{\sqrt {\frac {1}{\sum (x_{i}-{\bar {x}})^{2}}}}}
σ
^
β
0
=
σ
^
ε
1
n
+
x
¯
2
∑
(
x
i
−
x
¯
)
2
=
σ
^
β
1
∑
x
i
2
n
{\displaystyle {\hat {\sigma }}_{\beta _{0}}={\hat {\sigma }}_{\varepsilon }{\sqrt {{\frac {1}{n}}+{\frac {{\bar {x}}^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}}}={\hat {\sigma }}_{\beta _{1}}{\sqrt {\frac {\sum x_{i}^{2}}{n}}}}
有了上面这个模型,研究者手上就有会有
β
0
{\displaystyle \beta _{0}}
与
β
1
{\displaystyle \beta _{1}}
的估计值,就可以用这个算式来预测
Y
{\displaystyle Y}
的数值。
参见
参考资料
^ Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with Special Reference to the Biological Sciences. , McGraw Hill, 1960, page 288.