廣義最小二乘法 (英語:generalized least squares,GLS )是統計學 中的一個方法,當回歸模型中的殘差之間存在一定程度的相關性時,它可以被用於估計線性回歸模型中的未知參數。最小二乘法和加權最小二乘法可能需要提高統計效率並防止誤導性推論。GLS由紐西蘭數學家亞歷山大·艾特肯(Alexander Aitken)於1935年首次描述。
概述
在一個標準線性回歸 中,有數據組
{
y
i
,
x
i
j
}
i
=
1
,
…
,
n
,
j
=
2
,
…
,
k
{\displaystyle \{y_{i},x_{ij}\}_{i=1,\dots ,n,j=2,\dots ,k}}
因變量有:
y
≡
(
y
1
⋮
y
n
)
,
{\displaystyle \mathbf {y} \equiv {\begin{pmatrix}y_{1}\\\vdots \\y_{n}\end{pmatrix}},}
預測變量被放入了如下的設計矩陣
X
≡
(
1
x
12
x
13
⋯
x
1
k
1
x
22
x
23
⋯
x
2
k
⋮
⋮
⋮
⋱
⋮
1
x
n
2
x
n
3
⋯
x
n
k
)
,
{\displaystyle \mathbf {X} \equiv {\begin{pmatrix}1&x_{12}&x_{13}&\cdots &x_{1k}\\1&x_{22}&x_{23}&\cdots &x_{2k}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{n2}&x_{n3}&\cdots &x_{nk}\end{pmatrix}},}
這裡每行是一個有
k
{\displaystyle k}
預測變量的向量,每行對應第
i
{\displaystyle i}
個數據點。這個模型假設
y
{\displaystyle \mathbf {y} }
在
X
{\displaystyle \mathbf {X} }
下的的條件均值將會是
X
{\displaystyle \mathbf {X} }
的線性函數,且在
X
{\displaystyle \mathbf {X} }
下的方差是一個非奇異方差矩陣
Ω
{\displaystyle \mathbf {\Omega } }
,有
y
=
X
β
+
ε
,
E
[
ε
∣
X
]
=
0
,
Cov
[
ε
∣
X
]
=
Ω
,
{\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\quad \operatorname {E} [{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]=0,\quad \operatorname {Cov} [{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]={\boldsymbol {\Omega }},}
這裡
β
∈
R
k
{\displaystyle {\boldsymbol {\beta }}\in \mathbb {R} ^{k}}
是一個含有未知常數的矩陣,稱為回歸係數 (regression coefficients),它們從回歸中預測得到。如果
b
{\displaystyle \mathbf {b} }
是
β
{\displaystyle {\boldsymbol {\beta }}}
可能的值,則對
b
{\displaystyle \mathbf {b} }
的殘餘值是
y
−
X
b
{\displaystyle \mathbf {y} -\mathbf {X} \mathbf {b} }
。廣義最小二乘法通過最小化馬哈拉諾比斯距離 來預測
β
{\displaystyle {\boldsymbol {\beta }}}
:
β
^
=
argmin
b
(
y
−
X
b
)
T
Ω
−
1
(
y
−
X
b
)
=
argmin
b
y
T
Ω
−
1
y
+
(
X
b
)
T
Ω
−
1
X
b
−
y
T
Ω
−
1
X
b
−
(
X
b
)
T
Ω
−
1
y
,
{\displaystyle {\begin{aligned}{\hat {\boldsymbol {\beta }}}&={\underset {\mathbf {b} }{\operatorname {argmin} }}\,(\mathbf {y} -\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}(\mathbf {y} -\mathbf {X} \mathbf {b} )\\&={\underset {\mathbf {b} }{\operatorname {argmin} }}\,\mathbf {y} ^{\mathrm {T} }\,\mathbf {\Omega } ^{-1}\mathbf {y} +(\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -\mathbf {y} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -(\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} \,,\end{aligned}}}
相當於
β
^
=
argmin
b
y
T
Ω
−
1
y
+
b
T
X
T
Ω
−
1
X
b
−
2
b
T
X
T
Ω
−
1
y
,
{\displaystyle {\hat {\boldsymbol {\beta }}}={\underset {\mathbf {b} }{\operatorname {argmin} }}\,\mathbf {y} ^{\mathrm {T} }\,\mathbf {\Omega } ^{-1}\mathbf {y} +\mathbf {b} ^{\mathrm {T} }\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -2\mathbf {b} ^{\mathrm {T} }\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} ,}
這是一個二次規劃 問題。目標函數的駐點出現在以下情況:
2
X
T
Ω
−
1
X
b
−
2
X
T
Ω
−
1
y
=
0
,
{\displaystyle 2\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} {\mathbf {b} }-2\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} =0,}
所以:
β
^
=
(
X
T
Ω
−
1
X
)
−
1
X
T
Ω
−
1
y
.
{\displaystyle {\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} .}
數量
Ω
−
1
{\displaystyle \mathbf {\Omega } ^{-1}}
稱為精度矩陣(或分散矩陣),是對角權重矩陣的推廣。