跳至內容

多重共線性

維基百科,自由的百科全書

多重共線性(Multicollinearity)是指多變量線性回歸中,變量之間由於存在高度相關關係而使回歸估計不准確。在該情況下,多元回歸的系數可能會因為模型或數據的微小變化發生劇烈改變。在樣本數據集中,多重共線性不會影響模型整體的預測能力或信度,它只會影響單個預測子(predictor)的參數。簡而言之,一個包含有共線預測值的多元回歸模型可以指示出模型整體的預測可靠程度,但可能無法對單個預測值給出有效結果,也可能無法判斷哪些預測值是冗餘的。

需要注意的是,在對回歸分析的敘述中,「沒有多重共線性」多用於指代沒有「完全的多重共線性」,意為預測值之間存在完全線性相關關係。在這種情況下,模型矩陣Χ不是滿秩,因此其矩量矩陣不可逆。在該情況下,對一個普通線性模型來說,普通最小二乘估計值不存在。

示例場景

比如我們要通過房屋面積,房間數,房屋年齡,附近學校的評分這四個變量來預測房價,其中的房屋面積和房間數這兩個變量就可能高度相關。

示例

虛擬變量陷阱(英語:Dummy variable trap)有可能觸發多重共線性問題。