典型相關
在統計學中,典型相關分析(英語:Canonical Correlation Analysis)是對互協方差矩陣的一種理解。如果我們有兩個隨機變量向量 X = (X1, ..., Xn) 和 Y = (Y1, ..., Ym) 並且它們是相關的,那麼典型相關分析會找出 Xi 和 Yj 的相互相關最大的線性組合。[1]T·R·Knapp指出「幾乎所有常見的參數測試的意義可視為特殊情況的典型相關分析,這是研究兩組變量之間關係的一般步驟。」[2] 這個方法在1936年由哈羅德·霍特林首次引入。[3]
給定兩個隨機向量和,我們可以定義互協方差矩陣 為 的矩陣,其中 是協方差 。實際上,我們可以基於 和 的採樣數據來估計協方差矩陣。(如從一對數據矩陣)。
典型相關分析求出向量 和 使得隨機變量 和 的相關性 最大。隨機變量 和 是 第一對典型變量。然後尋求一個依然最大化相關但與第一對典型變量不相關的向量;這樣就得到了 第二對典型變量。 這個步驟會進行 次。
計算
推導
設 和 。需要最大化的參數為
第一步是定義一個基變更以及
因此我們有
根據柯西-施瓦茨不等式,我們有
如果向量 和 共線,那麼上式相等。此外,如果 是矩陣 (見Rayleigh quotient) 最大特徵值對應的特徵向量,那麼就可以得到相關的最大值。隨後的典型變量對可以通過減少特徵值的量級來得到。正交性保證了相關矩陣的對稱性。
解法
因此解法是:
- 是 的一個特徵向量。
- 是 的比例項。
相反地,也有:
- 是 的一個特徵向量。
- 是 的比例項。
把坐標反過來,我們有
- 是 的一個特徵向量。
- 是 的一個特徵向量。
- 是 的比例項。
- 是 的比例項。
那麼相關變量定義為:
實現
典型相關分析可以用一個相關矩陣的奇異值分解來解決。[4] 以下是它在一些語言中的函數 [5]
- MATLAB as canoncorr (頁面存檔備份,存於網際網路檔案館)
- R as cancor (頁面存檔備份,存於網際網路檔案館) or in FactoMineR (頁面存檔備份,存於網際網路檔案館)
- SAS as The CANCORR Procedure (頁面存檔備份,存於網際網路檔案館)
- Scikit-Learn, Python as Cross decomposition (頁面存檔備份,存於網際網路檔案館)
假設檢驗
每一行可以用下面的方法檢測其重要性。由於相關是排好序的,也就是說行 為 0 意味着所有後續的相關都為 0。如果我們在一個樣本中有 個獨立觀測,對 , 是其估計相關。對第 行,測試統計為:
上面漸近為一個對大 有 個自由度的卡方分布。[6] 由於所有從 到 的相關從邏輯上來說都是 0,所以在這一點之後的乘積都是不相關的。
實際運用
例子
與principal angles的連接
參見
- Generalized Canonical Correlation
- Multilinear subspace learning
- RV coefficient
- Principal angles
- 主成分分析
- Regularized canonical correlation analysis
- 奇異值分解
- Partial least squares regression
參考文獻
- ^ Härdle, Wolfgang; Simar, Léopold. Canonical Correlation Analysis. Applied Multivariate Statistical Analysis. 2007: 321–330. ISBN 978-3-540-72243-4. doi:10.1007/978-3-540-72244-1_14.
- ^ Knapp, T. R. Canonical correlation analysis: A general parametric significance-testing system. Psychological Bulletin. 1978, 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410.
- ^ Hotelling, H. Relations Between Two Sets of Variates. Biometrika. 1936, 28 (3–4): 321–377. JSTOR 2333955. doi:10.1093/biomet/28.3-4.321.
- ^ Hsu, D.; Kakade, S. M.; Zhang, T. A spectral algorithm for learning Hidden Markov Models (PDF). Journal of Computer and System Sciences. 2012, 78 (5): 1460 [2015-09-10]. arXiv:0811.4413 . doi:10.1016/j.jcss.2011.12.025. (原始內容存檔 (PDF)於2020-10-01).
- ^ Huang, S. Y.; Lee, M. H.; Hsiao, C. K. Nonlinear measures of association with kernel canonical correlation analysis and applications (PDF). Journal of Statistical Planning and Inference. 2009, 139 (7): 2162 [2015-09-10]. doi:10.1016/j.jspi.2008.10.011. (原始內容存檔 (PDF)於2017-03-13).
- ^ Kanti V. Mardia, J. T. Kent and J. M. Bibby. Multivariate Analysis. Academic Press. 1979.
外部連結
- Hardoon, D. R.; Szedmak, S.; Shawe-Taylor, J. Canonical Correlation Analysis: An Overview with Application to Learning Methods. Neural Computation. 2004, 16 (12): 2639–2664. PMID 15516276. doi:10.1162/0899766042321814.
- A note on the ordinal canonical-correlation analysis of two sets of ranking scores (頁面存檔備份,存於網際網路檔案館) (Also provides a FORTRAN program)- in J. of Quantitative Economics 7(2), 2009, pp. 173-199
- Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Also provides a FORTRAN program)- in J. of Applied Economic Sciences 4(1), 2009, pp. 115-124