統計學習理論

統計學習理論（英語：Statistical learning theory），一種機器學習的架構，根據統計學與泛函分析（Functional Analysis）而建立。統計學習理論基於資料（data），找出預測性函數，之後解決問題。支持向量機（Support Vector Machine）的理論基礎來自於統計學習理論。

形式定義

令 $X$ 為所有可能的輸入組成的向量空間， $Y$ 為所有可能的輸出組成的向量空間。統計學習理論認為，積空間 $Z=X\times Y$ 上存在某個未知的概率分佈 $p(z)=p({\vec {x}},y)$ 。訓練集由這個概率分佈中的 $n$ 個樣例構成，並用 $S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}=\{{\vec {z}}_{1},\dots ,{\vec {z}}_{n}\}$ 表示。每個 ${\vec {x}}_{i}$ 都是訓練數據的一個輸入向量，而 $y_{i}$ 則是對應的輸出向量。

損失函數

損失函數的選擇是機器學習算法所選的函數 $f_{S}$ 中的決定性因素。損失函數也影響着算法的收斂速率。損失函數的凸性也十分重要。^[1]

根據問題是回歸問題還是分類問題，我們可以使用不同的損失函數。

回歸問題

回歸問題中最常用的損失函數是平方損失函數（也被稱為L2-範數)。類似的損失函數也被用在普通最小二乘回歸。其形式是：

V(f({\vec {x}}),y)=(y-f({\vec {x}}))^{2}

另一個常見的損失函數是絕對值範數（L1-範數）：

V(f({\vec {x}}),y)=|y-f({\vec {x}})|

分類問題

某種程度上說0-1指示函數是分類問題中最自然的損失函數。它在預測結果與真實結果相同時取0，相異時取1。對於 $Y=\{-1,1\}$ 的二分類問題，這可以表示為：

V(f({\vec {x}}),y)=\theta (-yf({\vec {x}}))

其中 $\theta$ 為單位階躍函數。

正則化

機器學習的一大常見問題是過擬合。由於機器學習是一個預測問題，其目標並不是找到一個與（之前觀測到的）數據最擬合的的函數，而是尋找一個能對未來的輸入作出最精確預測的函數。經驗風險最小化有過擬合的風險：找到的函數完美地匹配現有數據但並不能很好地預測未來的輸出。

過擬合的常見表現是不穩定的解：訓練數據的一個小的擾動會導致學到的函數的巨大波動。可以證明，如果解的穩定性可以得到保證，那麼其可推廣性和一致性也同樣能得到保證。^[2]^[3] 正則化可以解決過擬合的問題並增加解的穩定性。

正則化可以通過限制假設空間 ${\mathcal {H}}$ 來完成。一個常見的例子是把 ${\mathcal {H}}$ 限制為線性函數：這可以被看成是把問題簡化為標準設計的線性回歸。 ${\mathcal {H}}$ 也可以被限制為 $p$ 次多項式，指數函數，或L1上的有界函數。對假設空間的限制能防止過擬合的原因是，潛在的函數的形式得到了限制，因此防止了那些能給出任意接近於0的經驗風險的複雜函數。

一個正則化的樣例是吉洪諾夫正則化，即最小化如下損失函數

{\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})+\gamma \|f\|_{\mathcal {H}}^{2}

其中正則化參數 $\gamma$ 為一個固定的正參數。吉洪諾夫正則化保證了解的存在性、唯一性和穩定性。^[4]

^ Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076
^ Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280.
^ Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.
^ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 （頁面存檔備份，存於互聯網檔案館）

[1] Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076

[2] Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280.

[3] Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.

[4] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 （頁面存檔備份，存於互聯網檔案館）

[1]

[2]

[3]

[4]

閱論編主要的數學領域
歷史綱要（英語：Outline of mathematics）列表（英語：Lists of mathematics topics）符號表
數學基礎	範疇論集合論數理邏輯數學哲學
代數	抽象交換群論初等代數線性代數多重線性代數泛代數
數學分析	微積分實變函數複變函數微分方程泛函分析調和分析傅立葉分析幾何分析
離散數學	組合數學圖論序理論博弈論
幾何學	代數幾何解析幾何微分幾何離散幾何學歐幾里得幾何非歐幾里得幾何有限幾何學
數論	算術代數數論解析數論幾何數論算術幾何丟番圖幾何
拓撲學	點集拓撲代數拓撲微分拓撲幾何拓撲
統計學	測度與概率數理統計學數據科學統計推斷迴歸分析統計學習理論機器學習人工智能數據結構與算法
計算數學	計算機科學計算理論數值分析最優化計算機代數
應用數學	控制論信息論計算化學數理生物學數理經濟學計量經濟學數理金融學數學心理學數學物理學生物統計學
其它	娛樂數學數學與藝術（英語：Mathematics and art）數學教育
註釋	數學的領域也可根據「MSC分類標準」或「中國學科分類國家標準」進行分類。
分類主題共享資源專題