萊文伯格-馬夸特方法

萊文伯格-馬夸特方法（英語：Levenberg–Marquardt algorithm）能提供數非線性最小化（局部最小）的數值解。此演算法能藉由執行時修改參數達到結合高斯-牛頓算法以及梯度下降法的優點，並對兩者之不足作改善（比如高斯-牛頓算法之反矩陣不存在或是初始值離局部極小值太遠）。^[1]

問題描述

假設 $f$ 是一個從 $\Re ^{m}\rightarrow \Re ^{n}$ 的非線性映射，也就是說 $\mathbf {P} \in \Re ^{m}$ 且 $\mathbf {X} \in \Re ^{n}$ , 那麼:

$f(\mathbf {P} )=\mathbf {X}$

而我們的目的就是希望任意給定一個 $\mathbf {x}$ 以及合理的初始值 $\mathbf {p} _{0}$ ，我們能找到一個 $\mathbf {p} ^{+}$ ，使得 $\mathbf {\epsilon } ^{T}\mathbf {\epsilon }$ 盡量小（局部極小），其中 $\mathbf {\epsilon } =f(\mathbf {p} ^{+})-\mathbf {x}$ 。

解法

像大多數最小化的方法一樣，這是一個迭代的方法。首先根據泰勒展開式我們能把 $f(\mathbf {p} +\mathbf {\delta _{p}} )$ 寫為下面的近似，這有兩個好處：第一是線性、第二是只需要一階微分。

$f(\mathbf {p} +\mathbf {\delta _{p}} )\approx f(\mathbf {p} )+\mathbf {J\delta _{p}}$

其中 $\mathbf {J}$ 是 $f$ 的雅可比矩陣。對於每次的迭代我們這麼作：假設這次 iteration 的點是 $\mathbf {p} _{k}$ ，我們要找到一個 $\mathbf {\delta } _{\mathbf {p} ,k}$ 讓 $|\mathbf {x} -f(\mathbf {p} _{k}+\mathbf {\delta } _{\mathbf {p} ,k})|\approx |\mathbf {x} -f(\mathbf {p} _{k})-\mathbf {J\mathbf {\delta } _{\mathbf {p} ,k}} |=|\mathbf {\epsilon } _{k}-\mathbf {J\mathbf {\delta } _{\mathbf {p} ,k}} |$ 最小。根據投影公式我們知道當下面式子被滿足的時候能有最小誤差：

$(\mathbf {J} ^{T}\mathbf {J} )\mathbf {\delta _{\mathbf {p} ,k}} =\mathbf {J} ^{T}\mathbf {\epsilon } _{k}$

我們將這個公式略加修改得到：

$[\mu \mathbf {I} +(\mathbf {J} ^{T}\mathbf {J} )]\mathbf {\delta _{\mathbf {p} ,k}} =\mathbf {J} ^{T}\mathbf {\epsilon } _{k}$

就是萊文伯格-馬夸特方法。如此一來 $\mu$ 大的時候這種算法會接近最速下降法，小的時候會接近高斯-牛頓方法。為了確保每次 $\mathbf {\epsilon }$ 長度的減少，我們這麼作：先採用一個小的 $\mu$ ，如果 $\mathbf {\epsilon }$ 長度變大就增加 $\mu$ 。

這個演算法當以下某些條件達到時結束迭代：

如果發現 $\mathbf {\epsilon }$ 長度變化小於特定的給定值就結束。
發現 $\mathbf {\delta _{p}}$ 變化小於特定的給定值就結束。
到達了迭代的上限設定就結束。

參考資料

^ Levenberg-Marquardt backpropagation - MATLAB trainlm. www.mathworks.com. [2019-07-21]. （原始內容存檔於2020-10-25）.

[1] Levenberg-Marquardt backpropagation - MATLAB trainlm. www.mathworks.com. [2019-07-21]. （原始內容存檔於2020-10-25）.

[1]