跳至內容

證據下界

維基百科,自由的百科全書

變分貝葉斯方法中,證據下界(英語:evidence lower boundELBO;有時也稱為變分下界[1]負變分自由能)是一種用於估計一些觀測數據的對數似然的下限。

術語和符號

是隨機變量,其聯合分布為。例如,邊緣分布是在給定的條件下,的條件分布。那麼對於任何從中抽取的樣本和任何分布,我們有:


我們將上述不等式稱為ELBO不等式。其中,左側稱為的證據,右側稱為的證據下界(ELBO)。

在變分貝葉斯方法的術語中,分布稱為證據。一些人使用「證據」一詞來表示,而其他作者將稱為對數證據,有些人會交替使用證據和對數證據這兩個術語。

ELBO 沒有普遍且固定的表示法。在本文中我們使用

動機

變分貝葉斯推理

假設我們有一個可觀察的隨機變量,並且我們想找到其真實分布。這將允許我們通過抽樣生成數據,並估計未來事件的概率。一般來說,精確找到是不可能的,因此我們不得不尋找一個近似。

也就是說,我們定義一個足夠大的參數化分布族,然後最小化某種損失函數。解決這個問題的一種可能方法是考慮從的微小變化,並解決。這是變分法中的一個變分問題,因此被稱為變分方法。

由於明確參數化的分布族並不多(所有經典的分布族,如正態分布、Gumbel分布等都太過簡單,無法很好地模擬真實分布),我們考慮隱式參數化的概率分布:

  • 首先,定義一個在潛在隨機變量上的簡單分布。通常情況下,正態分布或均勻分布已足夠。
  • 接下來,定義一個由參數化的複雜函數族(例如深度神經網絡)。
  • 最後,定義一種將任何轉換為可觀測隨機變量的簡單分布的方法。例如,讓具有兩個輸出,那麼我們可以將相應的分布定義為在上的正態分布

這定義了一個關於的聯合分布族。從中抽取樣本變得非常容易:只需從中抽樣,然後計算,最後使用來抽樣


換句話說,我們擁有了一個可觀測量和潛在隨機變量的生成模型。

現在,我們認為一個分布是好的,如果它是的一個接近近似:由於右側的分布僅涉及到,因此左側的分布必須消除潛在變量的影響,即要對進行邊緣化。

一般情況下,我們無法積分,這迫使我們尋找另一個近似。

由於,因此我們只需要找到一個的好的近似即可。因此,我們定義另一個分布族來近似,這是一個針對潛在變量的判別模型。

下表概述了所有情況:

:觀測量 :潛變量
可近似的 ,簡單
,簡單
可近似的 ,簡單

用貝葉斯的方式來說,是觀測到的證據,是潛在/未觀測到的隨機變量。分布上是的先驗分布,是似然函數,而的後驗分布。


給定一個觀測值,我們可以通過計算來推斷出可能導致出現的。通常的貝葉斯方法是估計積分:

然後通過貝葉斯定理計算:

這通常是非常耗時的,但如果我們可以找到一個在大多數下的好近似,那麼我們就可以快速地從推斷出。因此,尋找一個好的也稱為攤銷推斷

綜上所述,我們找到了一個變分貝葉斯推斷問題。

推導ELBO

變分推斷中的一個基本結果是,最小化Kullback–Leibler 散度(KL散度)等價於最大化對數似然:其中是真實分布的熵。因此,如果我們可以最大化

我們就可以最小化

因此找到一個準確的近似。要最大化我們只需從真實分布中抽取許多樣本,然後使用:為了最大化,必須要找到[註 1]這通常沒有解析解,必須進行估計。估計積分的常用方法是使用重要性採樣進行蒙特卡洛積分其中,是我們用於進行蒙特卡羅積分的在上的抽樣分布。因此,我們可以看到,如果我們抽樣,那麼的一個無偏估計量。不幸的是,這並不能給我們一個對的無偏估計量,因為是非線性的。事實上,由於琴生(Jensen)不等式,我們有:事實上,所有明顯的的估計量都是向下偏的,因為無論我們取多少個的樣本,我們都可以由琴生不等式得到:減去右邊,我們可以看出問題歸結為零的有偏估計問題:通過delta 方法,我們有如果我們繼續推導,我們將得到加權自編碼器。[2]但是讓我們先回到最簡單的情況,即:不等式的緊度有一個解析解:這樣我們就得到了ELBO函數:

最大化 ELBO

對於固定的,優化的同時試圖最大化和最小化。如果的參數化足夠靈活,我們會得到一些 ,使得我們同時得到了以下近似:由於我們有所以也就是說: 最大化ELBO將同時使我們得到一個準確的生成模型和一個準確的判別模型

主要形式

ELBO具有許多可能的表達式,每個表達式都有不同的強調。這個形式表明,如果我們抽樣 , 則是 ELBO 的無偏估計量這種形式顯示 ELBO 是證據的下界 ,並且關於最大化 ELBO 等價於最小化從 KL 散度 .這種形式顯示,最大化ELBO同時試圖將保持接近,並將集中在最大化的那些上。也就是說,近似後驗在保持先驗的同時,朝着最大似然移動。這個形式顯示,最大化ELBO同時試圖保持的熵高,並將集中於最大化的那些 。也就是說,近似後驗在均勻分布和向最大後驗之間保持平衡。

數據處理不等式

假設我們從中取個獨立樣本,並將它們收集在數據集中,則我們具有經驗分布。其中表示衝激函數(Dirac函數)。

擬合通常可以通過最大化對數似然來完成:現在,根據 ELBO 不等式,我們可以約束 , 因此右側簡化為 KL 散度,因此我們得到:這個結果可以解釋為數據處理不等式的一個特例。

在這個解釋下,最大化等價於最小化,其中上式是真實的需要估計的量的上界,通過數據處理不等式獲得。也就是說,我們通過將潛在空間與觀測空間連接起來,為了更高效地最小化KL散度而付出了較弱的不等式代價。[3]

參考

  1. ^ Kingma. Auto-Encoding Variational Bayes. arXiv:1312.6114可免費查閱. 
  2. ^ Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan. Importance Weighted Autoencoders. 2015-09-01 [2023-03-22]. (原始內容存檔於2023-03-22). 
  3. ^ Kingma, Diederik P.; Welling, Max. An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 2019-11-27, 12 (4). Section 2.7 [2023-03-22]. ISSN 1935-8237. arXiv:1906.02691可免費查閱. doi:10.1561/2200000056. (原始內容存檔於2023-03-22) (English). 

注釋

  1. ^ 事實上,根據Jensen不等式,有 這個估計量存在向上的偏差。這可以看作是過度擬合:對於一些有限的採樣數據 ,通常存在一些 比整個 分布更好地擬合它們。