跳至內容

交叉熵

維基百科,自由的百科全書

信息論中,基於相同事件測度的兩個概率分布交叉熵(英語:Cross entropy)是指,當基於一個「非自然」(相對於「真實」分布而言)的概率分布進行編碼時,在事件集合中唯一標識一個事件所需要的平均比特數(bit)。

給定兩個概率分布相對於的交叉熵定義為:

其中是從KL散度(也被稱為p相對於q相對熵)。

對於離散分布,這意味着:

對於連續分布也是類似的。我們假設測度 上是絕對連續的(通常 Lebesgue measure on a Borel σ-algebra)。設分別為測度 上概率密度函數。則

源起

信息論中, 以直接可解編碼模式通過值編碼一個信息片段,使其能在所有可能的集合中唯一標識該信息片段,Kraft–McMillan theorem確保這一過程可以被看作一種上的隱式概率分布,從而使得的編碼位長度。 因此, 交叉熵可以看作每個信息片段在錯誤分布下的期望編碼位長度,而信息實際分布為。這就是期望是基於而不是的原因。

估計

在大多數情況下,我們需要在不知道分布的情況下計算其交叉熵。例如在語言模型中, 我們基於訓練集創建了一個語言模型, 而在測試集合上通過其交叉熵來評估該模型的準確率。是語料中詞彙的真實分布,而是我們獲得的語言模型預測的詞彙分布。由於真實分布是未知的,我們不能直接計算交叉熵。在這種情況下,我們可以通過下式來估計交叉熵:

是測試集大小,是在訓練集上估計的事件發生的概率。我們假設訓練集是從的真實採樣,則此方法獲得的是真實交叉熵的蒙特卡洛估計。

參考資料