在变分贝叶斯方法中,证据下界(英語:evidence lower bound,ELBO;有时也称为变分下界[1]或负变分自由能)是一种用于估计一些观测数据的对数似然的下限。
术语和符号
设和是随机变量,其联合分布为。例如,是的边缘分布,是在给定的条件下,的条件分布。那么对于任何从中抽取的样本和任何分布,我们有:
我们将上述不等式称为ELBO不等式。其中,左侧称为的证据,右侧称为的证据下界(ELBO)。
在变分贝叶斯方法的术语中,分布称为证据。一些人使用“证据”一词来表示,而其他作者将称为对数证据,有些人会交替使用证据和对数证据这两个术语。
ELBO 没有普遍且固定的表示法。在本文中我们使用
动机
变分贝叶斯推理
假设我们有一个可观察的随机变量,并且我们想找到其真实分布。这将允许我们通过抽样生成数据,并估计未来事件的概率。一般来说,精确找到是不可能的,因此我们不得不寻找一个近似。
也就是说,我们定义一个足够大的参数化分布族,然后最小化某种损失函数,。解决这个问题的一种可能方法是考虑从到的微小变化,并解决。这是变分法中的一个变分问题,因此被称为变分方法。
由于明确参数化的分布族并不多(所有经典的分布族,如正态分布、Gumbel分布等都太过简单,无法很好地模拟真实分布),我们考虑隐式参数化的概率分布:
- 首先,定义一个在潜在随机变量上的简单分布。通常情况下,正态分布或均匀分布已足够。
- 接下来,定义一个由参数化的复杂函数族(例如深度神经网络)。
- 最后,定义一种将任何转换为可观测随机变量的简单分布的方法。例如,让具有两个输出,那么我们可以将相应的分布定义为在上的正态分布。
这定义了一个关于的联合分布族。从中抽取样本变得非常容易:只需从中抽样,然后计算,最后使用来抽样。
换句话说,我们拥有了一个可观测量和潜在随机变量的生成模型。
现在,我们认为一个分布是好的,如果它是的一个接近近似:由于右侧的分布仅涉及到,因此左侧的分布必须消除潜在变量的影响,即要对进行边缘化。
一般情况下,我们无法积分,这迫使我们寻找另一个近似。
由于,因此我们只需要找到一个的好的近似即可。因此,我们定义另一个分布族来近似,这是一个针对潜在变量的判别模型。
下表概述了所有情况:
:观测量
|
|
:潜变量
|
可近似的
|
|
,简单
|
|
,简单
|
|
可近似的
|
|
,简单
|
用贝叶斯的方式来说,是观测到的证据,是潜在/未观测到的随机变量。分布在上是的先验分布,是似然函数,而是的后验分布。
给定一个观测值,我们可以通过计算来推断出可能导致出现的。通常的贝叶斯方法是估计积分:
然后通过贝叶斯定理计算:
这通常是非常耗时的,但如果我们可以找到一个在大多数下的好近似,那么我们就可以快速地从推断出。因此,寻找一个好的也称为摊销推断。
综上所述,我们找到了一个变分贝叶斯推断问题。
推导ELBO
变分推断中的一个基本结果是,最小化Kullback–Leibler 散度(KL散度)等价于最大化对数似然:其中是真实分布的熵。因此,如果我们可以最大化
我们就可以最小化
因此找到一个准确的近似。要最大化我们只需从真实分布中抽取许多样本,然后使用:为了最大化,必须要找到:[註 1]这通常没有解析解,必须进行估计。估计积分的常用方法是使用重要性采样进行蒙特卡洛积分:其中,是我们用于进行蒙特卡罗积分的在上的抽样分布。因此,我们可以看到,如果我们抽样,那么是的一个无偏估计量。不幸的是,这并不能给我们一个对的无偏估计量,因为是非线性的。事实上,由于琴生(Jensen)不等式,我们有:事实上,所有明显的的估计量都是向下偏的,因为无论我们取多少个的样本,我们都可以由琴生不等式得到:减去右边,我们可以看出问题归结为零的有偏估计问题:通过delta 方法,我们有如果我们继续推导,我们将得到加权自编码器。[2]但是让我们先回到最简单的情况,即:不等式的紧度有一个解析解:这样我们就得到了ELBO函数:
最大化 ELBO
对于固定的,优化的同时试图最大化和最小化。如果和的参数化足够灵活,我们会得到一些 ,使得我们同时得到了以下近似:由于我们有所以也就是说: 最大化ELBO将同时使我们得到一个准确的生成模型和一个准确的判别模型 。
主要形式
ELBO具有许多可能的表达式,每个表达式都有不同的强调。这个形式表明,如果我们抽样 , 则是 ELBO 的无偏估计量。这种形式显示 ELBO 是证据的下界 ,并且关于最大化 ELBO 等价于最小化从到 KL 散度 .这种形式显示,最大化ELBO同时试图将保持接近,并将集中在最大化的那些上。也就是说,近似后验在保持先验的同时,朝着最大似然移动。这个形式显示,最大化ELBO同时试图保持的熵高,并将集中于最大化的那些 。也就是说,近似后验在均匀分布和向最大后验之间保持平衡。
数据处理不等式
假设我们从中取个独立样本,并将它们收集在数据集中,则我们具有经验分布。其中表示冲激函数(Dirac函数)。
从拟合通常可以通过最大化对数似然来完成:现在,根据 ELBO 不等式,我们可以约束 , 因此右侧简化为 KL 散度,因此我们得到:这个结果可以解释为数据处理不等式的一个特例。
在这个解释下,最大化等价于最小化,其中上式是真实的需要估计的量的上界,通过数据处理不等式获得。也就是说,我们通过将潜在空间与观测空间连接起来,为了更高效地最小化KL散度而付出了较弱的不等式代价。[3]
参考
- ^ Kingma. Auto-Encoding Variational Bayes. arXiv:1312.6114 .
- ^ Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan. Importance Weighted Autoencoders. 2015-09-01 [2023-03-22]. (原始内容存档于2023-03-22).
- ^ Kingma, Diederik P.; Welling, Max. An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 2019-11-27, 12 (4). Section 2.7 [2023-03-22]. ISSN 1935-8237. arXiv:1906.02691 . doi:10.1561/2200000056. (原始内容存档于2023-03-22) (English).
注释