跳转到内容

证据下界

维基百科,自由的百科全书

变分贝叶斯方法中,证据下界(英語:evidence lower boundELBO;有时也称为变分下界[1]负变分自由能)是一种用于估计一些观测数据的对数似然的下限。

术语和符号

是随机变量,其联合分布为。例如,边缘分布是在给定的条件下,的条件分布。那么对于任何从中抽取的样本和任何分布,我们有:


我们将上述不等式称为ELBO不等式。其中,左侧称为的证据,右侧称为的证据下界(ELBO)。

在变分贝叶斯方法的术语中,分布称为证据。一些人使用“证据”一词来表示,而其他作者将称为对数证据,有些人会交替使用证据和对数证据这两个术语。

ELBO 没有普遍且固定的表示法。在本文中我们使用

动机

变分贝叶斯推理

假设我们有一个可观察的随机变量,并且我们想找到其真实分布。这将允许我们通过抽样生成数据,并估计未来事件的概率。一般来说,精确找到是不可能的,因此我们不得不寻找一个近似。

也就是说,我们定义一个足够大的参数化分布族,然后最小化某种损失函数。解决这个问题的一种可能方法是考虑从的微小变化,并解决。这是变分法中的一个变分问题,因此被称为变分方法。

由于明确参数化的分布族并不多(所有经典的分布族,如正态分布、Gumbel分布等都太过简单,无法很好地模拟真实分布),我们考虑隐式参数化的概率分布:

  • 首先,定义一个在潜在随机变量上的简单分布。通常情况下,正态分布或均匀分布已足够。
  • 接下来,定义一个由参数化的复杂函数族(例如深度神经网络)。
  • 最后,定义一种将任何转换为可观测随机变量的简单分布的方法。例如,让具有两个输出,那么我们可以将相应的分布定义为在上的正态分布

这定义了一个关于的联合分布族。从中抽取样本变得非常容易:只需从中抽样,然后计算,最后使用来抽样


换句话说,我们拥有了一个可观测量和潜在随机变量的生成模型。

现在,我们认为一个分布是好的,如果它是的一个接近近似:由于右侧的分布仅涉及到,因此左侧的分布必须消除潜在变量的影响,即要对进行边缘化。

一般情况下,我们无法积分,这迫使我们寻找另一个近似。

由于,因此我们只需要找到一个的好的近似即可。因此,我们定义另一个分布族来近似,这是一个针对潜在变量的判别模型。

下表概述了所有情况:

:观测量 :潜变量
可近似的 ,简单
,简单
可近似的 ,简单

用贝叶斯的方式来说,是观测到的证据,是潜在/未观测到的随机变量。分布上是的先验分布,是似然函数,而的后验分布。


给定一个观测值,我们可以通过计算来推断出可能导致出现的。通常的贝叶斯方法是估计积分:

然后通过贝叶斯定理计算:

这通常是非常耗时的,但如果我们可以找到一个在大多数下的好近似,那么我们就可以快速地从推断出。因此,寻找一个好的也称为摊销推断

综上所述,我们找到了一个变分贝叶斯推断问题。

推导ELBO

变分推断中的一个基本结果是,最小化Kullback–Leibler 散度(KL散度)等价于最大化对数似然:其中是真实分布的熵。因此,如果我们可以最大化

我们就可以最小化

因此找到一个准确的近似。要最大化我们只需从真实分布中抽取许多样本,然后使用:为了最大化,必须要找到[註 1]这通常没有解析解,必须进行估计。估计积分的常用方法是使用重要性采样进行蒙特卡洛积分其中,是我们用于进行蒙特卡罗积分的在上的抽样分布。因此,我们可以看到,如果我们抽样,那么的一个无偏估计量。不幸的是,这并不能给我们一个对的无偏估计量,因为是非线性的。事实上,由于琴生(Jensen)不等式,我们有:事实上,所有明显的的估计量都是向下偏的,因为无论我们取多少个的样本,我们都可以由琴生不等式得到:减去右边,我们可以看出问题归结为零的有偏估计问题:通过delta 方法,我们有如果我们继续推导,我们将得到加权自编码器。[2]但是让我们先回到最简单的情况,即:不等式的紧度有一个解析解:这样我们就得到了ELBO函数:

最大化 ELBO

对于固定的,优化的同时试图最大化和最小化。如果的参数化足够灵活,我们会得到一些 ,使得我们同时得到了以下近似:由于我们有所以也就是说: 最大化ELBO将同时使我们得到一个准确的生成模型和一个准确的判别模型

主要形式

ELBO具有许多可能的表达式,每个表达式都有不同的强调。这个形式表明,如果我们抽样 , 则是 ELBO 的无偏估计量这种形式显示 ELBO 是证据的下界 ,并且关于最大化 ELBO 等价于最小化从 KL 散度 .这种形式显示,最大化ELBO同时试图将保持接近,并将集中在最大化的那些上。也就是说,近似后验在保持先验的同时,朝着最大似然移动。这个形式显示,最大化ELBO同时试图保持的熵高,并将集中于最大化的那些 。也就是说,近似后验在均匀分布和向最大后验之间保持平衡。

数据处理不等式

假设我们从中取个独立样本,并将它们收集在数据集中,则我们具有经验分布。其中表示冲激函数(Dirac函数)。

拟合通常可以通过最大化对数似然来完成:现在,根据 ELBO 不等式,我们可以约束 , 因此右侧简化为 KL 散度,因此我们得到:这个结果可以解释为数据处理不等式的一个特例。

在这个解释下,最大化等价于最小化,其中上式是真实的需要估计的量的上界,通过数据处理不等式获得。也就是说,我们通过将潜在空间与观测空间连接起来,为了更高效地最小化KL散度而付出了较弱的不等式代价。[3]

参考

  1. ^ Kingma. Auto-Encoding Variational Bayes. arXiv:1312.6114可免费查阅. 
  2. ^ Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan. Importance Weighted Autoencoders. 2015-09-01 [2023-03-22]. (原始内容存档于2023-03-22). 
  3. ^ Kingma, Diederik P.; Welling, Max. An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 2019-11-27, 12 (4). Section 2.7 [2023-03-22]. ISSN 1935-8237. arXiv:1906.02691可免费查阅. doi:10.1561/2200000056. (原始内容存档于2023-03-22) (English). 

注释

  1. ^ 事实上,根据Jensen不等式,有 这个估计量存在向上的偏差。这可以看作是过度拟合:对于一些有限的采样数据 ,通常存在一些 比整个 分布更好地拟合它们。