变分推断
2024-06-19 / Tuo Wang   

KL Divergence

KL散度(Kullback–Leibler divergence)是用来刻画两个分布差异的量

定义(KL 散度) 设$P,Q$是$\mathbb{R}$上连续随机变量,概率密度分别为$p(x)$和$q(x)$,则定义其KL散度为

KL 散度的性质

性质1(非负性) $\mathbb{D}_{KL}(P | Q)\ge 0$

证明:注意到

而$f(x) = \log(x)$是凹函数,故

即 $\mathbb{D}_{KL}(P | Q)\ge 0$.

性质2(非对称性)$\mathbb{D}_{KL}(P | Q)= \mathbb{D}_{KL}(Q | P)$不一定成立.

证明:读者不难自行举出反例.

注:KL散度并非距离.

变分推断

推断是指根据证据$x$去推断隐变量$z$的条件分布$p(z|x)$,但其不好求解,故通过简单的分布$q(z)$去近似它,为此我们将其转化为如下的泛函极值问题

由于处理泛函极值问题常用变分法,故这也许是变分推断名字的由来.

定理1 我们有如下等式

证明:注意到

证毕.

证据下界

从最大对数似然角度,由定理1以及KL散度的非负性,我们知道

定义(证据下界) 我们将$\mathbb{E}_{q_\phi(z|x)}\left[ \log\dfrac{p(x,z)}{q_\phi(z|x)}\right]$称为证据下界(Evidence Lower BOund),简称BLBO,即

从变分推断角度

而$\log p(x)$相对于优化目标$q_\phi(z|x)$是常数,从而最小化目标函数KL散度等价于最大化ELBO

总结

从变分推断角度,最大化BLBO等价于最小化KL散度;从最大对数似然角度,最大化ELBO也能使得对数似然尽可能大.

PermaLink:
https://tuowang2002.github.io/2024/06/19/kl-divergence/