![](/images/random/material-17.png)
变分推断
2024-06-19 / Tuo Wang
KL Divergence
KL散度(Kullback–Leibler divergence)是用来刻画两个分布差异的量
定义(KL 散度) 设$P,Q$是$\mathbb{R}$上连续随机变量,概率密度分别为$p(x)$和$q(x)$,则定义其KL散度为
KL 散度的性质
性质1(非负性) $\mathbb{D}_{KL}(P | Q)\ge 0$
证明:注意到
而$f(x) = \log(x)$是凹函数,故
即 $\mathbb{D}_{KL}(P | Q)\ge 0$.
性质2(非对称性)$\mathbb{D}_{KL}(P | Q)= \mathbb{D}_{KL}(Q | P)$不一定成立.
证明:读者不难自行举出反例.
注:KL散度并非距离.
变分推断
推断是指根据证据$x$去推断隐变量$z$的条件分布$p(z|x)$,但其不好求解,故通过简单的分布$q(z)$去近似它,为此我们将其转化为如下的泛函极值问题
由于处理泛函极值问题常用变分法,故这也许是变分推断名字的由来.
定理1 我们有如下等式
证明:注意到
证毕.
证据下界
从最大对数似然角度,由定理1以及KL散度的非负性,我们知道
定义(证据下界) 我们将$\mathbb{E}_{q_\phi(z|x)}\left[ \log\dfrac{p(x,z)}{q_\phi(z|x)}\right]$称为证据下界(Evidence Lower BOund),简称BLBO,即
从变分推断角度
而$\log p(x)$相对于优化目标$q_\phi(z|x)$是常数,从而最小化目标函数KL散度等价于最大化ELBO
总结
从变分推断角度,最大化BLBO等价于最小化KL散度;从最大对数似然角度,最大化ELBO也能使得对数似然尽可能大.
PermaLink:
https://tuowang2002.github.io/2024/06/19/kl-divergence/