变分推断

变分推断

 2024-06-19 /  Tuo Wang

KL Divergence

KL散度（Kullback–Leibler divergence）是用来刻画两个分布差异的量

定义（KL 散度） 设$P,Q$是$\mathbb{R}$上连续随机变量，概率密度分别为$p(x)$和$q(x)$，则定义其KL散度为

$\mathbb{D}_{KL}(P \| Q) = \int_{\mathbb{R}}p(x)\log\dfrac{p(x)}{q(x)}\ dx$

KL 散度的性质

性质1（非负性） $\mathbb{D}_{KL}(P | Q)\ge 0$

证明：注意到

$\mathbb{D}_{KL}(P \| Q) = \int_{\mathbb{R}}p(x)\log\dfrac{p(x)}{q(x)}\ dx = -\int_{\mathbb{R}}p(x)\log\dfrac{q(x)}{p(x)}\ dx = -\mathbb{E}_p\left[ \log\dfrac{q(x)}{p(x)} \right].$

而$f(x) = \log(x)$是凹函数，故

$\mathbb{D}_{KL}(P \| Q) =-\mathbb{E}_p\left[ \log\dfrac{q(x)}{p(x)} \right]\ge -\log\left( \mathbb{E}_p\left[ \log\dfrac{q(x)}{p(x)} \right]\right) = -\log\left( \int_{\mathbb{R}}p(x)\dfrac{q(x)}{p(x)}dx\right) = -\log\left( \int_{\mathbb{R}}q(x)dx\right) = -\log 1 = 0.$

即 $\mathbb{D}_{KL}(P | Q)\ge 0$.

性质2（非对称性）$\mathbb{D}_{KL}(P | Q)= \mathbb{D}_{KL}(Q | P)$不一定成立.

证明：读者不难自行举出反例.

注：KL散度并非距离.

推断是指根据证据$x$去推断隐变量$z$的条件分布$p(z|x)$，但其不好求解，故通过简单的分布$q(z)$去近似它，为此我们将其转化为如下的泛函极值问题

$\min_{q_\phi(z|x)}\ \mathbb{D}_{KL}(q_\phi(z|x)\|p(z|x))$

由于处理泛函极值问题常用变分法，故这也许是变分推断名字的由来.

定理1 我们有如下等式

$\log p(x) = \mathbb{E}_{q_\phi(z|x)}\left[ \log\dfrac{p(x,z)}{q_\phi(z|x)}\right]+\mathbb{D}_{KL}(q_\phi(z|x)\|p(z|x))$

证明：注意到

$\begin{aligned} \log p(x) &= \log p(x)\cdot \int_{\mathbb{R}}q_\phi(z|x)dz = \int_{\mathbb{R}} \log p(x) q_\phi(z|x)dz = \mathbb{E}_{q_\phi(z|x)}[\log p(x)]\\ &= \mathbb{E}_{q_\phi(z|x)}\left[\log \dfrac{p(x,z)}{p(z|x)}\right] = \mathbb{E}_{q_\phi(z|x)}\left[\log \left(\dfrac{p(x,z)}{p(z|x)}\cdot \dfrac{q_\phi(z|x)}{q_\phi(z|x)}\right)\right] \\&= \mathbb{E}_{q_\phi(z|x)}\left[\log \dfrac{p(x,z)}{q_\phi(z|x)}\right]+\mathbb{E}_{q_\phi(z|x)}\left[\log \dfrac{q_\phi(z|x)}{p(z|x)}\right]\\ &= \mathbb{E}_{q_\phi(z|x)}\left[ \log\dfrac{p(x,z)}{q_\phi(z|x)}\right]+\mathbb{D}_{KL}(q_\phi(z|x)\|p(z|x)). \end{aligned}$

证毕.

证据下界

从最大对数似然角度，由定理1以及KL散度的非负性，我们知道

$\log p(x) \ge \mathbb{E}_{q_\phi(z|x)}\left[ \log\dfrac{p(x,z)}{q_\phi(z|x)}\right]$

定义（证据下界） 我们将$\mathbb{E}_{q_\phi(z|x)}\left[ \log\dfrac{p(x,z)}{q_\phi(z|x)}\right]$称为证据下界（Evidence Lower BOund），简称BLBO，即

$\text{ELBO} =\mathbb{E}_{q_\phi(z|x)}\left[ \log\dfrac{p(x,z)}{q_\phi(z|x)}\right].$

从变分推断角度

$\min_{q_\phi(z|x)}\ \mathbb{D}_{KL}(q_\phi(z|x)\|p(z|x)) =\log p(x) -\text{ELBO}$

而$\log p(x)$相对于优化目标$q_\phi(z|x)$是常数，从而最小化目标函数KL散度等价于最大化ELBO

总结

从变分推断角度，最大化BLBO等价于最小化KL散度；从最大对数似然角度，最大化ELBO也能使得对数似然尽可能大.

PermaLink:
https://tuowang2002.github.io/2024/06/19/kl-divergence/