本周阅读的是"β{\beta}-VAE:Learning Basic Visual Concepts with a constrained variational framework"。

本文是Disentangled Representation领域中比较有代表性的文章,首先VAE模型本身有利于学习disentangled隐编码表示(由于Encoder,Decoder结构和变分下界损失),而作者提出的β{\beta}-VAE,通过加强分量独立性限制的方式增强了VAE模型的disentangle能力,但是对β{\beta}所起的作用分析还不够清楚。

PaperFrame

  • Introduction: 介绍Disentangled Representation相关工作,尤其是现有的SOTA的模型:InfoGAN(无监督)、DC-IGN(半监督),介绍全文工作
  • Methods:
    • β{\beta}-VAE 公式推导
    • Disentanglement评价指标
  • 实验
    • 定性实验:不同模型disentangled Representation的效果定性比较。
    • 量化实验:不同模型disentangled Representation的效果定量比较,β{\beta} 的选取的影响。
  • 结论

Methods

β{\beta}-VAE frame

与原始VAE不同的是,作者将隐编码划分为v{\mathbf{v}}w{\mathbf{w}}两个部分,这两部分别代表隐编码中条件独立(disentangled)的因子和非条件独立的因子,所以图像对隐编码的条件分布可以表示为:

pθ(xz)=pθ(xv,w)=Sim(v,w){p_{\theta}(x \vert z) = p_{\theta}(x \vert \mathbf{v}, \mathbf{w}) = Sim(\mathbf{v}, \mathbf{w})}

和原始的VAE公式一样,通过最大边缘似然估计条件分布pθ(xz){p_{\theta}(\mathbf{x} \vert \mathbf{z})}的参数θ{\theta}

maxθEpθ(z)[logpθ(xz)](Equation:marginal-likelihood){ \begin{aligned} \max_{\theta} \mathbb{E}_{p_{\theta}(\mathbf{z})} \left[ \log p_{\theta}(\mathbf{x} \vert \mathbf{z})\right] \\ \tag{Equation:marginal-likelihood} \end{aligned} }

用一个近似的后验分布qϕ(zx){q_{\phi}(\mathbf{z} | \mathbf{x})}代替后验分布。作者说为了确保近似后验分布qϕ(zx){q_{\phi}(\mathbf{z} \vert \mathbf{x})}能够以disentangled的方式捕捉到v{\mathbf{v}},变成优化以下问题:

maxθ,ϕExD[Eqϕ(zx)(logpθ(xz))]subject toDKL(qϕ(zx)pz)ϵ(Equation:optimized-problem){ \begin{aligned} \tag{Equation:optimized-problem} \max_{\theta, \phi} \mathbb{E}_{\mathbf{x} \sim D}\left[ \mathbb{E}_{q_{\phi}(\mathbf{z} \vert \mathbf{x})}( \log p_{\theta}(\mathbf{x} \vert \mathbf{z})) \right] \quad \text{subject to} \quad \mathcal{D}_{KL}(q_{\phi}(\mathbf{z} \vert \mathbf{x}) \vert \vert p_{\mathbf{z}}) \leq \epsilon \end{aligned} }

用拉格朗日乘子法将上述有约束的优化问题写为拉格朗日函数:

F(θ,ϕ,β;x,z)=Eqϕ(zx)[logpθ(xz)]β(DKL(qϕ(zx)p(z))ϵ)(Equation:optimized-problem2){ \begin{aligned} \tag{Equation:optimized-problem2} \mathcal{F}(\theta, \phi, \beta ; \mathbf{x}, \mathbf{z})= \mathbb{E}_{q_{\phi}(\mathbf{z} | \mathbf{x})}\left[\log p_{\theta}(\mathbf{x} | \mathbf{z})\right]-\beta\left(\mathcal{D}_{K L}\left(q_{\phi}(\mathbf{z} | \mathbf{x}) \| p(\mathbf{z})\right)-\epsilon\right) \end{aligned} }

由KL散度非负可得ϵ{\epsilon}非负,由KKT互补松紧条件可得β{\beta}非负,则去掉常数项
可以转化成:

F(θ,ϕ,β;x,z)L(θ,ϕ;x,z,β)=Eqϕ(zx)[logpθ(xz)]βDKL(qϕ(zx)p(z))(Equation:beta-VAE-main){ \begin{aligned} \tag{Equation:beta-VAE-main} \mathcal{F}(\theta, \phi, \beta ; \mathbf{x}, \mathbf{z}) \geq \mathcal{L}(\theta, \phi ; \mathbf{x}, \mathbf{z}, \beta)=\mathbb{E}_{q_{\phi}(\mathbf{z} | \mathbf{x})}\left[\log p_{\theta}(\mathbf{x} | \mathbf{z})\right]-\beta D_{K L}\left(q_{\phi}(\mathbf{z} | \mathbf{x}) \| p(\mathbf{z})\right) \end{aligned} }

公式公式(Equation:beta-VAE-main)就是β{\beta}-VAE的优化目标。注意到当 β=1{\beta = 1}时,β{\beta}-VAE变为原始VAE模型。作者提出β{\beta}作为超参数,通过改变近似后验分布qϕ(zx){q_{\phi}(\mathbf{z} \vert \mathbf{x})}分布限制(接近p(z){p(z)}即标准正态分布)的约束强度,迫使 encoder 学习图像更有效的表述。
我认为这里的直观上的解释是:p(z){p(z)}通常取各向同性(isotropic)的高斯分布,每一个维度的分量都是独立的,近似后验分布向它靠近的同时,要求输出的隐编码分量是相互独立的,增大β{\beta}加强了分量独立的限制。

β{\beta}对分布限制约束加强的同时,会减弱重建误差的约束强度,所以作者又认为β{\beta}是一种在生成图像质量和学习到的隐编码的disentangled程度的trade off。

Quantative Disentanglement Metric

作者认为Disentanglement 要保持两种属性,一是隐编码分量间条件独立(conditionally independent),二是隐编码分量可解释(Interpretablility)。
也就是"Disentanglement=Independence+ Interpretablility"。从直观的生成图像的角度表现为:1. 对一组隐编码,保持一个分量不变,其他分量变化,而生成的图像保持一种相同的特征。2. 这种相同的特征十分明显,即使使用非常简单(低容量)的线性分类器预测这个特征种类,也可以取得鲁棒的结果。

基于以上观点,作者提出了一种Disentanglement评价指标,如算法(algorithms:metrics)表示。(该算法按原文的意思整理而成。)

algorithms:metrics
algorithms:metrics

Conclusions

在实验中,作者得到的比较重要的结论有:

1. 定性比较实验中,β{\beta}-VAE学习到的表示比起InfoGAN看起来更加disentangled。定量实验中,在作者构建的数据集上(dSprites)β{\beta}-VAE的表现和DC-IGN的表现一样,好于InfoGAN。InfoGAN由于GAN训练中
可能只学习到原始数据集的子集的原因,对不同形状的不同属性的图像生成表现不稳定。

2. Disentanglement和重建的图片质量存在trade-off。

3. 通常取β>1{\beta > 1}已经足够取得比较好的disentanglement效果,β{\beta}过小和过大都会降低disentanglement效果,作者认为β{\beta}太大,导致实际的隐编码的容量会小于用于图像生成的因子的数量,
所以为了生成图像,模型要学习entangled的隐编码。

一种直观解释是:β{\beta}过大时,模型过于强调KL项的优化而忽略重建误差项的优化,模型学习到的编码已经完全偏离了图像的本意,更谈不上disentangled效果了。

4. 隐编码的维数越高,达到最佳disentanglement表现的最优β{\beta}取值越大。

5. β{\beta}-VAE的效果可能取决于训练集中图像的不同的因子的采样密度。

评价

1. β{\beta}-VAE 本文中最大的不足是作者还没有对β{\beta}的真正作用进行
详尽的理论分析,仅有idea层次的说明和实验性的结论。而且作者将β{\beta}过大导致disentanglement表现
下降归咎于隐编码实际容量的下降,并没有说明为什么实际容量下降,我并不是很理解。

2. 从公式(Equation:marginal-likelihood)到公式(Equation:optimized-problem)的转换,作者直接说为了确保近似后验分布qϕ(zx){q_{\phi}(\mathbf{z} \vert \mathbf{x})}能够
以disentangled的方式捕捉到v{\mathbf{v}},变成优化公式公式(Equation:optimized-problem)。虽然直观感觉上还是make sense的,但是好像和作者所说的v{\mathbf{v}}的编码没有什么关系,不够严谨。

3. 在Metrics一节,作者认为"Disentanglement = Independence + Interpretablility",但是显然β{\beta}-VAE没有对 interpretablility 有任何限制。

本文是Disentangled Representation领域中比较有代表性的文章,首先VAE模型本身有利于学习disentangled隐编码表示(由于Encoder,Decoder结构和变分下界损失),而作者提出的β{\beta}-VAE,通过加强分量独立性限制的方式增强了VAE模型的disentangle能力,但是对β{\beta}所起的作用分析还不够清楚。

Ideas

Specfied in My repo