论文略读： SGAN(Stacked GAN), InfoGAN

Introduction

本文是对几篇GAN的略读，主要阐述想法和技术，其中蕴含的idea或者实现细节搁置不提，有机会再提出来单独讲讲吧，included papers:

SGAN(StackedGAN)
InfoGAN

SGAN (Stacked GAN)

SGAN属于Conditional GAN的一种(文章指出进行修改也可以进行unsupervised学习)，在模型上采用了多层级的G和D的架构，并使用一个预训练的分类DNN，它将多层级的G的目标看成是invert DNN的forward的过程，抽出它的不同层级的特征作为不同层级的GAN的目标，希望不同层级的GAN学习到DNN输出的高层特征到DNN输入的底层特征的解码。

同时SGAN还有分层单独训练和端到端的两种训练方法。

模型

模型主要包括三个部分：

用于分类的pre-trained DNN，把预训练的分类网络划分成不同的blocks（conv + pooling的组合），称之为Encoder: ${E_{i}}$ 。
用于invert某一层 ${E_{i}}$ 的生成器： ${G_{i}}$
${G_{i}}$ 对应的 ${D_{i}}$ ，用于计算GAN Loss。

Encoders

每一个 ${E_{i}}$ 的输入 ${h_{i}}$ 是上一层的输出: ${h_{0}}$ 为训练的图片， ${h_{N}}$ 为标签。

{ h_{i+1} = E_{i}(h_{i}) }

Generators

${G_{i}}$ 接受 ${E_{i}}$ 的输出和噪声：

{ \hat{h_{i}} = G_{i}(h_{i+1}, z) }

当使用端到端的训练时， ${G_{i}}$ 接受上一层生成器的输出：

{ \hat{h_{i}} = G_{i}(\hat{h_{i+1}}, z) }

进一步，作者解释了使用多层的生成器的idea：将label到image的条件分布变成了多个分布的联合分布，而每个 ${G_{i}}$ 对中间的简单的分布进行建模：

{ \begin{aligned} P_{G}(\hat{x} \vert y) &= P_{G}(\hat{h_{0}} \vert \hat{h_{N}}) \\ & \propto P_{G}(\hat{h_{0}},\cdots,\hat{h_{N-1}} \vert \hat{h_{N}}) \\ &= \prod_{i} P_{G_{i}}(\hat{h_{i}} \vert \hat{h_{i+1}}) \\ \end{aligned} }

Loss

每层的GAN采用了三种Loss训练：

{ \mathcal{L}_{G_{i}} = \lambda_{1} \mathcal{L}_{G_{i}}^{adv} + \lambda_{2} \mathcal{L}_{G_{i}}^{cond} + \lambda_{3} \mathcal{L}_{G_{i}}^{ent} }

GAN Loss

GAN Loss使用的原始paper中提到的修改过的Vanilla GAN Loss，每个层级的 ${D_{i}}$ 需要鉴别该层级的真实的图片输入的feature ${h_{i}}$ 和 ${G_{i}}$ 生成的feature ${\hat{h_{i}}}$ 的真实性。

{ D_{i}^{\ast} = \max \left[ \mathbb{E}_{h_{i}}[ \log D_{i}(h_{i})] + \mathbb{E}_{h_{i+1},z}[ \log( 1 - D_{i}(G_{i}(h_{i+1}, z)))] \right] }

{ G_{i}^{\ast} = \max \mathbb{E}_{h_{i+1}, z}[ \log(D_{i}(G_{i}(h_{i+1},z)))] }

Conditional Loss

Idea是防止 ${G_{i}}$ 忽略conditional的信息 ${h_{i+1}}$ ，在某种意义上可以看成是重建的Loss。

具体做法是将 ${\hat{h_{i}}}$ 再带入到 ${E_{i}}$ 中得到 ${h_{i+1}^{\prime}}$ ，优化它和 ${h_{i+1}}$ 的差异。

{ \mathcal{L}_{G_{i}}^{cond} = \mathbb{E}_{h_{i+1},z} [f(E_{i}(G_{i}(h_{i+1},z)), h_{i+1}) ] }

Entropy Loss

使用conditional loss的同时，GAN又可能会忽略噪声 ${z}$ 的影响，所以这一项是为了防止忽略噪声，我觉得可以把conditional loss看成重建误差，目的是提高图片质量，而这里的误差可以看成是为了提高生成图片的多样性，所以也很像一个图像质量和多样性的trade-off。

作者首先提到现有（当时）的方法没有很好地解决这一问题，接着从信息熵的角度提出了和InfoGAN类似的方法。

{ \mathcal{L}_{G_{i}}^{ent} = \mathbb{E}_{z_{i}} [ \mathbb{E}_{\hat{h_{i}}} [ -\log Q_{i}(z_{i} \vert \hat{h_{i}})] ] }

为了鼓励diversity，转化成提高 ${G_{i}}$ 的建模的分布 ${p(\hat{h_{i}}\vert h_{i+1})}$ 的熵： ${H(\hat{h_{i}}\vert h_{i+1})}$ ，作者用Variational Conditional Entropy Maximization 的方法证明了优化上式的Entropy Loss是提高熵（证明不详述，和InfoGAN中的证明非常类似）。

思想也是用一个 ${Q_{i}}$ 分布去近似后验分布 ${P_{i}(z\vert \hat{h_{i}})}$ ，实际中 ${Q_{i}}$ 由一个参数化的DNN输出，然后一样地和 ${D_{i}}$ 权值共享，一样地对连续分布，看成高斯分布，不一样的是， ${Q_{i}}$ 仅输出均值，而方差给定。

问题：为什么这样一来，最后说 ${\mathcal{L}_{G_{i}}^{ent}}$ 等价L2重建误差？

InfoGAN

简述 InfoGAN。

latent space 由noise ${z}$ 和 latent codes ${c}$ 组成，通过生成器得到 ${G(z,c)}$ 。

如果不加限制， ${G}$ 容易忽略 ${c}$ 的影响，idea是计算互信息量： ${I(c,G(z,c))}$ 。

{ I(c, G(z,c)) = H(c) - H(c \vert G(c,z)) }

互信息量的含义是：已知 ${G(c,z)}$ 的情况下 ${c}$ 的信息量（信息熵）和未知时的信息量减少的多少。我们希望，对任意一张生成图片，它很明显具有某种latent code编码的特性，也就是使得 ${H(c \vert G(c,z))}$ 尽可能小，所以要互信息量大。

如何将互信息量加入训练？先验分布 ${P(c \vert x)}$ 难以计算，使用Variational Information Maximization的方法用另一个 ${Q(c \vert x)}$ 得到它的下界：

{ I(c, G(z,c)) \geq \mathbb{E}_{x \sim G(z,c)}\left[ \mathbb{E}_{c^{\prime} \sim P(c \vert x)\left[ Q(c^{\prime} \vert x) \right]}\right] + H(c) = L_{1}(G,Q) }

当 ${P = Q}$ 时取等号，而且 ${I(c, G(z,c))}$ 取最小值。给定 ${c}$ 的分布不变， ${H(c)}$ 为固定的常数，只需要优化加号的左项。

整个Loss：

{ \min_{G, Q} \min_{D} V(G,D) - \lambda L_{1}(G,Q) }

实现

${D}$ 和classifier权重共享，除了最后一层不同。 ${D}$ 输出binary结果。classifier对每一个控制的 ${c_{i}}$ ，如果 ${c_{i}}$ 是离散的变量（给定的分布也是离散的），通过softmax得到 ${Q(c_{i} \vert x)}$ 。如果 ${c_{i}}$ 是连续的变量（给定的分布也是连续的），直接把 ${Q(c_{i} \vert x)}$ 看成一个可分解的高斯变换，也就是输出两个数表示均值和方差。

实现的Codes

pytorch-infoGAN
- 对每个离散变量使用随机的one_hot变量，对每个连续的变量使用随机的[-1,1]的变量。然后将它们concat。

References

Xun Huang, Yixuan Li, Stacked Generative Adversarial Networks.