最近阅读的文章围绕的主题是:对pre-trained的GAN,通过在隐空间移动原始的隐编码,完成原图像的某种操作。

Wrt. one pre-trained GAN model, we would like to get edited images, which orginally generated by some latent codes through GAN, by simply moving the original latent codes in the latent space and passing them through GAN.

这种操作包括:

  • 语义编辑
  • 图像变换

而在语义编辑方向,势必要涉及到Disentangled Representation的问题。

Paper Lists

  1. On the “steerability” of generative adversarial networks. [paper] [codes]

  2. Interpreting the Latent Space of GANs for Semantic Face Editing. [paper] [codes]

  3. GANalyze: Toward Visual Definitions of Cognitive Image Properties. [paper] [project page] [codes]

  4. Controlling Generative Modesl with Continuous Factors of Variations. [paper] [codes]

  5. GANSpace: Discovering Interpretable GAN Controls. [paper] [codes]

Classify

以上的论文中,1,3,4 针对的图像操作都是给定的一些图像变换(如 Zoom In, Zoom Out, X/Y axis move, Rotation 等),2 针对的图像操作是语义编辑,特别是生成人脸的语义编辑。 5 比较偏向语义编辑。

1-5 论文在隐空间控制隐编码的方法都是线性的,即对某种图像操作就向某个方向移动,所以这些论文的大部分的区别和重点在于如何求解这种方向。 仅有 1 讨论了非线性情况的控制方法。

contents

内容小结:

  1. 这篇我比较喜欢,采用了自监督的方式求解隐空间上的变换方向。

  2. 本文基于假设:任意二值语义在隐空间上线性可分。由此,对每个二值语义在隐空间上训练二分类器(为了得到分类超平面,通常选用SVM),并得到分类超平面和分类超平面的法向量。在法向量方向移动隐编码,使之跨越过分类超平面,就可以完成该语义的语义编辑目的。 除此之外,对 entangled 的语义属性,作者提出了一种方法。

  3. 本文偏向“情感计算”方向,其实主要的出发点是寻找 Image Memorability 对应的图像变换。

  4. 本文出于了一种统计的角度出发,构造了一种特殊的数据集D{D}

  5. 该文章使用PCA对激活分解的方式,寻找隐空间上可控的主成分方向。它是一种无监督的方法,不足是它不能直接对指定的图像变换得到变换方向,而要先在主成分方向上实验,有碰运气的成分。

Conculsions

其实我觉得这是一个非常好的课题,它可以包括在其他的课题中:

对预训练的GAN,不对它进一步训练,而是使用别的方法可以控制它的输出的语义。 这就非常节省时间。比如,针对预训练的unconditional GAN,控制它输出的图像类别。

这同时也在探索预训练的GAN的隐空间的结构,探索预训练的GAN学习到的对隐空间的响应。

  1. 语义编辑的过程中,要使得只更改某一种语义属性,就必须涉及到如何消除 entangled 的语义的问题。

  2. 语义编辑提高可操作性,

维度为d 的隐空间最多编码 d 个正交的语义属性,而高级语义属性往往是低级正交的语义属性的组合。