Preface

每周精读论文: Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations. [paper]

这篇文章之前读过,但是没有详细看实验部分。该文章读完不免让人感觉沮丧,作者在大量广泛的实验基础上,展示了无监督的 Disentangled表示学习方法在可解释性、无监督Metric、超参数选择、模型选择尤其是对下游任务的促进作用上的很多问题。但是同样作者认为无监督学习Disentangled表示学习是不可能的

我比较认可作者的实验暴露出的问题,但是对作者关于无监督学习Disentangled表示学习是不可能的观点持保留意见。

PaperFrame (全文架构)

  • 表示学习的介绍、相关工作总结,无监督Disentangled表示学习方法总结,概括全文工作。
  • 无监督Disentangled表示学习方法理论不可能性证明与说明
  • 实验:无监督Disentangled表示学习方法的有效性等讨论
    • 讨论1:现有方法是否能够达到合计后验分布分量之间相互独立的目标
    • 讨论2:各种Disentanglement Metric的表现是否一致
    • 讨论3:模型和超参数的选择对 Disentanglement 影响和重要性比较
    • 讨论4:模型和超参数的选择是否有可靠的方法
    • 讨论5:现有方法学习到的Disentangled表示是否因为它表示的复杂性下降而对下游任务更加有利
  • 结论,对现有Disentangled表示学习工作的建议

Inductive Biases

作者质疑了Disentanlged Representation Learning的无监督方法可能性,认为在缺少数据集和模型的Inductive Biases的基础上,无监督的方法理论上是不可能的。

定理1:

d>1{d > 1}zp(z){\mathbf{z} \sim p(\mathbf{z})}表示任意概率密度为p(z)=i=1dp(zi){p(\mathbf{z}) = \prod_{i = 1}^{d} p(\mathbf{z}_{i})}的分布,那么,存在一个无限的双射函数族f:supp(z)supp(z){f: \operatorname{supp}(\mathbf{z})\to \operatorname{supp}(\mathbf{z}) },使得对几乎所有的i,j{i,j}fi(u)uj0{\frac{\partial f_{i}(\mathbf{u})}{\partial \mathbf{u}_j} \neq 0}z{\mathbf{z}}f(z){f(\mathbf{z})}完全entangled)。而且对任意usupp(z){\mathbf{u} \in \operatorname{supp}(\mathbf{z})},有P(zu)=P(zu){P(\mathbf{z} \leq \mathbf{u}) = P(\mathbf{z} \leq \mathbf{u}) }z{\mathbf{z}}f(z){f(\mathbf{z})}的边缘分布相同)。

假设隐编码先验为p(z){p(\mathbf{z})},定义p(xz){p(\mathbf{x} | \mathbf{z})}为生成模型。假设一种无监督的方法学习到z{\mathbf{z}}空间上的完美的 Disentangled表示r(x){r(\mathbf{x})}。定理1表明存在另一个生成模型,它定义在相同的隐空间z^=f(z),p(z^)=p(z){\hat{\mathbf{z}} = f(\mathbf{z}), p(\hat{\mathbf{z}}) = p(\mathbf{z})}上,而z^{\hat{\mathbf{z}}}是完全entangled的,其隐表示r(x^){r(\hat{\mathbf{x}})}也是完全entangled的(Jacobian矩阵fi(u)uj0{\frac{\partial f_{i}(\mathbf{u})}{\partial \mathbf{u}_j} \neq 0}表明,更改任意z^{\hat{\mathbf{z}}}的某个任意维度会使得z{\mathbf{z}}的所有维度变化)。

因为f{f}是确定的,两个生成模型的x{\mathbf{x}}的边缘概率相同,即P(x)=p(xz)p(z)dz=p(xz^)p(z^)dz^{P(\mathbf{x}) = \int p(\mathbf{x} | \mathbf{z}) p(\mathbf{z}) d \mathbf{z} = \int p(\mathbf{x} | \hat{\mathbf{z}}) p(\hat{\mathbf{z}}) d \hat{\mathbf{z}} }。无监督的学习方法在仅能观测到x{\mathbf{x}}的条件下,无法区分这两个生成模型,所以无监督方法并不能学习到Disentangled表示。

实验

作者进行了大量广泛的对比实验,实验的配置如下:

  • 六种模型(Disentangled表示学习方法): β{\beta}-VAE, AnnealedVAE, FactorVAE, β{\beta}-TCAVE, DIP-VAE-I, DIP-VAE-II
  • 六种Metric: β{\beta}-VAE-Metric, FactorVAE-Metric, MIG, Modularity, DCI Disentanglement, SAP Score
  • 七种数据集,分为两类: (1) 无噪声数据集: dSprites, Car3D, SmallNORB, Shapes3D。 (2) 包含噪声的数据集: Color-dSprites, Noisy-dSprites, Scream-dSprites

除此之外,作者提到实验主要关注正则化约束的 inductive biase,包括不同的正则化方法(即以上的模型)以及正则化约束强度(即正则化超参数)。正则化超参数(以下简称为超参数)的选择根据不同模型的最佳参数的范围左右选取。

作者主要关注了以下五个方面讨论:

(可以直接看结论,详细的图表结果见文章附录I部分。)

讨论1:现有方法是否能够达到合计后验分布分量之间相互独立的目标


实验模型主要将样本经过encoder后得到的均值向量作为该样本的表示,而它们的目标主要是使得合计后验分布q(z){q(\mathbf{z})}可分解,实现上针对的是对q(zx){q(\mathbf{z}|\mathbf{x})}采样的表示的total correlation的优化。作者质疑对合计后验分布可分解的优化(即"采样的表示"的total correlation的优化)是否有助于encoder得到的均值向量各分量的独立性。

实验方法步骤

(1) 在不同数据集上,对不同的方法,观察改变超参数对TC项的影响。

(2) TC项的计算:采样10000个样本,获得它们的表示;计算这些表示的均值μr(x){\mu_{r(\mathbf{x})}}和协方差Σr(x){\Sigma_{r(\mathbf{x})}};TC项的计算如下:

DKL(N(μr(x),Σr(x))jN(μr(x)j,Σr(x)j,j)){ \mathcal{D}_{\text{KL} }\left( \mathcal{N}(\mu_{r(\mathbf{x})}, \Sigma_{r(\mathbf{x})}) \| \prod_{j} \mathcal{N}(\mu_{r(\mathbf{x})_j}, \Sigma_{r(\mathbf{x})_{j,j}}) \right) }

(3) 不同的表示:(2)步骤的表示有两种获取方法:1) 每个样本通过encoder后,将encoder输出的均值μϕ(x){\mu_{\phi}(\mathbf{x})}作为隐表示,称为均值表示(mean representation); 2) 每个样本通过encoder之后,在N(z;μϕ(x),σxI){\mathcal{N}(\mathbf{z}; \mu_{\phi}(\mathbf{x}), \sigma_{\mathbf{x}} \mathbf{I})}上采样一个向量作为隐表示,称为采样表示(sampled representation)。计算出两种TC项也分别称为TC(mean)和TC(sampled),作者正是观察这两TC项随正则化强度的变化。

观察现象

(1) TC(sampled):对大部分的模型和大部分数据集,TC(sampled)项都随着超参数的增大而下降,DIP-VAE模型由于本身就在优化方差项,所以TC(sampled)项一直维持在较低的水平。

(2) TC(mean):在大部分数据集上, β{\beta}-VAE和β{\beta}-TCAVE的TC表现随超参数增大反而上升,FactorVAE趋势相同,但是没那么严重。DIP-VAE-I几乎保持不动,而DIP-VAE-II在某些数据集上似乎也不能很好地学习到mean representation的独立性。

结论

实验模型在优化采样表示的分量独立性上表现都比较有效,但是却不能保证实际使用的均值表示的分量的独立性

讨论2:各种Disentanglement Metric的表现是否一致


作者在不同数据集上,对使用不同方法、参数训练的模型,得到的Metric的评分,将评分两两配对可视化,并计算秩相关性。

结论

(1) 大部分的Metric在大部分的数据集上呈现比较强的相关性。但是也随数据集不同而不同,比如Scream-dSprites的相关性最强,Noisy-dSprites,Car3D等较弱。

(2) 从所有数据集看,MIG和DCI Disentanglement两Metric最相关, β{\beta}-VAE score和 FactorVAE score也比较相关。

讨论3:模型和超参数的选择对 Disentanglement 影响和重要性比较


作者主要考虑了三种因素对 Disentanglement结果的影响:实验模型选择;超参数选择;随机种子(初始化)影响。

实验方法和观察现象

(1) 使用不同超参数训练的不同模型在不同数据集上,不同Metric的得分分布区间,观察发现这些区间存在大量重合,并且并没有表现出某种规律性。表明
即使使用更差的模型,使用更好的超参数也可以超过更好的模型的表现。

(2) 在Car3D数据集上,训练使用不同超参数的多个随机初始化的不同模型,得到不同Metric的得分分布区间,观察发现,
即使是随着超参数增大,模型的表现并没有上升太多,一些超参数更小模型的表现也可以超过超参数更大的模型(初始化更好)。

(3) 方差可解释性:最小二乘法拟合不同模型的目标函数和Metric得分的回归模型,平均可预测的比例在37%,而使用(在回归曲线附近的点除以总点数的比例?)目标函数和超参数的笛卡尔积预测,比例在59%左右,表明目标函数的选择的影响也不大。 (注意:这一段我没太明白作者是则在那么进行实验的?可能和作者的想法有偏差。

结论

三种影响重要性的比较: 随机初始化 > 超参数选择 > 模型选择

讨论4:模型和超参数的选择是否有可靠的方法


随机初始化难以调整,作者进而讨论模型选择和超参数的可靠选择方法。首先作者不使用基于实验的Metric选择的方法有三点力有,最重要的是因为模型是无监督的,但是实验的Metric都必须使用大量的完全的groud-truth factors标注,否则我们可以使用半监督、有监督的方法。

以下讨论分为三种选择方法:

(1) 是否存在通用的选择方法: 作者在不同数据集上,训练不同模型,得到不同的Metric得分,但是并没有发现某一类模型在所有数据集上,对所有Metric得分的表现都比较优异。同时对每个模型,不同的数据集上,也没有表现出最佳超参数的规律性。在讨论的范围内,可以认为不存在通用的模型、超参数选择。

(2) 是否可以使用无监督的Metric进行选择: 作者考虑了四种无监督Metric:KL项值、重建误差、ELBO、TC项。计算这些Metric和实验中有监督的Metric在不同数据集上的秩相关性。但是并没有呈现出比较好的相关性,表明这些无监督的Metric也并不太有用。

(3) 超参数选择是否可以dataset transfer: 在有标注的数据集上用实验的Metric选择超参数,再transfer到无标注的数据集上训练是一种方法,作者验证了该方法的可能性。对不同的Metric,计算不同数据集上的得分的秩相关性。实验现象表现除了dSprites和Color-dSprites数据集不同的Metric都表现出较强的相关性,其他数据集之间得分相关性并不强,表明transfer方法并不太适用。

结论

无监督方法的模型、超参数选择仍是未解决的问题,更不用说区别实验的随机初始化是好是坏。Transfer方法表现也并不好

讨论5:现有方法学习到的 Disentangled表示是否因为它表示的复杂性下降而对下游任务更加有利


一般认为,Disentangled表示学习学习到了真实factor的隐编码,降低了样本的复杂度,对下游任务的学习更加有利,作者验证了实验方法对下游任务是否有促进作用。这里作者主要考虑多分类任务,训练模型为逻辑回归(LR,较弱)和梯度提升树(GBT,较强)。

实验方法

(1) 分类准确率: 采样;将样本通过encoder,将encoder的均值向量作为样本的隐表示;训练多分类的逻辑回归模型和梯度提升树模型;计算测试集准确率和实验Metric的秩相关性。

(2) 以上方法中,计算讨论4中的无监督Metric和准确率的秩相关性。

(3) 隐表示分类效率提升验证: 定义一个分类效率得分(efficiency score)为使用100个样本隐表示分类的准确率和使用10000个样本的准确率之比。可视化使用不同模型,不同Metric的得分和LR、GBT训练的efficiency score的关系。

观察现象

(1) 除了Modularity Metric,其他Metric在大部分数据集上和测试准确率有一定的相关性,但是相关性因数据集而异,在个别数据集上,相关性都比较差,如Car3D。

(2) 无监督Metric得分和测试准确率得分几乎没关系,尤其是TC项。

(3) 几乎没有观察到efficiency score和Metric得分的正相关性。(注:但是除了Car3D、Shape3D数据集,其他数据集的efficiency表现都在60%以上。)

结论

实验模型对下游任务的效率的提升并不显著,作者质疑相关将 β{\beta}-VAE模型引入下游任务的模型的表现的提高是否真的是因为 β{\beta}-VAE 的Disentanglement效果。

总结和建议


根据以上的观点,作者对未来Disentangled表示学习方法提出几点建议和要求:

1. 由于无监督的Disentangled表示学习方法缺少inductive biases不可能,而且目前缺少有效地选择模型、超参数的方法。未来的工作应该注重隐式或显式地加入监督信息,放弃纯无监督的方法。

2. 鉴于讨论5的实验结果,未来的工作应当注意在实验中展示学习的Disentangled表示学习为下游任务带来的具体益处

3. 实验表明Metric,超参数选择,随机初始化都会对模型的最终效果产生比较大的影响,可能掩盖模型本身的不足。未来的工作应当注意在更多的数据集上验证效果,应当进行更加完善的实验

我的观点


1. 优点

作者的实验非常具有说服力,针对了现有的比较突出的模型、数据集、Metric进行了大量的实验(总计12000个模型),暴露出了无监督的 Disentangled表示学习方法在可解释性、无监督Metric、超参数选择、模型选择尤其是对下游任务的促进作用上的很多问题。实验和分析十分具有参考性和启发性,填补了现有工作实验上的不足。促进无监督学习方法开始向这些方面思考,推进有价值的工作的开展。我对作者的后两条建议比较认同。

2. 理论问题

我认为作者理论上证明无监督方法不可能学习到 Disentangled表示存在漏洞,并不是很有说服力。在作者的证明中,他通过一个正定阵的变换
构造了一类无限双射函数族f{f},但他只将p(z)=p(z^){p(\mathbf{z}) = p(\hat{\mathbf{z}})}作为假设的前提条件,对一般选取的标准高斯分布p(z)=N(0,I){p(\mathbf{z}) = \mathcal{N}(0, \mathbf{I})}确实成立,而对于非各向同性的高斯分布来说,直觉上感觉是并不成立的(当然还没有证明),而作者也并没有进一步说明。不过这至少从一个角度说明了现有方法先验的选取上确实存在问题。

3. inductive biases

作者对inductive biases的解释和理解比较模糊,从文章的意思推测,作者认为inductive biases是和监督信息有关的数据集信息,比如分量间的因果关系。这相当于认为现有的无监督方法并没有inductive biases,对这些方法进行了否定。然而VAE类的方法真的没有促进 Disentangled 表示学习吗?从作者的讨论5来看,学习到的表示虽然没有对分类效率有明显的提高,但是也保证了一定的分类正确率,并且以往的工作都或多或少地体现了Disentangled表示的特性。我认为inductive biases应该不止是有关监督信息的信息,VAE类方法的encoder结构(作者的论述中也未提到p(zx){p(\mathbf{z} | \mathbf{x})})、ELBO的KL项也算是 inductive biases?

Other Perspective


作者关于无监督学习Disentangled表示学习是不可能的观点很有意思。这里将我看到的其他人的观点收集起来:

Mathieu在[1]讨论环节认为:

(1) encoder 保证了相邻的coding对应相似的datapoints,encoder中也包含了信息,而不仅是decoder。 encoder训练时采样带来的随机性导致也导致ELBO倾向于选择更加平滑、更加简单的表示。(但是我还并没有理解这一段的意思。)

(2) encoding distribution的形式同样重要。假设一个二维的可分解的异方差的高斯分布,模倾向将更重要的信息编码到高方差的分量上。这至少意味着模型不是随意地将factor对应到各维度。

References


  1. Disentangling Disentanglement in Variational Autoencoders. Emile Mathieu et.al. ICML2019.