Preface

每周精读论文: Disentangling Factors of Variatons Using Few Labels. [paper]

本文是作者在"Challenge"[1]一文阐述无监督方法不可能性之后,对无监督方法的改进,考虑人工少量标注的可能性,作者主要关心使用少量标注的使用。本文研究的两个改进方法是:(1) 使用少量标注进行调参;(2) 使用少量标注的半监督学习方法。乍一看,作者的方法不是很有新意,但是作者在实验中说明了两种方法带来的效果的提升,而且说明了两种方法对不准确的标注的鲁棒性,使得少量人工标注成为可能。

本文主要还是以实验为主。嫌麻烦直接看结论吧。

PaperFrame

  • Disentanglement目标回顾、有关无监督学习的归纳偏置的问题的回顾、介绍全文工作。
  • 背景、相关工作。
  • 两种加入少量监督信息的方法以及实验:
    • U/S{U / S}(无监督训练,有监督的调参方法)
    • S2/S{S^2 / S} (半监督训练,有监督的调参方法)
  • 总结
  • 附录:关于 S2/S{S^2 / S}中正则项的意义的讨论, 实现细节, 更详细的实验结果展示。

Contents

在无监督的方法中加入少量的监督信息,本文作者关心两种少量监督信息的应用:

(1) U/S{U / S}(Unsupvervised training with Supervised model selection):无监督的学习方法,少量的标注作为验证集调参。

(2) S2/S{S^2 / S}(Semi-Supervised training with Supervised model selection):将少量标注信息加入训练的半监督学习方法,少量的标注作为验证集调参。

Unsupvervised Training with supervised model selection


[1]中认为现有的 Disentanglement Metric需要大量甚至完全的ground-truth因子标注,难以用于调整超参数,所以本文作者探索将少量标注作为验证集调整超参数的可能,该方法称为U/S{U / S}

实验

数据集: dSprites, Cars3D, SmallNORB, Shapes3D

标注: 为了模拟人工标注数据的错误,除了原有的标注(perfect labels),作者引入了非准确的标注(imprecise labels),包含三类:

  • 分层(binned):ground-truth因子只有五个评价级别,模拟标注时对连续因子的离散化评价;
  • 噪声(noisy): 每个ground-truth因子有10%概率随机替换,模拟标注失误;
  • 局部(partial): 只有两个随机的因子被标注。

Metrics: 使用MIG, DCI Disentanglement, SAP Scores,Modularity, β{\beta}-VAE, FactorVAE。但仅在验证集中使用前三个指标,其余的指标只用于计算test metrics。

配置: 32种实验配置,包括4种数据集、2种标注数量配置(100/1000)、4类标注(perfect/binned/noisy/partial); 随机采样5个样本集; 使用4类训练模型;每个训练模型训练36次(每次使用6个不同的超参数、6个随机初始化种子),称为一个模型群(cohort),共计23040个实验。根据验证集的表现选取cohort中的最佳模型。

观察现象

在随机采样的样本集上计算所有实验的Metric得分,并且用额外的10000个样本计算所有的Metric得分作为test metrics。比较二者的秩相关性,观察得到:

(1) MIG和DCI Disentanglement Metric表现出和大部分的test metrics(除了Modularity)较高的相关性。SAP相关性表现较差,作者认为原因是,SAP用到了SVM分类,当ground-truth因子的类别较多,而样本数较少时,不太能准确分类,导致SAP下降。使用1000个标注时,SAP表现明显提升。

(2) 使用非准确的标注:binned 标注使得MIG和 DCI Disentanglement的相关性表现下降,SAP的上升。
noisy, partial 标注使得三者的相关性都表现下降,而且 partial 下降较多,但是还是存在一定的相关性。

结论

(1) 仅使用少量样本的MIG和DCI Disentanglement的validation metrics基本上和 test metrics呈较强的秩相关性,表明仅使用少量样本就可以替代大量样本标注的 test metrics 比较不错地判别模型的好坏

(2) 由于实验的Metric对非准确的标注表现鲁棒,作者认为使用非准确标注进行model selection同样比较可靠

Incoporating Label Information During Training


作者认为加入少量样本训练也许能够使得VAE向隐空间和ground-truth因子空间结构匹配的方向优化,在原 β{\beta}-VAE的 ELBO基础上,加入隐表示和ground-truth因子的正则化项约束:Rs(qϕ(zx),z)κ{R_{s}(q_{\phi}(\mathbf{z}| \mathbf{x}), \mathbf{z}) \leq \kappa },根据KKT条件ELBO变为:

maxϕ,θELBO(ϕ,θ)+βExRu(qϕ(zx))+γsupEz,xRs(qϕ(zx),z)(Equation:new-objective){ \begin{aligned} \tag{Equation:new-objective} \max_{\phi, \theta} \text{ELBO}(\phi, \theta) + \beta \mathbb{E}_{\mathbf{x}} R_{u} (q_{\phi}(\mathbf{z}| \mathbf{x})) + \gamma_{\text{sup} } \mathbb{E}_{\mathbf{z}, \mathbf{x}}R_{s}(q_{\phi}(\mathbf{z}| \mathbf{x}), \mathbf{z}) \end{aligned} }

其中γsup>0{\gamma_{\text{sup} } > 0},出于简便,正则项Ez,xRs(qϕ(zx),z){\mathbb{E}_{\mathbf{z}, \mathbf{x}}R_{s}(q_{\phi}(\mathbf{z}| \mathbf{x}), \mathbf{z})}取各分量的二分类的交叉熵之和:

Ez,xRs(qϕ(zx),z)=i=1d[zilog(σ(r(x)i))+(1zi)log(1σ(r(x)i))]{ \mathbb{E}_{\mathbf{z}, \mathbf{x}}R_{s}(q_{\phi}(\mathbf{z}| \mathbf{x}), \mathbf{z}) = - \sum_{i = 1}^{d} \left[ z_i \log (\sigma( r(\mathbf{x})_i )) + ( 1 - z_i) \log (1 - \sigma( r(\mathbf{x})_i )) \right] }

其中zi{z_i}为标准化到[0,1]{[0,1]}的ground-truth因子,σ(){\sigma(\cdot)}为逻辑函数,r(x){r(\mathbf{x})}x{\mathbf{x}}的表示,一般取qϕ(zx){q_{\phi}(\mathbf{z} | \mathbf{x})}的均值。
当隐编码的维数多于groud-truth因子的维数(d{d})时,仅取隐编码的前d{d}维。作者提到也使用L2范数作为正则项,但是效果更差,更多的正则项的探索留给future work。

还需注意,作者的方法和以往的半监督训练方法略有不同,以往的方法只能处理label中观测的factor,而这里的方法假定所有的ground-truth因子已知(可观测到所有因子),只是观测的标注信息非常少。
作者称这种训练方法为S2/S{S^2 / S}

实验配置

该节实验设置基本和上节一致,做了两个调整:

(1) 非准确的标注加入一类随机重排(random permute),见讨论3。

(2) 加入fully supervised基线模型:仅使用有标注的数据、仅使用公式\ref{Equation:new-objective}的正则化项训练Encoder。针对40种实验配置,每种训练6个随机初始化的模型,共计240个实验。

配置. 40种实验配置,包括4种数据集、2种标注数量配置(100/1000)、5类标注 (perfect/binned/noisy/partial/permute); 随机采样5个样本集; 使用4类训练模型;每个训练模型训练36次(每次使用6个不同的超参数β{\beta}、6个不同的正则化项超参数γsup{\gamma_{\text{sup} }}),称为一个模型群(cohort),共计28800个实验。在验证集上计算Rs{R_s}项选取cohort中的最佳模型。

讨论1: U/S{U / S}S2/S{S^2 / S}的对比

实验方法:

I. 针对不同类训练模型,计算使用100/1000个样本,使用 U/S{U / S}/ S2/S{S^2 / S}方法的平均表现。

II. 计算随机选取数据集、Metric,模型在同类模型中表现最好的概率。

III. 正则化项超参数γsup{\gamma_{sup }}avgMI=I(z,r(x))diag(I(z,r(x))){\text{avgMI} = \| I(\mathbf{z}, r(\mathbf{x})) - \text{diag}(I(\mathbf{z}, r(\mathbf{x}))) \| },avgMI表示了互信息量矩阵I(z,r(x)){I(\mathbf{z}, r(\mathbf{x}))}的对角化的程度,越小表示二者越独立。

IV. 设定下游任务:从隐编码中预测变化的ground-truth因子,选取下游分类器为逻辑回归和梯度提升树,比较随机选取数据集、Metric时,某一模型在同类模型中表现最好的概率。

观察现象:

I. (1) fully supervised模型比 U/S{U / S}S2/S{S^2 / S}的表现都差。 (2) 当可用标注增多时, U/S{U / S}方法的平均表现变化不大,而 S2/S{S^2 / S}方法表现明显变好。

II. (1) 随机选取的模型中, S2/S{S^2 / S}的模型比 U/S{U / S}的模型更好的概率更大。 (2) 使用 S2/S{S^2 / S}训练的模型 比 U/S{U / S}的模型表现提升多少和具体模型有关。

III. 随着γsup{\gamma_{\text{sup} }}增大, avgMI也逐渐减小。

IV. S2/S{S^2 / S}的模型比 U/S{U / S}的模型在下游任务上表现更好的概率更大。

结论:

(1) S2/S{S^2 / S} 在下游任务表现,Disentanglement指标得分的表现都比 U/S{U / S} 更好, 说明加入少量标注训练的 S2/S{S^2 / S}方法还是比较必要的。

(2) 监督信息越多, S2/S{S^2 / S} 效果更好

讨论2:非准确标注对训练的影响

通过对 U/S{U / S}S2/S{S^2 / S} 训练方法的MIG得分区间对比,作者得到的结论有:

1. 即使使用非准确的标注,两种方法的得分并没有怎么降低,说明它们都对非准确标注比较鲁棒。

2. U/S{U / S} 方法比 S2/S{S^2 / S} 更为鲁棒些,随着非准确标注类型改变,得分变化更小。

3. 在非准确标注上使用两种方法, S2/S{S^2 / S}方法的表现仍然更好。

讨论3: 随机重排标注的影响

作者认为本节的正则项约束实际上引入了标注的分量的顺序信息这一归纳偏置(因为Rs{R_s}强制要求了隐编码的分量和ground-truth因子的分量顺序匹配)。为了测试顺序信息的重要性,作者加入了随机重排标注作为一类非准确标注加入训练。

实验中,使用随机重排标注的 S2/S{S^2 / S} 方法的平均表现确实比使用原标注的 U/S{U / S} 的方法更差。

总结


作者认为全文最重要的结论是:

1. 现有的Disentanglement Metric仅需少量真实标注样本就可以有效地用于调参,而本文的加入少量标注的半监督学习方法可以进一步提升模型表现。

2. 两种方法都对不准确标注鲁棒,意味着不需要那么标准的标注,进一步降低了加入人工标注的难度。

我的观点


优点和启发:

1. 作者考虑到了人工标注的可能性和误差,重点关注少量的标注,并且对可能的错误标注也进行建模实验分析。而且实验比较广泛,实验结果具有比较高的参考价值。

2. 我认可作者关于正则项约束的作用的解释,少量的标注保证了隐变量的编码分量的顺序的一致性,而这是以往无监督学习中没有的,可以考虑是否能够在无监督的方法中引入这一归纳偏置。

缺点和反思:

1. 我认为作者的实验比较广泛,但是对实验结果的分析还不够细致。作者的部分结论规律性不是太强。
比如:从S2/S{S^2 / S}方法的实验1对应的Figure18的结果来看, S2/S{S^2 / S} 在标注数量增多时,表现没有增加的情况也不少。同样地,比较下游任务的表现的Figure20的结果来看,也存在不少表现并没有增加的情况。我推测一个原因是表现可能和数据集有关,比如Figure18中 dSprites 数据集上该现象比较明显。这说明作者的实验结果可能还有探索的空间。

2. 本文没有公开代码,也缺乏一些必要的说明和细节:(1) 关于γsup{\gamma_{\text{sup} }}的具体合适的参数,作者并未给出。 (2) fully supervised基线模型的训练细节。 (3) avgMI 的计算细节等。

3. 文章结构上,关于随机重排的标注影响和正则项约束作用的解释的实验,作者仅安排在附录A,我认为这是一个相当重要的分析,应当放置在原文的第四节作为单独的一个实验分析。

4. 实验设计上,两种方法关于非准确标注的实验有重叠的部分。还有,我认为应当设置和纯无监督方法的对比,比较本文的少量监督的超参调整可以达到的模型提升效果。

5. 看起来作者的两个使用少量样本的方法也比较容易,创新性可能较少,一眼看过去可能不太能够抓住文章的亮点,这也是Reviewer1的评价,导致给了个Reject。

Reference


  1. Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar Raetsch, Sylvain Gelly, Bernhard Sch{"o}lkopf and Olivier Bachem. Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations. 2019