近来在 coding 中遇到特征图可视化的问题,最终考虑使用 CAM 类的方法,本文主要记述下原理、实现过程遇到的问题以及一些心得。
阅读全文…Hako
-
-
Person Search Paper list
近半年多的时间在做 Person Search 任务,在此做一个整理:
首先简要介绍下 Person Search(行人搜索任务): Person Search 任务的输入是给定一张图像和一个检测框表明的 query 行人的图像,在 Gallery 中搜索所有的图像, 找到 query 行人的出现的位置。可以看成行人检测和行人重识别任务的结合,比较早的方法也就是将二者进行结合一起做的, 这类方法一般称为 Two-Step 方法(区别于检测的 One-Stage 和 Two-Stage),近年的方法通过,将两种模型的特征提取器进行共享的方式, 将二者结合起来做,可以达到类似的模型效果,并且可以提升整体的效率。
主要的论文和研究方向我做以下几种分类:
- 基于 CUHK-SYSU/PRW 两种数据集的强监督的 Person Search 文章:点刷的已经很高了,不推荐继续做了。
- Video-based person search:其实感觉脱离了 Person Search,更偏向追踪。
- Multi-modal 多模态搜索:不了解。
- 半监督/弱监督: 现在的任务是去掉 ReID 的 label,相当于有监督的 Detection 加上无监督的 ReID。
-
Metrics: mAP
指标:mAP
mAP 是目标检测、重识别等领域的重要指标。计算 mAP 的关键是计算 AP,而计算 AP 关键的是 TP, FP, FN 的定义,如果我们能够将一个输出序列标注为 TP, FN,并且得到它们的置信度,那么剩余的其实直接套公式计算即可。
阅读全文… -
论文阅读: VPGAN
阅读的是 ECCV2020 的一篇有关 Disentangled Representation Learning 学习的文章:
Learning Disentangled Representations with Latent Variation Predictability. [paper]
本文提出了 Variation Prediction (VP) 的概念,并基于 InfoGAN 提出了 VPGAN 的架构,
阅读全文…
最后还提出了一种新的 Metrics: Variation Prediction Disentanglement Metric。 个人认为,这篇文章
的唯一亮点在于提出了 Variation Prediction 的概念,而作者提出的 VPGAN 仅仅是 InfoGAN 的一种变形,
提出的 Metrics 也没有贴合 VP 的概念,存在非常多的不足。 -
Papers under review in ICLR2021
“Disentangling” in ICLR2021
ICLR2021 openreivew 下搜索 “dientangling” 关键字的文章共计 92 篇,我先大致阅读标题、摘要、结论,对文章进行分类、质量筛选,选出几篇比较有特点的文章,且值得深入阅读的文章。
更新到第10条。
阅读全文… -
NeurIPS 2020 Paper
-
Latest Papers Checker
Bring up a good habit: Check related papers everyday! 主要针对 arxiv 的文章:
阅读全文… -
Resources: Disentangled Representation Learning
Preface
2019年,Locatello等人的"Challenge…" 一文获得 ICML2019 best paper award,表示了学界对该文章指出文章的肯定,也成了无监督学习方法要获得认可迈不过去的一道坎(有关DR的无监督学习方法明显在近两年的顶会中减少),文章对无监督学习的指摘和实验中的结论主要是:
(1) 无监督学习方法存在辨识性问题,接下来的工作必须强调引入有关监督信息的归纳偏置(inductive biases),使得模型可辨识。
(2) DR学习方法应该注意学习到的表示能为下游任务带来的收益,增加相关的实验结果。
(3) 对比主流的无监督学习方法,对结果的影响上: 初始化 > 参数选择 > 模型选择。 无监督学习方法的 Metric, 调参方法存在很大的问题。
我对模型可辨识性的理解:学习DR的生成模型的loss达到最优值时,表示也应该是唯一的,disentangled的。
因此,在新的理论出现之前,以后的文章无论如何也绕不开这篇文章的几点要求,可以说,类似方法的文章,如果没有对该文章的问题回答,中的机会比较小。
阅读全文… -
基于BoW特征的图像分类(2) —— 空间金字塔匹配
prefaces
CV课的大作业,两篇论文: “Local Features and Kernels for Classification of Texture and Object Categories: A Comprehensive Study” 和 “Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories”,的阅读、方法的总结以及后者的实现。
本文针对第二篇。第二篇的实现代码: https://github.com/MercuriXito/Spm
Bags of Feature 在将图像表示为局部特征的无序集合时,丢弃了局部特征之间的结构特征。 本文就是针对 Bags of Feature 的无序性的改进。从空间和尺度两个方面对 Bags of Features 增强。 尺度上,本文借鉴了金字塔匹配核函数(Pyramid Matching Kernel)[3] 的思路计算两个特征集合的匹配。空间上,将不同类特征的空间位置作为新特征,并且作为金字塔匹配核函数的输入,得到匹配输出。
阅读全文… -
基于双目视觉的景深估计