Hako

2020-02-07

论文研读：WGAN
Introduction
1. 生成式模型的目的：学习目标的分布（比如图像的分布）
  
  通常的做法：
  
  给定一类分布的族 ${P_{\Theta}}$ ，在这类族中，寻找最优的参数，使得可以逼近真实分布 ${P_{\tau}}$ ，通常的做法是 MLE，并且MLE正好和最小化 ${P_{\Theta}}$ 和 ${P_{\tau}}$ 的KL距离等价。
  
  问题是：这类函数族 ${P_{\Theta}}$ 和 ${P_{\tau}}$ 可能没有多大的交集，所以通常会选择 ${P_{\Theta}}$ 为高斯分布，能够尽可能多地涵盖分布。
2. Modern way:
  
  现在一般的做法是：给定一个随机的噪声 ${Z}$ ，寻找一个分布的映射函数 ${f_{W}}$ ，将 ${Z}$ 映射到分布 ${P_{g}}$ ，使得 ${P_{g}}$ 和 ${P_{r}}$ 接近，已有的这方面的工作包括：
  - VAE（变分自编码器）
  - GAN
阅读全文…
- GAN
- Paper Reading
2019-10-14

数学:KL散度
KL divergence(KL 散度)

KL散度(Kullback-Leibler (KL) divergence)通常用来衡量两个单独的概率分布的差异，设对于同一随机变量的两个概率分布为 ${P(x)}$ 和 ${Q(x)}$ ，则它们的KL散度定义为：

${ D_{KL}(p \vert \vert q) = \mathbb{E}_{x\sim P} \left[ \log P(x) - \log Q(x) \right] }$

KL散度具有的性质有：
- 非负：要使得KL散度为0，当且仅当 ${P(x)}$ 和 ${Q(x)}$ 是在离散型变量的情况下是相同的分布，或者在连续型变量的情况下是“几乎处处”相同的[1]。
- 非对称：对某些 ${P(x)}$ 和 ${Q(x)}$ ，KL散度和逆KL散度通常并不相等，也就是 ${D_{KL}(P\vert\vert Q) \neq D_{KL}(Q \vert \vert P)}$ 。
本文将从三个角度分析KL散度的非对称性：直观看法，理论说明，计算实验。
阅读全文…
- Mathematic
- Probability
2019-09-23

数学：SVD分解[1]——原理

Preface 前言

SVD (Singular Value Decomposition) 在机器学习等其他领域有着非常广泛的应用，本文主要是受到计算机图像学课和以前看到的材料的启发，希望对SVD有更深入的了解。

相关的pdf资料可以参见我github上的记录。本文行文基本上是对它的翻译和理解。
阅读全文…
- Linear Algebra
- Mathematic
2019-05-26

论文研读(1.1)：超深层网络加速

前言

深入DL领域读论文是必不可少的工作(其实我还有别的原因)，本意是开个好头吧，然后主要是学习最新的思想，开拓下自己的眼界。我觉得论文研读主要是从翻译、理解、算法实现、实验几个方面下手。

最近研读的是Accelerating Very Deep Convolutional Networks for Classfication and Dectection，作者主要对“超深层网络”(文中对SPP-10和VGG-16两种模型进行了实验)通过通道维度上的分解，达到加速的目的，并且提出了优化算法，显著降低了由于低秩分解带来的损失。
阅读全文…
- Paper Reading

论文研读：WGAN

Introduction

数学:KL散度

KL divergence(KL 散度)

数学：SVD分解[1]——原理

Preface 前言

论文研读(1.1)：超深层网络加速

前言