论文笔记《Fully Convolutional Neural Networks for Crowd Segmentation》

论文出处：http://arxiv.org/abs/1411.4464
王晓刚老师实验室的论文，估计也是用来投CVPR15的。

概述

如上图，将有人地方从背景中区分出来，就是人群分割（Crowd Segmentation问题）
用CNN做分割的方法有如下三种：

-（a）patch-wise的输入方法，缺点是每次只能输出一个pixel的结果，速度慢。
-（b）全图输出，用全连接层来输出全图结果，速度有保证，但是认为没有translation invariance，也就是同样的patch如果在不同的位置输出结果会不一样。
-（c）将全连接层改成1x1卷积层，兼顾(a)和(b)的优点，保证速度，且有translation invariance

本文用的方法自然是(c)，这一篇其实跟上一篇FCN大同小异，不过提供了一些FCN没有的地方，可以互相对照着看看。

3.2 FCNN 中的一些实现细节

记录本章提到的一些细节：

对于卷积层，通过加padding，使得输出和输入的map大小一致（其实就是pad=(kernel_size-1)/2）
对于pooling，做的是2x2的non-overlap，所以每经过一个pool，输出就会变成原来的1/2。这篇文章的网络总共是两个pool，所以最后seg map是原始图片的1/4
gt的得到方式是经过两个pool，而不是直接调用resize函数（这个算很细节的考虑了）
最后loss函数，是对每个点都做logistic。