论文笔记 《Joint Deep Learning for Pedestrian Detection》

Motivation


见上图,一句话概括,将deformable part和occlusion融合到CNN里面做行人检测。

概述


整体框架见上图。
流程大致是:

  • 以修改过的YUV特征和edge map作为输出
  • 一个卷积层(应该是看成root)
  • 又一个卷积层(引入不同大小的卷积核,带有part信息)
  • 处理deformable的一个层
  • 处理occlusion的层并得到最后结果

Input data preparation

这里输出的不是原始的RGB特征,而是:

  • YUV中的Y
  • YUV缩放成1/4,多余填零
  • sober边缘检测构成的边缘图

目的,为了输出多尺度,并且引入边缘信息。

part detection map & deformation layer


作者设置了不同大小的卷积核,对应不同的part,并且是分层结构。图中的黑色部分代表遮挡情况。
总共有20个代表part的卷积核

对于某个核形成的一张feature map,认为是part的激活状况,通过学习(或者人为设置)deformable layer,并进行融合,能够得到一张带deformable part信息的激活图(上图中的Summed map),之后全图求max得到该part的得分。
注意到,这里的deformable layer可以引入DPM所用的距离函数,这里假设了标准位置是人为设置的。

visibility reasoning(occlusion handling)


这部分是处理遮挡的,目前没有细看。

很久没有更新网站,发现多了不少评论和问题,无法一一回复,如果现在仍有问题请再次留言 :) 2016.03.29