论文笔记 《CNN:Single-label to Multi-label》

论文地址:http://arxiv.org/abs/1406.5726
附上自己做的slide

模型概述


三步走:

  • BING生成hypotheses
  • 对于每个hypotheses缩放到227*227后,放到CNN中,得到结果
  • 做max pooling得到结果

跟R-CNN的思路略相似。
下面展开叙述

生成hypotheses


用了BING+Normalized Cut,BING的文章本博客也有做笔记
大致流程对照上图:

  • (a) 输入一张图片
  • (b) 使用BING提取1k个hypotheses,然后用IoU作为距离使用Normalized Cut,聚成了M个cluster。
  • (c) 舍弃掉其中太小的或者长宽比太大的图片
  • (d) 对于每个cluster,提取topk作为最后的hypotheses

用CNN pre-train


也是很常规的方法了:

  • 先用AlexNet对ImageNet的cls120w问题训练一个model
  • 替换掉model的最后一层,修改loss,使用上面训练得到model来fine-tuning。

具体细节参看本文一开始附上的slide。

HSP

本质上是用来抑制噪声的。用的思路也很简单,直接对所有hypotheses取max。

总结

基本思路类似R-CNN,用一种object proposal方法提出一些窗口,然后放到CNN中得到最后的结果。

很久没有更新网站,发现多了不少评论和问题,无法一一回复,如果现在仍有问题请再次留言 :) 2016.03.29