论文地址:http://arxiv.org/abs/1406.5726
附上自己做的slide
模型概述
三步走:
- BING生成hypotheses
- 对于每个hypotheses缩放到227*227后,放到CNN中,得到结果
- 做max pooling得到结果
跟R-CNN的思路略相似。
下面展开叙述
生成hypotheses
用了BING+Normalized Cut,BING的文章本博客也有做笔记
大致流程对照上图:
- (a) 输入一张图片
- (b) 使用BING提取1k个hypotheses,然后用IoU作为距离使用Normalized Cut,聚成了M个cluster。
- (c) 舍弃掉其中太小的或者长宽比太大的图片
- (d) 对于每个cluster,提取topk作为最后的hypotheses
用CNN pre-train
也是很常规的方法了:
- 先用AlexNet对ImageNet的cls120w问题训练一个model
- 替换掉model的最后一层,修改loss,使用上面训练得到model来fine-tuning。
具体细节参看本文一开始附上的slide。
HSP
本质上是用来抑制噪声的。用的思路也很简单,直接对所有hypotheses取max。
总结
基本思路类似R-CNN,用一种object proposal方法提出一些窗口,然后放到CNN中得到最后的结果。