R-CNN 的主要性能瓶颈在于需要对每个提议区域独立抽取特征。由于这些区域通常有大量重叠,独立的特征抽取会导致大量的重复计算。我们可不可以在每张图片上只使用一次 CNN 即可得到全部的重点关注区域呢,而不是运行 2000 次。

  Fast R-CNN 对 R-CNN 的一个主要改进在于只对整个图像做卷积神经网络的前向计算。RCNN 的作者 Ross Girshick 提出了一种想法,在每张照片上只运行一次 CNN,然后找到一种方法在 2000 个区域中进行计算。在 Fast RCNN 中,我们将图片输入到 CNN 中,会相应地生成传统特征映射。利用这些映射,就能提取出感兴趣区域。之后,我们使用一个 ROI 池化层将所有提出的区域重新修正到合适的尺寸,以输入到完全连接的网络中。

  • 输入图片

  • 图像被传递到卷积网络中,返回感兴趣区域:
    • 同样用的是选择性搜索作为寻找感兴趣区域
  • 之后,在区域上应用Rol池化层,保证每个区域的尺寸相同

  • 最后,这些区域被传递到一个完全连接的网络中进行分类,并用softmax和线性回归层同时返回边界框:

References

  1. 基础目标检测算法介绍(一):CNN、RCNN、Fast RCNN和Faster RCNN