【个人整理】faster-RCNN的背景、结构以及大致实现架构（一）

小草AI

发布于 2019-06-02 23:33:43

5.9K0

发布于 2019-06-02 23:33:43

前言

前言：faster-RCNN是区域卷积神经网络（RCNN系列）的第三篇文章，是为了解决select search方法找寻region proposal速度太慢的问题而提出来的，整个faster-RCNN的大致框架依然是沿袭了fast-RCNN的基本能结构，只不过在region proposal的产生上面应用了专门的技术手段——区域推荐网络（region proposal network，即RPN），这是整个faster最难以理解的地方，本文也将以他为重点进行说明。鉴于篇幅较长，本次系列文章将分为3篇来说明：

第一篇：faster-RCNN的背景、结构以及大致实现架构

第二篇：faster-RCNN的核心构件——RPN区域推荐网络

第三篇：faster-RCNN的训练以及补充

本次为系列文章第一篇。

一、 faster-RCNN的背景

Faster R-CNN 发表于 NIPS 2015，其后出现了很多改进版本，后面会进行介绍.

R-CNN - Rich feature hierarchies for accurate object detection and semantic segmentation 是 Faster R-CNN 的启发版本. R-CNN 是采用 Selective Search 算法来提取(propose)可能的 RoIs(regions of interest) 区域，然后对每个提取区域采用标准 CNN 进行分类.

出现于 2015 年早期的 Fast R-CNN 是 R-CNN 的改进，其采用兴趣区域池化(Region of Interest Pooling，RoI Pooling) 来共享计算量较大的部分，提高模型的效率.

Faster R-CNN 随后被提出，其是第一个完全可微分的模型. Faster R-CNN 是 R-CNN 论文的第三个版本.R-CNN、Fast R-CNN 和 Faster R-CNN 作者都有 Ross Girshick.

二、faster-RCNN的网络结构

Faster R-CNN 的结构是复杂的，因为其有几个移动部件. 这里先对整体框架宏观介绍，然后再对每个部分的细节分析.

问题描述：

针对一张图片，需要获得的输出有：

边界框(bounding boxes) 列表，即一幅图像有多少个候选框（region proposal），比如有2000个；
每个边界框的类别标签，比如候选框里面是猫？狗？等等；
每个边界框和类别标签的概率。

2.1 faster-RCNN的基本结构

除此之外，下面的几幅图也能够较好的描述发图尔-RCNN的一般结构：

2.2 faster-RCNN的大致实现过程

整个网络的大致过程如下：

（1）首先，输入图片表示为 Height × Width × Depth 的张量(多维数组)形式，经过预训练 CNN 模型的处理，得到卷积特征图(conv feature map)。即将 CNN 作为特征提取器，送入下一个部分。这种技术在迁移学习(Transfer Learning)中比较普遍，尤其是，采用在大规模数据集训练的网络权重，来对小规模数据集训练分类器. 后面会详细介绍.

（2）然后，RPN(Region Propose Network) 对提取的卷积特征图进行处理. RPN 用于寻找可能包含 objects 的预定义数量的区域(regions，边界框)。这是整个文章最核心的改进，也是本文会着重介绍的点。

基于深度学习的目标检测中，可能最难的问题就是生成长度不定(variable-length)的边界框列表. 在构建深度神经网络时，最后的网络输出一般是固定尺寸的张量输出(采用RNN的除外). 例如，在图片分类中，网络输出是 (N, ) 的张量，N 是类别标签数，张量的每个位置的标量值表示图片是类别 labeli{ label_i }labeli 的概率值.

在 RPN 中，通过采用 anchors 来解决边界框列表长度不定的问题，即，在原始图像中统一放置固定大小的参考边界框. 不同于直接检测 objects 的位置，这里将问题转化为两部分：

对每一个 anchor 而言，