精读【2014_CVPR】R-CNN-顺毛师之家

介绍

2014，CVPR，首次将深度学习应用在目标检测领域，两阶段目标检测的祖师爷。

目标检测发展史：Nikasa1889/HistoryObjectRecognition (github.com)

★★★基本原理

输入图像
selective search生成2000个候选框

selective search——产生候选框

类似于聚类的方法，先找到一些区域，再多次进行加权合并，2000个框里基本总有框会和目标框大概一样

缩放成227*227，逐一喂到神经网络，全连接得到4096维的特征

缩放

非等比例缩放，连带邻近像素（本文，连带像素p=16）

连带像素、扩充：Dilate proposal

等比例缩放，连带邻近像素

等比例缩放，不连带邻近像素

非等比例缩放，不连带邻近像素

4096维特征用线性SVM分类/回归

精读【2014_CVPR】R-CNN

摘要

mAP指标提升了30%，两个贡献，分别是提出高表示能力的卷积神经网络和在大数据集上训练再迁移（用于目标检测的数据集太小）。

Intro

特征很重要。像素特征属于低级特征，没有抽象成语义特征，所以有潜力。

ふくしま，1979，神经认知机，仿生模型，分层的，Lecun将其演进。

90年代CNN挺火，后来被SVM抢了风头，后来被AlexNet拉回来了。

目标检测与图像分类的不同，要定位和分类。把目标检测问题当成回归问题来解决很困难。滑动窗口方法要求高分辨率，卷积只能很浅。

后来的YOLO是当成回归问题了。

我们使用卷积神经网络来定位，采用两阶段范式。

（基本原理部分）

传统方法使用无监督预训练，再监督微调。本文使用监督预训练，在大规模数据集上，再在小规模数据上微调，微调提成了八个百分点，mAP达到了54%。

R-CNN很高效。

其实不算高效。为赋新词强说愁！

加入回归，可以微调候选框，使得定位更加精确。

R-CNN用于目标检测

模型设计

提取候选框

selective search：聚类产生初始分割区城，根据颜色、纹理、大小、形状、相似度加权合并产生不同层次的2000个候选。

大部分候选框没啥用，无用的计算，浪费了。

候选框特征提取

缩放成227*227的RGB，然后减去平均值。非等比例缩放，连带邻近像素p=16。送入卷积神经网络得到3096维向量特征。

检测

53s一张图。所有类别共享一套特征。

如图所示，第一个矩阵为2000个候选框的特征，第二个为SVM权重矩阵（N:类别数），两个矩阵相乘得到某个候选框在某个类别的概率。这个分类还是很高效的。

精读【2014_CVPR】R-CNN

训练

先在ILSVRC分类数据集上预训练，简化了训练模型所以性能差两个百分点，载迁移学习微调。把IoU>=0.5的正样本进行训练。

训练SVM分类器。

最后一层不直接用全连接层而是用SVM。

结果

跟UVA相比（都用了selective search）：UVA用了四阶段的金字塔模型，像素层面的传统计算机视觉方法。

在VOC2010测试集上成绩很好。

可视化、消融和误差模式

可视化

卷积神经网络中，第一层勉强还能看个轮廓，再往后就很难观察了。

本文挑选一个特征出来，把它直接当成一个物体分类器，然后计算它们处理不同的候选区域时，activation 的值，这个值代表了特征对这块区域的响应情况，然后将 activation 作为分数排名，取前几位，然后显示这些候选区域，自然也可以清楚明白，这个 feature 大概是什么。

将 pool5 作为可视化对象。

消融精简

发现 fc7 的意义没有 fc6 大，甚至移除它之后，对于 mAP 结果指标没有影响，还减少将近 1800 万个参数。

同时移除 fc6 和 fc7 并没有多大的损失，甚至结果还要好一点点。

神经网络最神奇的力量来自卷积层，而不是全连接层。

目标检测错误分析

R-CNN 作者采用了 Hoiem 提出的目标检测分析工具，能够直观地揭露错误的模型，作者通过这个工具针对性地进行 fine-tune。

bbox 回归

bbox 的值其实就是物体方框的位置，预测它就是回归问题，而不是分类问题。

训练了一个线性的回归模型，这个模型能够针对候选区域的 pool5 数据预测一个新的 box 位置。

还可以做语义分割

（没看了）

改进R-CNN

提取候选框∶ Edge Boxes、RPN网络
共享卷积运算：SPPNet、Fast R-CNN
兼容任意尺寸图像：SPP、ROI Pooling
预设长宽比：Anchor
网络结构：端到端
融合各层特征：FPN