精读【2014_CVPR】R-CNN

lzy 854 0
介绍

2014,CVPR,首次将深度学习应用在目标检测领域,两阶段目标检测的祖师爷。

目标检测发展史:Nikasa1889/HistoryObjectRecognition (github.com)

★★★基本原理

  • 输入图像
  • selective search生成2000个候选框

selective search——产生候选框

类似于聚类的方法,先找到一些区域,再多次进行加权合并,2000个框里基本总有框会和目标框大概一样

  • 缩放成227*227,逐一喂到神经网络,全连接得到4096维的特征

缩放

  • 非等比例缩放,连带邻近像素(本文,连带像素p=16)

    连带像素、扩充:Dilate proposal

  • 等比例缩放,连带邻近像素
  • 等比例缩放,不连带邻近像素
  • 非等比例缩放,不连带邻近像素
  • 4096维特征用线性SVM分类/回归

精读【2014_CVPR】R-CNN


摘要

mAP指标提升了30%,两个贡献,分别是提出高表示能力的卷积神经网络和在大数据集上训练再迁移(用于目标检测的数据集太小)。

Intro

特征很重要。像素特征属于低级特征,没有抽象成语义特征,所以有潜力。

ふくしま,1979,神经认知机,仿生模型,分层的,Lecun将其演进。

90年代CNN挺火,后来被SVM抢了风头,后来被AlexNet拉回来了。

目标检测与图像分类的不同,要定位和分类。把目标检测问题当成回归问题来解决很困难。滑动窗口方法要求高分辨率,卷积只能很浅。

后来的YOLO是当成回归问题了。

我们使用卷积神经网络来定位,采用两阶段范式。

(基本原理部分)

传统方法使用无监督预训练,再监督微调。本文使用监督预训练,在大规模数据集上,再在小规模数据上微调,微调提成了八个百分点,mAP达到了54%。

R-CNN很高效。

其实不算高效。为赋新词强说愁!

加入回归,可以微调候选框,使得定位更加精确。

R-CNN用于目标检测

模型设计

提取候选框

selective search:聚类产生初始分割区城,根据颜色、纹理、大小、形状、相似度加权合并产生不同层次的2000个候选。

大部分候选框没啥用,无用的计算,浪费了。

候选框特征提取

缩放成227*227的RGB,然后减去平均值。非等比例缩放,连带邻近像素p=16。送入卷积神经网络得到3096维向量特征。

检测

53s一张图。所有类别共享一套特征。

如图所示,第一个矩阵为2000个候选框的特征,第二个为SVM权重矩阵(N:类别数),两个矩阵相乘得到某个候选框在某个类别的概率。这个分类还是很高效的。

精读【2014_CVPR】R-CNN

训练

先在ILSVRC分类数据集上预训练,简化了训练模型所以性能差两个百分点,载迁移学习微调。把IoU>=0.5的正样本进行训练。

训练SVM分类器。

最后一层不直接用全连接层而是用SVM。

结果

跟UVA相比(都用了selective search):UVA用了四阶段的金字塔模型,像素层面的传统计算机视觉方法。

在VOC2010测试集上成绩很好。

可视化、消融和误差模式

可视化

卷积神经网络中,第一层勉强还能看个轮廓,再往后就很难观察了。

本文挑选一个特征出来,把它直接当成一个物体分类器,然后计算它们处理不同的候选区域时,activation 的值,这个值代表了特征对这块区域的响应情况,然后将 activation 作为分数排名,取前几位,然后显示这些候选区域,自然也可以清楚明白,这个 feature 大概是什么。

将 pool5 作为可视化对象。

消融精简

发现 fc7 的意义没有 fc6 大,甚至移除它之后,对于 mAP 结果指标没有影响,还减少将近 1800 万个参数。

同时移除 fc6 和 fc7 并没有多大的损失,甚至结果还要好一点点。

神经网络最神奇的力量来自卷积层,而不是全连接层。

目标检测错误分析

R-CNN 作者采用了 Hoiem 提出的目标检测分析工具,能够直观地揭露错误的模型,作者通过这个工具针对性地进行 fine-tune。

bbox 回归

bbox 的值其实就是物体方框的位置,预测它就是回归问题,而不是分类问题。

训练了一个线性的回归模型,这个模型能够针对候选区域的 pool5 数据预测一个新的 box 位置。

还可以做语义分割

(没看了)


改进R-CNN

  1. 提取候选框∶ Edge Boxes、RPN网络
  2. 共享卷积运算:SPPNet、Fast R-CNN
  3. 兼容任意尺寸图像:SPP、ROI Pooling
  4. 预设长宽比:Anchor
  5. 网络结构:端到端
  6. 融合各层特征:FPN

发表评论 取消回复
表情 图片 链接 代码

分享