基于视觉目标检测国内外研究现状(2)

2、特征提取 通过特征提取可以将高维的原始图像数据映射为低维的可区分维度空间数据,这些特征按照能否通过自学习得到可以分为基于人工设计的特征


2、特征提取

通过特征提取可以将高维的原始图像数据映射为低维的可区分维度空间数据,这些特征按照能否通过自学习得到可以分为基于人工设计的特征和基于学习的特征[3; 22]。

基于人工设计的特征通常是通过人工设计提取的图像特征,如Lowe提出的尺度不变特征SIFT(Scale-invariant Feature Transform)[23]、Dalal等为解决静态图像中的行人检测问题而提出的梯度直方图特征HOG(Histogram of Oriented Gradient)[24]、Felzenszwalb等为了解决遮挡问题提出的基于局部的可变形模型DPM(Deformable Parts Model)[25]以及Ahonen等用于人脸特征描述的局部二值模式LBP(Local Binary Pattern)[26]等。

基于学习的特征主要是基于深度学习的方法逐层构建一个多层网络进行无监督学习所得的特征。由于深度学习特征是通过构建深层的网络结构直接从原始图像像素中提取所得,受到了广泛的关注与研究,最为著名的是基于卷积神经网络的特征提取,此前DPM算法在目标检测领域一直处于核心地位。区别于利用传统的滑动窗口和手工设计特征进行目标检测的方法,Girshick[9]等将自下而上的区域候选框方法结合大型卷积神经网络进行目标检测,提出了基于区域的卷积神经网络R-CNN(Regions with CNN features),开启了基于深度学习目标检测的热潮。之后,将空间金字塔池化网络SPPNet (Spatial pyramid pooling based neural network)[27]用于R-CNN,Girshick等对R-CNN进行加速,采用多任务损失进行单阶段训练,提高了检测的计算速度和准确度,进而提出了Fast R-CNN[8]。而后由于Fast R-CNN在候选框生成阶段耗费的时间影响了实时检测的效果,在此基础上采用一个深度卷积神经网络计算候选框,结合RPNs(Region Proposal Networks)和Fast R-CNN又提出了Faster R-CNN[28]。然而,对于实时目标检测任务而言,上述方法依然不够快,于是Girshick等将目标检测问题考虑将预测目标区域和目标类别看成回归问题,提出了YOLO(You Only Look Once)[29],相比于其他目标检测和识别问题分为候选框生成、类别预测等多个流程,YOLO采用单个神经网络直接预测目标区域和目标类别,提高了检测速度并实现了端到端的目标检测。Zhu等将上下文信息引入深度卷积神经网络中提出了segDeepM模型[30]。Han等使用深度卷积神经网络进行特征提取成功用于MatchNet中[31]。

3、分类

分类是一种重要的数据挖掘技术,Kotsiantis[32]对现有的分类器进行了详细的综述,国际权威的学术组织the IEEE International Conference on Data Mining (ICDM)2006年12月评选出了数据挖掘领域的十大经典算法:C4.5、k-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、Naïve Bayes和CART。其中支持向量机(SVM)是使用最为广泛的分类器之一[3],它基于结构风险最小化原则,只回答测试样本属于正类还是负类的问题,支持向量机的最终求解可以归结为在线性约束条件下的二次凸规划问题,在小样本数据分类、非线性及高维模式识别中应用甚广[33; 34]。由于篇幅原因,这里不作赘述。