基于视觉目标检测国内外研究现状

基于目标建模的方法通常利用目标的一些属性特征或者统计特征,如灰度、颜色、纹理、形状等,建立检测目标的表观模型。


目标检测的任务是分割背景与检测目标,按照处理对象不同可分为基于背景建模的目标检测方法和基于目标建模的目标检测方法。

基于背景建模的方法通过建立背景模型,将当前帧与背景模型进行对比匹配,通过阈值法来判断各个像素是否属于检测目标,最终对检测出的目标与背景进行分割进而检测目标。基于背景建模的目标检测方法一般包含背景模型的初始化、模型维护以及前景检测与分割等步骤[3]。Bouwmans[4]和Yin等[3]对目标检测中背景建模方法进行了详细的讨论。

由于车载摄像机和检测目标往往处于相对运动的状态,图像的背景经常会发生变化,在实时目标检测任务中,有效而快速地构建背景模式会比较困难。与基于背景建模的方法不同,基于目标建模的目标检测方法不受场景限制,应用范围相对较广泛,且检测结果不需要进行再度分割。

基于目标建模的方法通常利用目标的一些属性特征或者统计特征,如灰度、颜色、纹理、形状等,建立检测目标的表观模型,在图像中寻找目标的特征匹配[5-7],设计适当的分类器对其进行分类与检测。目标检测方法一般为:首先在给定的图像上选择一些候选区域,然后对这些区域进行特征提取,最后使用训练的分类器进行分类。

近年来,大多数目标检测方法[8; 9]通常是:产生相异的一系列拥有高召回率且计算速度快的目标候选框[10; 11];基于此,采用更强的分类器,比如基于卷积神经网络的一些方案[12; 13],可以应用到有希望的候选图像区域的较小子集中,避免了对大量的无用候选框集合的计算。

根据目标检测方法将其分为三个阶段即为:目标候选框生成、特征提取和分类。下面将从这三个角度对自主驾驶领域基于目标建模的单目视觉目标检测的发展现状进行综述。

1、目标候选框生成

近年来,不同类型的目标候选框生成方法陆续被提出,一个普遍的方法是对图像过分割后使用若干相似性度量进行分组,比如Selective Search[11]和MCG (Multiscale Combinatorial Grouping)[10]。Selective Search无需进行学习,首先将样本图像过分割,然后根据人为定义的距离进行聚合。MCG则是先用现成方法快速得到一个层次分割的结果,然后利用边缘信息进行聚合。

不同于上述需要通过聚合小块来生成目标候选框,采用简单的似物性特征[14; 15]或者轮廓信息[16]来进行对窗口进行高效的蛮力搜索,然后通过对候选框打分排序来过滤掉低分的候选框的方法被提出来。Bing[15]利用似物性特征,训练一个简单的分类器来通过类似滑动窗口的方式来过滤候选框。Edge Boxes[16]跟Selective Search一样不需学习,结合滑动窗口通过计算窗口内轮廓信息量进行打分,随后进行排序。

深度神经网络[12; 13]的发展与进步使得目标候选框生成的研究逐渐深入,但深度网络通常对计算要求较高,而无法应用于滑动窗口[9]。大多数近期提出的方案的目标是学习如何使用二分割模型[17]、参数能量[18]或基于卷积神经网络CNN(Convolutional Neural Network)特征的窗口分类器[15]来产生有希望的目标候选框。这些目标候选框生成方案在PASCAL VOC挑战赛上都取得了十分有效的结果。但是以上提到的方案的目标检测结果与地表实况的重合度只需达到50%以上,从自主驾驶角度来说需要更高的重合度进而保证自主驾驶目标检测的准确性,所以流行的方法如R-CNN[9]显著地落后于自主驾驶基准如KITTI[19]的竞争者。目前在KITTI上最出色的方案是Chen等人利用立体图像来创建准确的3D候选框[20],但是由于许多汽车只装载了单个相机,Chen等人基于单目视觉,提出利用上下文模型和语义来产生高召回率的特定类3D目标候选框生成方案[21]。