R-CNN和YOLO自主驾驶的单目视觉目标检测研究(3)

2.1 卷积神经网络 上世纪八十年代,卷积神经网络模型第一次由Fukushima[35] 由动物视觉皮层神经元传递模式启发而提出。卷积神经网络是一种前馈人工神经


2.1  卷积神经网络

上世纪八十年代,卷积神经网络模型第一次由Fukushima[35] 由动物视觉皮层神经元传递模式启发而提出。卷积神经网络是一种前馈人工神经网络,其神经元之间的连接模式由动物视觉皮层神经元传递模式启发,单个皮质神经元会在接收场产生应激反应,这在数学层面上可表示为一次卷积运算,不同神经元的接收场局部重叠后即构成了视觉场。卷积神经网络在图像和视频识别、自然语言处理NLP(Natural language processing)等领域拥有广泛的应用。

卷积神经网络(CNN)由多层接收场组成,这些接收场用来处理输入图像的部分神经元集合,然后将这些集合的输出平铺,使得它们的输入区域重叠,以获得原始图像的更高分辨率的表示[36]。CNN的基本结构主要由特征提取层和特征映射层构成,前一层的局部接收场作为神经元的输入进而提取该局部接收场的特征,此为特征提取层;而多个特征映射层往往构成网路的计算层(也即卷积层),卷积层使用共享权重,研究推断证明对于层中的每个像素使用相同的过滤器(权重库)既减少了内存占用,又提高了性能。通常在每个卷积层后面对卷积所获得的特征进行聚合操作,减少对过多特征训练分类器时出现过拟合结果的风险,引入小输入区域的卷积运算(也即池化操作)能够减少自由参数的数量并改进泛化。

下面将从卷积层、池化层、全连接层和损失层四个模块介绍卷积神经网络的构成原理。

2.1.1  卷积层

卷积层是CNN的核心部分,如图2.1所示:前一层的局部接收场(红色模块)作为卷积层中某神经元(蓝色模块)的输入,进而提取该局部接收场的特征。卷积层的参数是一组滤波器(也即卷积核),伴随着前馈传播,每个卷积核对输入通道进行卷积后生成该卷积核的二维激活映射图(示意图见图2.2,卷积公式见式(1)),沿着深度维度堆叠所有卷积核的激活映射图构成该卷积层的最终完整输出,其中,卷积层中的所有神经元共享同一个权重(如图2.3所示)。(1)

其中I和 分别表示初始图像和新图像,u,v,i,j为索引项,H为卷积核,RH表示卷积核对应卷积窗口邻居偏移位置的索引, ,K为卷积核窗口大小。