3.2使用最佳代码条目进行编码(BCE) 如前所述,标准编码方法包括使关于给定(或学习)的字典和特定于问题的约束(例如稀疏性)的局部重构误差最小
3.2使用最佳代码条目进行编码(BCE)
如前所述,标准编码方法包括使关于给定(或学习)的字典和特定于问题的约束(例如稀疏性)的局部重构误差最小化。然而,重要的是要指出,整个视觉管线的实际目标不是重建,而是为后续分类任务获得良好的表示。因此,低重建误差不一定是良好描述符的基本方面。
遵循这一思路,在本节中,我们提出了一种新颖的编码方法,即最佳编码条目(BCE),该编码方法偏离了通常的方法来最小化重构误差,但仍然导致竞争或更高的分类性能。 BCE与竞争编码方法相比具有许多优点,其中第一个是其计算效率,并且与最近在计算神经科学方面的结果有很强的关联。事实上,
稀疏性可以与生物学证据[68-70]相关:V1简单线性模型(其中响应是输入的线性函数)不能很好地解释V1神经反应的一些复杂现象。例如,许多视觉神经元显示终止停止,其中当条长超过最佳长度时,神经元对最佳定位和位置的条图像的响应实际上被抑制。稀疏编码可以通过稀疏它们的系数(激活)来模拟基础(神经元)之间的相互作用(抑制)。换句话说,每个现象都可以由神经元的一个子集形成一个高完整基础来描述。这也解释了为什么我们应该考虑高信息量的特征空间。
编码方法的稳定性
我们首先讨论一个简单的实验,它激发了我们对一种新型编码方法的研究。我们想评估编码方法在位置偏移方面的稳定性。事实上,这种情况在机器人应用中非常普遍,在这种应用中,执行器中的小运动可能导致场景在视觉流内轻微移动。因此,这将是所使用的视觉表示的所希望的性质,以便对于小的移位是稳定的,因为对于在时间上接近的图像编码成类似的描述符向量将是有利的。
在图5中报告的实验中,我们评估了使用SC和LLC获得的代码的稳定性。我们考虑两个密集的SIFT描述符网格(补丁大小为16个像素)沿着x轴移动2个像素。
我们根据两个标准来衡量编码方法的稳定性:从同一个网格坐标(右)提取的两个代码之间的均方差和它们的稀疏模式之间的相似性(左)。
可以注意到,SC提供了非常不稳定的解决方案:不同代码之间的均方差很大,而非零分量之间的重叠很小。至于LLC,尽管非零分量有很大的重叠,但代码之间的差异再次相当大。最后,我们提出的方法将在本节后面报告,而不是表现出非常稳定的行为。
图6.不同数据集上的空间偏差。左图:来自Caltech-101的图像被错误地归类,因为对象的位置不正常(一边太远)。中心:PASCAL VOC数据集的标准配置。右图:iCubWorld 1.0的一个例子,没有任何空间偏差。
图7.来自iCubWorld 1.0(A)的另一幅图像通过我们的池化方法(具有空间池(B)和监督语义池(C)的组合)正确分类,并且被仅依靠空间金字塔的方法错误地分类。
最佳代码条目
我们提出的编码方法专注于稀疏性,而不是考虑最小化重构误差。考虑一个字典D = [μ1,...。 。 。 ,ÂμK]。我们通过适当的相似性度量或内核来计算每个原子Âμk与当前输入xi之间的相似度。为了增强稀疏性,我们确保只选择与表示信号真正相关的基底子集。我们通过选择投影局部特征中的k个最近邻居(在词典中)以与LLC相似的方式来做到这一点。
我们用ui表示与字典原子中xi的最近邻相关的代码ui的k个分量,并且令= [μ1,..., 。 。 ,Âμk]是相应的原子。然后,代码ui的非零值是:
其中Ker(x,y)是一个合适的内核函数。
在这项工作中,我们考虑一个线性内核,它实现了字典原子和输入向量之间的点积。这个想法得到了神经科学最近的进展的支持[68],其中输入模板和存储模板之间的点积通过最大汇集算子被用于模拟腹侧流的复杂性。