与字典中的任何邻域都没有关联的代码条目被设置为零。 编码描述符u,的位置。 。 。 ,你不能(2)gs到一个集群。其中正则化术语R(u)和约束C(u)引
与字典中的任何邻域都没有关联的代码条目被设置为零。
编码描述符u,的位置。 。 。 ,你不能(2)gs到一个集群。其中正则化术语R(u)和约束C(u)引导到不同的算法。在下文中,我们总结了在评估阶段已经考虑的文献中的常见选择。
矢量量化(VQ)[12]给定一个字典D,VQ编码将xi的以下重构误差最小化:
S.T. Card(ui)= 1,| ui | = 1,ui°0
向量Ï•sâR编码补丁的视觉属性
稀疏编码(SC)[21] SC使用稀疏度的概念进行编码
每个描述符使用相关原子的子集。这个想法是最小化:
x Du Du + + + u u(((((((4)
引入稀疏性的L1规范,并允许学习表示捕捉局部描述符的突出模式。参数Î是稀疏性和信号近似之间的折衷。功能的泛化,对u和D都进行双重最小化,可以在稀疏的同时学习字典。
图像z的最终描述符是所有S个区域中的描述符φs的连接,因此z?R。该矢量现在是原始图像的新颖表示,但与像素值的原始级联不同,它有效地编码关于场景的空间属性的显着信息。
学习阶段
在编码阶段结束时,数据可以根据新的特征向量z?R来表示。从这个观点来看,视觉识别的任务相当于一个标准的多类问题,由机器学习进行了详尽的研究
捕获在较高尺度下显着的图像属性,因此通常在编码阶段之后引入共用阶段。共用操作符g取一组代码u1,..., 。 。 ,uM并输出一个单一的特征向量,其目的是总结该集合的最显着的属性。为此目的而采用的最受欢迎的运营商是平均汇集,其计算本地测量集合u1,...,n的平均向量(在代码空间中)。 。 。 ,uM以及所有代码中返回入口最大值向量的最大池。
必须注意的是,一个单一的池操作是在上面执行的
ui = arg min x'Duâ+ +ÎR(u)
局部性约束线性编码(LLC)[37]这种编码方法从一个假设出发,即局部性比稀疏性更重要,因为局部性导致稀疏性,但反之亦然。在这种情况下,编码算子只选择编码向量ui的一个子集,其分量与输入xi的k个最近邻居和D中的原子有关,ui的分量与D中xi的k个最近邻居有关,我们用D表示,因此得到代码
整个图像肯定会捕捉图像的统计相关属性,但同时会产生无法编码场景中空间关系不均匀性的表示。解决这个问题的有效方法最初是在[12]中提出的,其中引入了空间金字塔表示(SPR)。在此设置中,池化操作员多次应用于位于图像上S个重叠区域的代码(见图4)。在[44]的符号之后,让我们考虑S个空间区域并为每个s'定义位于区域s内的那些代码ui的下标i的集合Ys。汇集运算符g作用于S中的区
图5.顶部:左侧是来自iCubWorld数据集的图像;在右侧,具有两个不同水平移位的局部描述符的网格。底部:使用不同的编码策略对两个网格计算得到的代码的稳定性进行评估(参见文本)。
域,每次产生一个特征社区。我们考虑N个图像类别,其中第i类训练样本的数量为ni。一种被广泛采用的学习策略是一对一(OVA),其中通过组合几个二元分类器来表征一个类别与其他所有类别的分类器。与[67]中讨论的多分类器相比,这种方法提供了多种优势。 OVA基本上假设每个类别与其他类别不相关,当类别差异很大时,这是正确的。在实践中,当类别数量很大时,类别可能具有共同的视觉特征,需要更好的学习策略。稀疏编码 - 池化描述符通常用简单的线性分类器(如SVM [48])进行训练,以使它们适用于大规模设置。通过矢量量化获得的代码通常需要ad-hoc内核来获得良好的性能。可以使用[49]中提出的直接特征映射来代替使用非线性内核。在这项工作中,我们对所有方法都使用线性内核:它们可以高效地实现,一旦数据表示合适并且不会添加更多参数,它们就会简单有效。还值得注意的是,所采用的数据表示在某种意义上是一种明确的映射到更合适的特征空间。