在我们的方法中,g 1是通常的最大汇集算子,而g 2将在后面的部分中详细描述。最后的图像表示然后通过连接两个描述符z = [Î,Î]âR得到。 注意,如果我
在我们的方法中,g 1是通常的最大汇集算子,而g 2将在后面的部分中详细描述。最后的图像表示然后通过连接两个描述符z = [Î,Î]âR得到。
注意,如果我们考虑一个标准字典大小K = 1024,一个空间金字塔由2l×2l段组成,其中3层(S = 21)和P = 64,则[44]中提出的图像表示的大小为1.3E06,而我们的规模将是87,040(相当于[44]提出的描述符的6%)。
3.4加权监督池
在我们的方法中,特征空间表示(FSR)以监督的方式建立,考虑到属于给定类别的图像中观察到给定特征的可能性。换句话说,表示意识到每个类别的统计相关属性。在形式上,我们考虑P = N个bin,其中N是考试中问题的类别数量,并定义max-pooling操作符的加权版本如下
权重wi具有自然解释作为置信度值,反映了在描述类p的图像中观察代码ui的可能性。因此,原则上,为每个用户设置权重wi = P(Class = p | ui)将是理想的。但是,由于我们无法获得这种潜在分布,我们试图估计它。
其基本思想是训练能够识别图像的子区域的N个分类器,然后使用他们的分数作为权重wi。事实上,大多数分类算法都与之有些相关贝叶斯统治。例如,在二进制设置中,由规则化最小二乘(RLS)提供的预测因子渐近收敛于目标函数E(y | x),即给定输入x [74]的类标签的期望值。在多类案例中,通过采用one-vs-all方法来学习与每个ui相关的标签,RLS将(渐近地)提供N个得分函数fp(ui)= E(yp | ui)= P(yp = 1 | ui),其中根据图像中类p的存在或不存在,我们具有相关联的标签yp = 1或0。因此,RLS可以准确地恢复wi所需的值。
在实践中,我们采用支持向量机(SVM)[48],在我们经验地观察到这两种算法导致了可比较的性能。事实上,这种评估需要针对每个图像进行多次,导致需要进行计算。 SVM的一个优点是它减少了分类过程中的计算量,因为在训练过程中识别出了稀疏的支持向量。
中级分级权重(MLCW)。
我们现在详细描述我们如何估计权重。首先,我们考虑中等特征,将属于一个小空间邻域的编码SIFT集中在一个单一的描述符Ï•sâR中。这个描述符对于噪声比单独考虑单个代码更加鲁棒,并且它为图像的小变化提供了不变性。更详细地说,我们考虑SPR的单个等级l - 具有小小区大小 - 并且分解相应2×2小区中的图像。然后,将每个单元中的代码与最大池合并在一起,从而获得一个中等级别(或对象部分)描述符φs?R,然后将其输入到N个SVM分类器。
它们为每个描述符产生N个分数:fp(φs)p = 1,...。 。 。 ,N
我们用它作为权重ws,。 。 。 ,ws代表属于单元s的所有代码ui。图8提供了该方法的视觉直觉。
结合SPR和FSR。
如前所述,组合描述符的最简单的方法是将SPR和FSR合并为FSR,然后将它们连接在一个向量中。但是,总的来说,可能会发生这两种表示之一的结果比另一种表示更有用和更相关。通常用于组合异构特征的原则性方法是基于将每个特征与相应的内核独立相关联的想法采用多核内学习(MKL)。然后,一个全局内核Kopt作为多个贡献的加权和(在我们的例子中只有两个)获得,其中每个组件的实际相关性直接从数据中获得。更正式地说,Kopt是内核的线性组合:
Kopt(zi,zj)= dS KS(Î|i,Îjj)+ dP KP(íi,Îj)(15)
KS和KP分别表示SPR和FSR上的线性核。使用[75]中最初提出的算法学习权重dS和dP。我们提请读者[75,76]了解所采用方法的所有细节。请注意,当dS + dP = 1时
内核Kopt降低到应用于级联矢量z = [Î,Î]âRK(S + P)的标准线性内核。
图8.中级分类阶段,了解汇集代码所采用的权重。每个图像在单元中分解,每个单元内的代码汇集在一起。这样的描述被提供给每个对象类的线性One-vs-all SVM。这些分数是权重,可以让我们了解某个分类器能够在图像中看到的内容(类Accordion“可以看到”更好的是类飞机)。