人形机器人的视觉识别英文文献和中文翻译(8)

3.3监督池 在本节中,我们解决定义一个汇集算子的问题,该算子旨在捕获场景的多尺度空间关系,而不仅仅依赖于空间金字塔表示。具体而言,我们提出


3.3监督池

在本节中,我们解决定义一个汇集算子的问题,该算子旨在捕获场景的多尺度空间关系,而不仅仅依赖于空间金字塔表示。具体而言,我们提出了一种监督式池化方法,以在单个表示中执行图像的空间和语义内容的数据相关组合。

引入空间金字塔表示来捕捉图像中的空间关系的想法可以极大地提高最终表示的描述性。不幸的是,特定的空间金字塔影响分类性能的方式在很大程度上取决于特定的数据集。例如,在计算机视觉领域众所周知,对于Caltech-101数据集[7]而言,2l×2l区域的划分(如图4中的划分)是有利的,因为对象出现在不同的区域规模但一般倾向于占据中心位置图片。另一方面,对于PASCAL VOC数据集[71],感兴趣的对象通常位于图像的上部,中部或下部区域,因此典型的方法是定义三个水平区域,每个区域与其中一个区域相关位置[41,72,73]。

图6显示了三个图像分类数据集与空间偏差有关的不同效果。来自Caltech-101的左侧图像特别引人关注:该对象的位置与同一数据集的大多数图像不一致,并且被标准的空间金字塔+ SVM方法错误地分类。然而,只要我们剪出图像的一部分(红色方框外),相同的分类器会产生正确的分类,因为该对象的空间特征“落入”金字塔的适当区域。

我们可以推断,当手工区域在整个数据集中存在关于物体位置的强有力的先验信息时,它们最有效。然而,在像自治机构获得的自然图像中,这些信息不可用或不可靠。这种不便的一个明显例子可以在例如图7(B)中观察到,图7(B)描述了在2.2节描述的人机交互会话期间从iCub摄像头获取的典型图像。正如可以注意到的那样,由于感兴趣的对象被保存在示范器的手中它在图像内的位置显然与金字塔网格的位置无关(事实上,尽管在图7中对象主要位于最右边的区域,在随后的图像上它可能只出现在最左边的区域内)。

汇集在功能空间中

我们通过回顾最初在[44]中提出的SPR框架的扩展来开始我们的分析。这样的工作受到以下观察的启发:空间共用通常可以将发生在相同图像区域但语义上非常不同的特征组合在一起。因此,这种方法可以通过将靠近图像平面但距离特征空间很远的局部描述符集中在一起,从而丢失相关信息。为了克服这个问题,已经提出针对每个单独的图像区域Y1,...,执行特征空间的数据相关划分。 。 。 YS,然后将汇集运算符应用于同时属于同一图像和特征空间分区的那些局部描述符。

更正式地说,与图像区域Yi相关的特征被聚类在P个分离的特征空间区域X1,...中。 。 。 ,XP使用K-means。然后,分别考虑每个空间区域s和每个特征聚类p合并特征码ui,使得最终图像描述符z通过连接所有φs,p描述符即z 1 R获得。请注意,这些描述符虽然非常有效,但通常非常大。例如,当字典大小为K = 1024时,空间区域是S = 21(即空间金字塔由2×2段,尺度为l = 0,1,2),我们选择P = 64,如[44]所示,最终表示z的尺寸为KSP = 1024×21×64 = 1,376,256。因此,这种方法不适用于空间和计算时间都非常重要的设置。

分离图像和功能域

在[44]中提出的图像描述符的优势在于它考虑了特征空间中的相关配置。然而,它迫使所有的S空间区域在特征空间内被划分为相等数量的P个状态,导致代表长度相等但信息量不同。另外,由于空间金字塔的规则划分,语义上近端的特征(例如位于给定对象上的特征)可能被分开。这是不希望的,因为我们已经在图7中观察到,这样的特征空间中的邻接不会被最终描述所反映。

在这里,我们稍微改变视角并提出图像和特征空间中池的不同组合,这也导致图像描述符维度的显着降低。事实上,我们注意到,尽管空间单元和特征空间单元都被设计用于捕捉对象的几何属性,但它们分别在两个截然不同的域,即图像和特征空间上运行。因此,单独进行池化似乎更自然。我们建议提取两个不同的描述符,第一个是由图像域上的标准SPR导出的第一个,第二个是对特征空间表示(FSR)进行编码的。这两个描述符是通过分别连接向量Ï?s?R和?p?R获得的: