4.实验 在本节中,我们将报告我们进行的实验分析。为了对所提议的编码和汇集技术进行定量评估,我们需要采用计算机视觉数据集(Caltech 256和PASCAL VO
4.实验
在本节中,我们将报告我们进行的实验分析。为了对所提议的编码和汇集技术进行定量评估,我们需要采用计算机视觉数据集(Caltech 256和PASCAL VOC 2007),缺乏明确提到机器人场景的基准数据。然后,为了定量评估我们完整的机器人管道的适用性,我们依赖于我们最近提出的基准(iCubWorld数据集),这将有望在未来的研究中作为研究机构的参考。
实施细节。在我们的实验中,将我们的方法与其他算法进行比较时,我们使用由作者提供的代码,并为所有竞争方法设置相同的参数。作为例外,我们使用BOW的内部实现和[44]建议的池化方法,因为没有公开可用的实现。
为了促进结果的可重复性,我们在此报告运行各种方法所需的所有参数。对于局部特征提取,我们使用位于图像上每4个像素的密集网格点,并且我们使用SIFT GPU [77]从16×16比例提取SIFT描述符。
该词典是通过K-Means来学习的,对于iCubWorld数据集使用K = 1024,而对于Pascal VOC 2007和Caltech- 256,我们使用K = 4096. LLC和BCE的最近邻点数设置为k = 5 ,SC的λ参数被设置为0.1以下[21]。对于使用BCE的实验,我们使用K-NN(ANN)的近似版本和固定数量的比较c = 500,利用高效的树结构如Kd树。
在汇集阶段,对于Boureau的方法[44],根据[44],质心的数量设置为P = 16,这似乎是准确度和描述符大小之间的良好折衷。
对于空间布局,我们使用标准的2×2段,对于Caltech-256和iCubWorld,标度为l = 0,1,2,而在PASCAL Benchmarks中,我们使用由获胜者建议的布局
的VOC 2007 [72],见图4. 3.4节的中级对象分类器已经在规模金字塔等级l = 4上进行了训练。
关于分类阶段,我们使用LibLinear [78]作为批量解算器。 SVM成本参数C已经通过标准的交叉验证程序在训练数据的一个子集上进行了估计。一般来说,这个数值对于最终的系统精度并不重要。
4.1计算机视觉基准的第一次评估
尽管我们贡献的激励性应用是现实的HRI情景,但我们首先将我们的方法与标准计算机视觉设置的最新技术方法进行彻底比较。为此,我们选择了两个最具挑战性的识别数据集,即Pascal VOC 2007和Caltech-256。下面我们简要描述这些数据集的主要方面,并评论我们对当前技术水平的贡献表现。
PASCAL VOC 2007.这是一个具有挑战性的数据集,描绘了20个从Flickr收集的对象类别的图像,其特征在于视角,照明度,对象大小,姿势和外观的高度可变性。另外,遮挡频繁。使用PASCAL challenge [71]使用的标准度量平均精度(AP)度量来评估分类性能。
表1的前4行报告了不同编码方法的分类性能。为了分离编码的效果,在汇集阶段采用标准的最大运算符。正如可以观察到的那样,在这组实验中,稀疏编码(SC)在纯分类方面产生了最好的方法。但是,由于我们的最终目标是实时设置中的机器人应用,因此我们更关注在准确性和计算效率之间实现最佳平衡的方法。在所考虑的4种方法中,BCE显然是满足这些要求的方法之一,与SC的性能非常相似,但同时要快几个数量级(见第4.3节)。
表1的最后3行比较了使用LLC进行编码的不同池化方法。显然,我们提出的方法,MLCW系统地超越了当前的技术水平,导致AP的显着提高约5%。
Visual perception is a fundamental component for most robotics systems operating in human envi- ronments. Specifically, visual recognition is a prerequisite to a large variety of tasks such as tracking, manipulation, human–robot interaction. As a consequence, the lack of successful recognition often becomes a bottleneck for the application of robotics system to real-world situations. In this paper we aim at improving the robot visual perception capabilities in a natural, human-like fashion, with a very limited amount of constraints to the acquisition scenario. In particular our goal is to build and analyze a learning system that can rapidly be re-trained in order to incorporate new evidence if available. To this purpose, we review the state-of-the-art coding–pooling pipelines for visual recognition and propose two modifications which allow us to improve the quality of the representation, while maintaining real-time performances: a coding scheme, Best Code Entries (BCE), and a new pooling operator, Mid-Level Classification Weights (MLCW). The former focuses entirely on sparsity and improves the stability and computational efficiency of the coding phase, the latter increases the discriminability of the visual representation, and therefore the overall recognition accuracy of the system, by exploiting data supervision. The proposed pipeline is assessed from a qualitative perspective on a Human–Robot Interaction (HRI) application on the iCub platform. Quantitative evaluation of the proposed system is performed both on in-house robotics data- sets (iCubWorld) and on established computer vision benchmarks (Caltech-256, PASCAL VOC 2007). As a byproduct of this work, we provide for the robotics community an implementation of the proposed visual recognition pipeline which can be used as perceptual layer for more complex robotics applications.