相反,即时反馈是HRI的一个重要和苛刻的要求:计算成本需要在系统设计中考虑到。最后,拥有一个可以像人类一样逐步学习的人工系统的想法,说明了可
相反,即时反馈是HRI的一个重要和苛刻的要求:计算成本需要在系统设计中考虑到。最后,拥有一个可以像人类一样逐步学习的人工系统的想法,说明了可以从一小部分例子中学习的方法,并且不需要繁重的训练阶段。由于这些原因,在目前的研究状况下,单层编码 - 合并管道[18]今天显得比深层架构更合适[16]。因此,我们采用了一种编码集合框架,如图3所总结的那样,我们对标准流水线提出了两项主要修改,增加了仍然保持低计算成本的性能:在编码阶段,我们提出了一种新的编码最佳代码条目(BCE)是基于稀疏表示增加判别性的证据
数据的强大功能[20,21],并使我们获得更稳定的解决方案。在汇集阶段,我们利用在HRI环境中很容易获得的数据监督,并且我们提出了中级分类权重(MLCW)[22]来指导汇集运营商。
该流水线在iCub平台上实现并正在使用,并由两个应用程序演示,这两个应用程序实现了两个特定用例:第一个应用程序(图2(a))旨在实时学习新的在iCub专心系统的帮助下,第二个(图2(b))学习对象,并与躺在桌子上的特定类型对象进行交互。
我们还对预先记录的数据进行了全面的定量分析。由于缺乏机器人领域的参考基准,我们依赖两个标准的计算机视觉基准(Caltech-256 [7]和Pascal VOC 2007 [8]),对我们的编码和池化方法进行比较分析,的艺术。此外,为了对我们的参考设置的结果进行定量分析,我们获得了用于HRI场景中的分类和分类的数据集。 iCubWorld可供下载[19],并有望促进机器人设置中视觉识别结果的可重复性。
在本节的其余部分中,我们讨论相关的作品,而其余的论文组织如下。第2节描述了在iCub上实现的两个应用程序,这些应用程序基于我们的视觉识别方法,详见第3节。在第4节中,我们讨论了我们进行的实验分析,提出了定性和定量评估,而第5节我们总结了一些可能有助于机器人研究者对视觉感知领域感兴趣的常见做法。我们在第6部分最后的讨论结束。
1.相关工作
在机器人技术中,视觉识别通常通过利用3D信息来获得观察场景的不变模型来解决。大部分方法建立编码局部几何关系[23]的对象的全局拓扑表示,或者执行聚类以直接从点云导出三维模板[24]。通常只采用基于视觉线索的识别系统来解决姿态估计问题[1〜4]。他们经常分享以下核心策略:首先从原始图像中提取局部特征(如SIFT [25]或SURF [26] - 也参见[27]),然后通过强大的异常值拒绝方案与学习对象模板进行匹配(RANSAC)[28]。
稀疏局部SIFT已被用于构建强大的对象三维模型,用于即使在严重杂乱的环境中执行实时和多个实例的检测[1]。尽管目前大多数方法都需要昂贵的代价,但可以有效地识别对象的实例,从而有效地完成对象实例
图2.使用iCub的应用程序示例(a)在飞行学习和识别应用程序。 iCub的运动检测器(左侧)和正向运动(右侧)都能够对图像内的物体位置进行合理的估计。前者用于人体模式,当演示者在iCub前面移动一个物体时,后者在机器人模式下,当iCub握住物体时。 (b)学习和互动应用:一种典型的情况。示威者向机器人询问汽车的位置。 iCub首先识别该对象,然后指向它。
图3.视觉识别编码 - 汇集管线。多级体系结构构建分层图像表示,将其馈送到线性分类器。详情请参阅第3节。
离线训练阶段,所有对象的视点必须显示,通常没有混乱和已知的姿势[1,29]。
从词袋(BoWs)范式[30]开始,杂波和视点变异已成功地应用于计算机视觉领域。在其最初的表述中,图像被视为量化为视觉词汇的无序描述符集合(编码阶段)。然后将这些量化映射到用作分类器的输入的直方图表示(池化阶段)。这种基本方法已经扩展到将空间信息与所谓的空间金字塔表示(SPR)结合起来[12],这是编码 - 汇集管线的第一个例子之一。在这项初步工作之后,文献中已经提出了许多改进。至于编码,稀疏性的概念已得到广泛解决。除了其生物学动机之外[31],稀疏编码已被证明对解决分类任务非常有效 - 例如参见[20,32-34]及其中的参考文献。 [21]中的经典SPR中已经插入了稀疏编码。其他值得一提的改进是自适应数据表示[35],中级特征[18,36],使用局部约束的编码[37],增强空间信息的模型[38]。所有上述模型通过最小化重建误差来寻找最合适的编码。在这个设置中,字典的每个原子贡献了一个单一的代码值,即它在线性组合中的贡献。这意味着,为了达到高精度,他们需要大型字典[39];因此编码阶段变得缓慢,并且该问题对于大型数据库的大规模设置(例如基于内容的图像检索)变得不可行[40]。在这种情况下,已经提出了基于使用第一(超级矢量(SV)[41]或局部描述符聚合(VLAD)[42])或二阶统计量(Fisher矢量(FV)[43])的替代模型。这些方法即使使用小字典也能确保信息的表示,但就其本质而言,它们似乎更适合于基于内容的检索设置,其中图像的空间配置可能被忽略。而且,它们的计算成本使它们在实时机器人中不合适(参见[43]进行分析)。至于汇集,已经观察到,如果图像区域支持设计得不恰当,普通运营商(如最大或平均汇聚)如何产生不可恢复的空间信息损失。在汇集阶段已经做了其他改进:将标准SPR与配置空间描述相结合以捕获相似邻域[44];称量视觉词的位置,以便了解图像中哪些位置与分类阶段相关;直接从数据中学习金字塔的区域[13];使用物体探测器来指导合并阶段[14]。而在[46]中,每个班级都会对图像的不同部分进行评分,共享阶段是基于这些评分进行的。 VOC 2012获奖者[15]利用物体探测器和显着图更好地优化池。