演示此用例实施的视频可在http://www.youtube.com/watch?v=vhPLUNg9r5k上找到。有关更多详细信息,请参阅[19,62]。 学习和互动 在这个用例中,我们考虑一个更复杂的
演示此用例实施的视频可在http://www.youtube.com/watch?v=vhPLUNg9r5k上找到。有关更多详细信息,请参阅[19,62]。
学习和互动
在这个用例中,我们考虑一个更复杂的场景,其中iCub站在一张桌子前,并且一个人工代理通过口头方式与它通信,要求机器人执行与位于桌子上的特定类别对象之间的交互任务。在初始状态下,系统不具备任何有关该知识的知识它将不得不与之交互的对象的视觉外观。因此,人类监督者也会为对象提供口头注释,以便系统建立场景中元素的视觉模型[63]。系统需要根据外观属性仅检测和识别场景中的一个或多个对象,并使用来自单个视点的观察结果 - 与我们讨论的第一个应用程序不同。然后,它也可以按照人工代理的要求执行交互任务。目前,我们在iCub上实施的可能行动包括点,触摸,推动和掌握,这些都是不言自明的。
因此,应用程序在新实体的学习阶段(或已知视觉模型的更新)和动作之间交替进行,在此期间机器人利用其视觉体验来检测已知对象并与之交互。在[iCub上开发的更复杂的行为,具有更广泛的交互功能集可以在[64]中找到。
演示此应用程序的视频可在http:// www.youtube.com/watch?v = ZIpVrD6e-kA上获得。
3.视觉识别模块
在本节中,我们将详细描述我们所提到的标准编码 - 汇集管道,然后描述我们为编码和汇集阶段提出的创新要素。
3.1管道
图3报告了后续层次组织的典型管道。在第一层中,提取局部特征以捕获图像的低级统计数据。字典学习步骤通常伴随第一级,其中从数据中学习一组相关描述符(或原子)。接下来,流水线考虑一个编码阶段,其中局部特征以学习词典的形式表示,汇总阶段汇总整个图像或一组图像区域的描述。在编码过程中,高级图像统计信息直接从数据中获取。最后采用一个涉及线性分类器的学习阶段。
低级描述符
一组局部描述符x1,...。 。 。 ,xM,其中xiâRd是从图像I中提取的。局部描述符的例子是图像块,SIFT [25]或SURF [65](稀疏或密集)。目前SIFT被认为是视觉识别最有效的局部描述符[66]。在图像检索任务中,目标是将最相似的图像检索到查询图像,通常采用稀疏描述符集[42,43]:首先运行角检测器,然后为每个检索到的关键点提取SIFT描述符。根据[11]报告的评估,在分类问题中,相反,密集的规则网格将是首选。这是因为关键点检测器通常集中在梯度发生较大变化的图像区域,因此检索到的点将被置于强纹理图像块中。然而,在分类问题中,纹理很可能在相同类的两个不同实例之间强烈变化,而它们的形状却被保留下来。一个规则的局部描述符网格似乎适合捕获图像统计的目标。
字典学习
字典学习的目标是学习与所考虑的数据集相关的基础(或一组原子)。这些原子应该能够捕捉任何基准的本质,例如x Du。字典D是一个d×K矩阵,其中K是原子的数量,d是局部描述符的维数。通常K> d,因此D对应于超完整空间。字典
图4.具有3个级别的空间金字塔布局示例图像分别分为1,4和16个空间单元格。
允许我们将局部描述符映射到一个公共参考框架中,其中图像之间的比较更加有效和鲁棒。应该执行字典学习,选择从图像数据集中提取的所有SIFT描述符的子集,以对比过度拟合。通常,在标准计算机视觉基准测试中使用一组1M的描述符(参见[21]),尽管这个选择取决于数据集的大小。
在这项工作中,我们考虑K-Means的字典学习[30],
其中X = [x1,...。 。 。 ,xT]是用于字典学习的局部描述符的集合,U = [u1,。 。 。 ,uT]是集群成员码,每个ui?R,K字典大小。约束Card(ui)= 1意味着ui中只有一个元素不为零,并且ui≠0意味着该元素必须大于零,即每个编码编码阶段映射输入特征x1,...。 。 。 ,xM?代入一个新的,可能是过度完备的代码u1,...的空间。 。 。 ,uM?RK。编码操作员可以根据他们生成的输出进行分类。其中,类似BOW的方法提供了简单的统计数据,如视觉词语的出现或原子对线性组合的贡献量。通常,这些运算符将以下重建误差最小化:局部描述符贝隆