Visual recognition for humanoid robots。Visual perception is a fundamental component for most robotics systems operating in human environments.
摘要
视觉感知是大多数在人类环境中运行的机器人系统的基本组成部分。具体而言,视觉识别是各种任务的先决条件,如跟踪,操纵,人类 - 机器人交互。因此,缺乏成功的认可往往成为将机器人系统应用于现实世界的瓶颈。在本文中,我们旨在以一种自然的,类似人类的方式改进机器人的视觉感知能力,并且对采集场景的约束数量非常有限。具体而言,我们的目标是建立和分析一个可以快速重新培训的学习系统,以便纳入新的证据(如果有的话)。为此,我们回顾了最先进的编码 - 为视觉识别汇集管线,并提出两项修改,使我们能够在保持实时性能的同时提高表示质量:编码方案,最佳编码参赛作品(BCE)和新的联合作业者中层分类权重(MLCW)。前者着眼于稀疏性,提高了编码阶段的稳定性和计算效率,后者通过利用数据监督增加了视觉表示的可区分性,从而提高了系统的整体识别精度。拟议的管道从iCub平台上的Human-Robot Interaction(HRI)应用的定性角度进行评估。建议系统的定量评估是在内部机器人数据集(iCubWorld)和已建立的计算机视觉基准(Caltech-256,PASCAL VOC 2007)上进行的。作为这项工作的一个副产品,我们为机器人界提供了一个实现所提出的视觉识别流水线,它可以作为感知层用于更复杂的机器人应用。
介绍
理解场景的语义可能是人工智能中最具挑战性的任务之一。可能的应用领域无数,包括工业,通信,娱乐,机器人等等。
特别是在自动化和认知机器人领域,视觉识别是一个非常复杂系统的构建模块,其中包含许多其他组件 - 姿势估计,掌握和操纵。这可能是迄今为止,这项任务本身没有收到过度关注的原因,并且通常通过在训练阶段需要严格监督的方法来解决,包括对象的整齐视图[5]或关于对象位置或其相对于相机的定向的元数据。
相反,在计算机视觉领域,视觉识别在图像理解的本质上是一个挑战,近年来它在大尺寸数据集学习的外观模型[7-10]和可能的lim - 监督量[11-18]。这些大型数据集的范围非常雄心勃勃,因为他们渴望代表整个(或大部分)视觉世界。实际上,由于它们是由无序的
图1. iCub人形机器人的典型场景:物体放在桌子上,它必须学习它们的外观并执行操作动作。
图像组成的,虽然很大,但它们大多数都是坚持基于内容的图像检索场景,而不是实际的图像理解。
尽管有互补的挑战,但认知机器人和计算机视觉主要是在独立的轨道上进行的。今天看来,一个社区可以给另一个社区带来的互惠利益还没有得到充分的利用。事实上,视觉识别管道将为机器人系统提供灵活性和适应性,而机器人技术可以成为这类模型的理想测试平台。至于后者,尽管计算机视觉解决了“建模世界”这个庞大而复杂的一般问题,它比十亿图像无序数据集可以描述的要复杂得多,但在机器人技术中,所考虑的应用程序,例如导航,抓住,互动,设定了世界本身的界限。特别是,使用人形机器人代表了设计和开发自然人类视觉识别算法的完美场景。
在这种情况下,本文的主要目标是增强具有视觉感知能力的iCub人类机器人(图1),从而实现复杂行为,例如家庭帮助。这项工作的另一个目的是评估使用iCub机器人作为计算机视觉任务的基准,将视觉识别视为计算机视觉问题的原型。
由于视觉识别是一项相当广泛的任务,我们最好通过考虑我们考虑的应用场景的主要要求来形成我们的目标。理想情况下,视觉识别应该建立在一个轻松灵活的训练阶段上:为此,我们考虑一个人机器人交互(Human Interaction,HRI)框架,机器人首先不知道周围世界,然后尝试学习一个对象一次。有趣的是,在HRI设置中,人类标签和手动数据采集很容易被人类主管与机器人的声音和手势交互取代,因此成本较低。因此,在这种情况下,监督式学习是适当和可接受的。此外,我们利用iCub的专注能力获取感兴趣对象的本地化(参见图2)。一个典型的机器人控制环境允许我们减少偏差并调整背景变化量[19]。