人形机器人的视觉识别英文文献和中文翻译(3)

互补的视觉识别管线也试图学习使用的最低级别的流水线(即本地描述符)深层架构。一个例子是[16]的工作,其中对固定数量的级别执行多个编码序列


互补的视觉识别管线也试图学习使用的最低级别的流水线(即本地描述符)深层架构。一个例子是[16]的工作,其中对固定数量的级别执行多个编码序列 - 汇集 - 标准化步骤。最终的图像分类是通过完全连接的网络进行的。这种趋势的另一种方法是HMAX框架[47],它是人类识别过程的算法模型。 HMAX回溯简单和复杂细胞的人体腹侧流结构,形成交替层的层次结构,可以解释为一系列编码和汇集阶段。单层编码 - 池化流水线与深层架构之间的主要区别在于初始数据处理:深层架构直接从数据中学习局部特征,在类似BOW的系统中,它们被假定为固定的,通常是手工制作的(例如进行筛选,)。尽管如此,编码 - 汇集管道可以获得准确的结果。对于应用来说更重要的是,它们的整体计算成本较低,而深度学习算法在测试阶段快速,但需要极大量的训练数据,并且在训练期间对计算资源的要求非常高,即使GPU实现用过的。

关于学习阶段,所描述的方法依赖于线性分类器(通常是SVM [48]),采用一对一的模式。在[17]中,作者对不同的学习策略进行了公平而详尽的比较。他们在大规模的环境中也表现出了一对一范式的优越性。当需要实时计算时,线性模型将是首选。在这种情况下,可以将描述符显式映射到一个近似使用非线性内核的新特征空间[49]。

似乎很少有研究在机器人技术中使用视觉识别管线的研究[50,51]。对此,在最近的一项研究[52]中,我们对真实机器人应用中的现代分层图像表示方法进行了详尽的评估。我们的工作突出了视觉识别流水线在设想中的几个积极方面,如实时有效的训练和测试,对杂波和噪声的稳健性,以及高分类准确性。

2D视觉和深度。在过去几年中,MS Kinect [53]等价格适中的传感器在机器人领域已经非常流行。因此,将二维视觉与深度信息相结合的想法吸引了机器人技术和计算机视觉社区的关注和兴趣[5,54-56]。事实上,自然的直觉是,尽管标准RGB图像允许学习和识别对象的视觉外观(例如纹理,颜色等),但深度信息更适合于捕捉形状特征。

这些设置中的基本方法是获取两种模态的单独数据表示,然后在联合特征空间上训练联合机器学习系统[5]。然而,已经提出了在数据表示阶段融合2D和深度信息的方法[55,57],相比于学习两种模式的单独数据表示的方法,其识别精度显着提高。这些方法中的大多数都采用了视觉识别文献中的编码和汇总策略,如上所述,但将它们应用于4通道RGB + D图像而不是标准3通道RGB [5,55]。最近,已经提出了使用卷积神经网络的先进的RGB + D组合策略[56,58],然而它们已经显示出比先前的方法稍微改进,同时对计算资源产生更重要的要求。

深度信息虽然对视觉识别非常有用,但并不总是可用。例如,在室外场景中,环境光会干扰由Kinect等传感器获取的信号。此外,当一个物体距摄像机太近时(例如,如第2节所述应用中机器人将其握在手中时),距离传感器和立体匹配技术通常都无法捕捉正确的深度;确实,Kinect的最小工作范围为80厘米,而立体匹配强烈依赖于与物体和立体基线的距离。由于我们感兴趣的是无论环境细微差别如何都能够稳健地执行对象识别的系统,因此本工作中我们专注于可用于缺乏深度信息的视觉识别方法。但请注意,本文中所检查和提出的所有方法都与图像通道数无关,因此可以自然应用于RGB + D图像(解释的4通道阵列),从而产生与[55]中描述的类似的策略。 。

2.人类--iCub互动

人机交互(HRI)应用程序为自治系统提出挑战性任务。事实上,在这些设置中,机器人通常需要快速解释场景的当前状态,以迅速地对人类行为者的动作/请求作出反应。特别是,处理和语义解析视觉信息的能力对大多数HRI场景起着基本的作用,因为视觉通信是人类在日常生活中通常采用的最自然的渠道之一。在本文中,我们专注于理解视觉场景问题的一个具体方面,即对象识别,我们将讨论iCub机器人平台上的实际应用。