基于Caffe的卷积神经网络算法研究(2)

引言 深度学习有着悠久而丰富的历史,由于可用培训数据越来越多,深度学习也有了愈来愈多的用武之地。深度学习的基础设施(硬件和软件)已经得到改善


引言

深度学习有着悠久而丰富的历史,由于可用培训数据越来越多,深度学习也有了愈来愈多的用武之地。深度学习的基础设施(硬件和软件)已经得到改善。它已经解决了越来越复杂的应用,并且随着人们的研究更加深入,其准确性也在不断提高。

在20世纪40年代至20世纪60年代,随着控制理论的发展、生物逻辑理论的进一步深入(McCulloch和Pitts,1943年;Hebb,1949)以及诸如感知器(Rosenblatt,1958)的实现,使得能够训练单一个的神经元。在1980-1995年期间,随着反向传播(RumelHart等人,1986),人们开始用一个或两个HIPE层训练神经网络。第三次浪潮,深度学习始于2006年(Hintonetal.,2006;Bengioetal.,2007;Ranztoetal.,2007),目前正出现在2016年。其他两个深度学习发展的热潮的记录在书中的时机比所对应的科学实验要晚上不少。

早期的深度学习框架是由Fukushima K.Neocognitron 于1980年提出的新认知机[3]。Yann LeCunn与1989年于研究中使用了由卷积神经层、新认知机、权重共享三者组合而成的MP算法[4]、显卡加速、反向传播算法[5]。这是深度学习发展过程中的一个重要的里程碑,不过因为计算成本过高的原因致不能于实际中应用。

我们今天认识到的一些最早的学习算法是为了成为生物学习的计算模型,也就是学习是如何在大脑中发生或可能发生的模型。因此,深度学习的名字之一已经被称为人工神经网络(ANS)。与深度学习模型相对应的观点是,它们是由生物大脑(无论是人脑还是另一种动物的大脑)激发的工程系统。虽然机器学习所用的各种神经网络经常会与大脑功能作对比(Hinton和Shallice,1991),但它们在设计上并不能成为现实的生物功能模型。深层学习的神经观主要由两种主要观点所驱动。一种观点是,大脑通过实例证实拥有智慧的行为方式是可以发生的,而建立此类智能的简单方式是逆转大脑的工作原理并复制它的功能。另一观点是,摸清大脑和作为人类智能基础的原理将是非常有意思的事情,所以,机器学习模型除了能够解决在工程方面的应用之外,对于一些基本的科学问题也是有用的。

“深度学习”这一名词大大领先了现今机器学习模型的在神经科学方面的看法。它呼吁一个更普遍的原则,学习多层次的作文,这可以应用在机器学习框架,不一定要受到神经启发。

这些便利简化的计算方法极大地影响了现代学习的景观。用于适应权重的训练算法是随机梯度下降算法的一个特别的例子。随机梯度下降算法的最新版本依旧是目前深度学习模型的重要计算方法。这些模型依旧是一些最常使用的机器学习模型,虽然在很多时候,这些模型的训练方式都比原来的模型训练复杂得多。

今天,神经科学被认为是深入研究人员灵感的重要来源,神经科学在深入研究中的效果减弱的重要的因素是我们并没有完全理解大脑的工作方式。为了深入了解大脑使用的实际算法,我们需要同时监控成千上万个相互关联的神经元的活动。因为我们这样做是值得注意的,我们甚至对大脑中一些最简单和研究最深入的部分也远未理解

神经科学给了我们一个理由,希望一个单一的深度学习算法能够解决许多任务。神经科学家发现,如果动物的大脑能够将视觉信号传达至该部分神经,它们就能够学习使用听觉处理区块“观察”(Von Melchner等人,2000年)。这说明动物的大脑有机会使用单一的计算方法来处理大多数传入性任务。在此假设之前,机器学习的研究比较零散,今天,这些应用程序社区仍然是分开的,但是深入学习研究专家同时研究许多这些应用方面是可以经常看到的现象。