图像识别领域是深度学习中最早开始研究的一个方面。 在由吴恩达领导的“谷歌大脑”项目中,模仿人脑将16000台电脑连接后,从YouTube中训练了1000万多张
图像识别领域是深度学习中最早开始研究的一个方面。
在由吴恩达领导的“谷歌大脑”项目中,模仿人脑将16000台电脑连接后,从YouTube中训练了1000万多张图片后识别出了各种图片当中的猫。
微软研究院在2014年展示了更进一步的研究成果,相较于识别不同动物的种类,研究院甚至能够精确识别出同种动物的不同品种。
语音识别
11年,在Geoffrey Hinton与微软研究院合作研究了两年之后,发布了首次开发的语音识别框架。类似于人脑对图像和语音的处理方式,这种框架能够抽取语音的多层特征,并对其进行理想的分类。这是深层神经网络[8](Deep Neural Network)首次于语音识别中应用。
有了这次的尝试,谷歌和百度也同样开始对此进行了研究,谷歌的Google Now语音助手,以及百度的Deep Speech语音系统都在语音识别领域表现优异。
自然语言处理
自然语言处理[9](Natural Language Processing)是目前深度学习重点研究方向。它是指计算机系统之间能够直接以人类进行交流使用的语言进行相互的通信,它包括了计算机语言学、人工智能等多方面的学科,并不单单属于语言学。
加拿大科学家Bengio于03年提出可以用非线性神经网络表示N-Gram模型。08年,Collobert团队提出用神经网络学习词汇向量表示自然语言,其意为从一个词的上下文来推敲出它的意义。该团队在不同任务中应用了这个模型,得出了非常精准的处理结果。
然而,计算机并非人类,由于人类语言是非自然信号的原因,导致了自然语言处理领域的发展并不能够同图像处理等方面一样取得突飞猛进的成果。不过,如果有足够的时间,相信一定能够取得成就,到那时,人们在人工智能领域的发展将无可限量。
结构安排
研究目标
本文对于Caffe中的卷积神经网络进行研究,改进LeNet-5网络,具体有:
介绍环境配置的方法,训练其中自带的CIFAR-10数据集。
改进LeNet-5卷积神经网络,将ReLU函数替代原先的Sigmoid激活函数,并在网络层级中多加入一个函数,将前后的训练结果进行对比。
结构安排
结构安排如下:
一、绪论。简述深度学习在各个领域的发展情况,引出Caffe深度学习框架。
二、人工神经网络概述,卷积神经网络概述。分别介绍其中的经典模型和结构。
三、Caffe深度学习框架的原理以及搭建步骤。
四、仿真。训练Caffe深度学习框架中自带的样例,再其中的LeNet-5卷积神经网络进行改进,并仿真,对比以及分析仿真结果。
五、总结。分析本文所做的研究,寻找不足之处。
人工神经网络和卷积神经网络概述
人工神经网络
概述
人工神经网络(Artificial Neural Network,ANN)是一个数学、物理模型,它能够简化、抽象化生物神经网络的运行与工作过程,用路径权值的有向图表示神经元之间与节点的连接关系,而后在程序上实现运行。
BP网络,Boltzmann机等是较为典型的人工神经网络。
单层感知器
能够将两种不同特性的事物进行分门别类,这便是感知器[10]的功能。它不仅结构简单,却也包含了ANN的全部要素。将x值通过输入部分映射到输出部分得到f(x)。
感知器结构如图:
图 2.1 感知器
公式如下:w为权重值,m为神经元个数,b为偏差,其作用为修正决策边界的位置(决策边界为标量)。f(x)的值用于正向距离和反向距离的划分。若b为负,为了使神经元分类器阈值趋向于0,则必须使输入值的加权乘积大于b的绝对值。感知器的算法不区分输入数据的线性可分与否,所以则需要多个单层感知器连接起来形成一个多层感知器,这样就可以处理更复杂的问题。