1 绪论 1.1 研究背景 21世纪是一个信息资源丰富的时代,这个时代的技术也在发展,而作为人类视觉基础的图像,则更是信息传输的主要载体[1]。从1980年开
1 绪论
1.1 研究背景
21世纪是一个信息资源丰富的时代,这个时代的技术也在发展,而作为人类视觉基础的图像,则更是信息传输的主要载体[1]。从1980年开始,国际学术界一直在讨论交流神经网络的有关知识技术,交流得水深火热,有一部分著名的相关研究人员提出了一个观点:神经网络技术极有可能会转变成为当代的一项核心的首要技术,并且,这也将为图像识别技术的发展指明了方向。这个方向的走势也印证了神经网络在学术界的重要性,无论是在国外还是国内,科研工作者与追随者都随着研究的进行纷纷步入其中,发表了更多有价值的学术论文,层出不穷的科研成果也随之形成。
对于如何实现这些基于算法的图像识别模型,研究者们开发了各种学习框架,而当前有5种深度学习框架比较流行,分别是Caffe、TensorFlow、Torch、MXNet、Theano,其中本论文使用的就是TensorFlow框架,此框架在音频处理、图像识别和自然语言处理等场景下都有丰富的应用。TensorFlow作为第二代大规模机器学习模型的系统,使用基于数据流图模型的计算,将这些计算分别映射到不同的硬件平台上进行训练推断,从包含一个或者多个GPU显卡的装有Android和IOS的单个机器到运行在数百台包含数千个GPU的大规模系统。TensorFlow的计算被表示为包含状态的数据流图,让这个系统足够灵活并且能够快速地适应实验研究中产生的新模型,同时充分地提升了模型训练的性能和部署机器学习模型的健壮性[2]。
而对于菊花图像识别软件,如今还未发现有人进行开发,所以研究意义较大,而且训练模型大多数运用于个人电脑上,在移动端上的实现是一个新的创新点,在这个手机智能化的时代,将模型转移到移动端上,则为人们的生活提供了极大的便利,使人们随时随地都能使用图像识别系统。
1.2 国内外研究现状
1.2.1 国内研究现状
在国内,许多人将TensorFlow应用到很多公司产品中作为其主营业务之一,比如使用深度学习改善语音搜索,此外它还有其他的运用方式,比如在电子邮件中,它在读取用户的电子信件后会让计算机自动进行计算分析,生成三个回复,用户如果满意,则可以直接选择其中一个回复,这项功能被称为“智能应答”。除此之外,许多公司都希望能够运用TensorFlow实现人工智能,为用户提供更智能的搜索环境。比如京东、华为、优步、滴滴打车等国内科技公司都已经使用了TensorFlow。而且TensorFlow的最新标准可以让学术界的研究者方便地交流,也可以将它应用在机器生产之中。
1.2.2 国外研究现状
在Jeff Dean的引领下,谷歌大脑团队将初代DistBelief学习系统升级为TensorFlow,一个基于数据流图计算的框架[3]。通过DistBelief,谷歌在海量视频中知道了什么是“猫”,这个成果是一个划时代的标志。不仅如此,还开创了图片搜索的功能。而语音识别模型本来错误率很高,但是通过DistBelief的训练,成功地将语音识别的错误率降低了25%。著名的斯坦福CS231n课程使用了TensorFlow作为课程之一,这也让很多人认识了TensorFlow,并且很多有关书籍也已经在准备或者发售中,AlphaGo的开发团队Deepmind也计划在TensorFlow上实现神经网络。
1.3 本论文主要工作
(1) 收集菊花图像,尽量要特征明显的单朵菊花的图像,如果不是则通过人工裁剪的方法统一化,最后把这些图像和对应的标签以二进制文件的形式存放起来。
(2) 对输入的图像进行预处理,对于训练集图片,则使用简单的像素级操作将图像进行随机剪裁、随机反转、随机亮度变换、随机对比度变换、图像的白化、均值与方差的均衡,降低图像明暗、光照差异引起的影响,否则会让机器识别不准确,也为了人为的增加训练图像的数量;对于测试集图片,只将图像进行随机剪裁和图像的白化、均值与方差的均衡。