图3.4 本文中使用到的网络层14 图4.1 日K线图19 图4.2 epoch为50的acc与loss曲线图20 图4.3 epoch为25的acc与loss曲线图21 图4.4 epoch为3的acc与loss曲线图21 图5.1 SVM的预测
图3.4 本文中使用到的网络层 14
图4.1 日K线图 19
图4.2 epoch为50的acc与loss曲线图 20
图4.3 epoch为25的acc与loss曲线图 21
图4.4 epoch为3的acc与loss曲线图 21
图5.1 SVM的预测结果截图 25
图5.2 LSTM的预测结果截图 25
图5.3 德国dax预测结果截图 27
表3.1 本文使用的股票代码及其名称 10
表3.2 德国dax的股票数据(前10行) 11
表3.3 fit函数的参数解释 16
表4.1 本文中提取的特征及其特征说明 18
表4.2 模型部分参数调整表 22
表5.1 各个股票的预测结果 25
表5.2 第二层中不同神经元个数预测的结果 26
表5.3 不同损失函数预测的结果 26
表5.4 不同特征的维度预测的结果 26
表5.5 不同窗口长度预测的结果 27
1 绪论
本章从理论上分析了神经网络及深度学习算法的研究背景与意义,并了解了循环神经网络的研究现状。阐述了本文技术方案及其社会影响、经济因素以及本文的论文章节安排。
1.1 时序数据研究背景及意义
随着科技的进步,人们的身边充满数不胜数的数据。这些数据促进着人们的生活越发信息化,而社会的信息化又促使人们身边产生更多的数据。所以,如何处理和利用海量的数据信息,是这个时代必须面对的问题。现如今,每天的日常生活中产生的数据量已达数千兆兆字节,如此庞大的数据集中,又有相当一部分比重的数据是时序数据。因此,对时序数据进行预测是如今大数据时代一项迫在眉睫的任务。
时序数据与普通大数据不同,时序数据本身携带有时间信息。传统的对于时间信息的提取往往是对不同时间窗口进行特征提取,这种提取方法简单直观,但是缺点也很明显:(1)提取的时间特征太过依赖人的主观认知,即不能保证提取出有用的时间特征。(2)根据时间窗口提取信息从而忽略了重要的时间信息。由于窗口使不同时间范围内的数据变得独立,因此无法描述窗口和窗口之间时间信息的联系。而深度神经网络对原始数据有强大的抽象能力,因而在网络训练的过程中能自动抽象出有用特征,它能够直接把原始数据作为输入,预期结果作为输出,省去了人工构造特征对数据分析人员能力的要求。并且,循环神经网络(Recurrent Neural Network, RNN)由于其在时间维度展开的特性,可以处理任何时间长度上的数据,也就是说可以把整个时间轴上的数据信息之间的依赖关系都体现出来。另外,RNN作为一种新兴的特殊的深度神经网络,其本身具有端对端的特性,能够自动抽象出数据中的时序信息,从而避免了人工提取时间信息的主观臆断性。因此,基于循环神经网络的时序数据预测技术对人们的生活影响重大。
1.2 国内外研究现状
1.3 总体技术方案及其社会影响
本次毕业设计的目的为研究基于循环神经网络的时序数据预测技术。以股票数据为例,首先使用内置的Yahoo金融接口挖掘出股票交易数据,然后使用后端(backend)为theano的keras的深度学习框架,通过对股票数据的预处理,拟使用特征的构造及特征的提取,最后用LSTM进行对时序数据的预测。
本文实验以股票数据为例,旨在更好地预测时序数据。时序数据一直是人们关注的重点,本文研究的金融数据更是重中之重。实现对金融数据的预测,可以对社会和经济的发展做出一定的预判。不仅有利于投资者更加合理的投资,也有利于相关管理者对于国际经济形势以及社会形势进行更准确的分析,从而采取更有利国家社会经济发展的措施。该模型也可以应用在其他时序数据问题中,其中环境数据、资源消耗数据的预测也对社会的可持续发展有巨大影响,促使人们的生活更加绿色化、发展化和合理化。