基于云平台的海量高光谱数据管理系统设计与实现(3)

云计算具有很多优势,自诞生以来就已经取得了不容忽视的成功。虽然对云计算的定义几乎没有共识,但是云计算的一个很好的特点就是它是一个互联网规


云计算具有很多优势,自诞生以来就已经取得了不容忽视的成功。虽然对云计算的定义几乎没有共识,但是云计算的一个很好的特点就是它是一个互联网规模的计算,面向服务的计算和高性能计算[7]。福斯特等从各种角度对网格和云进行了比较:架构,业务模型,编程模型,应用等,得出结论,云计算的一些优势是:通过消费支付软件成本,互联网规模计算,和面向服务的计算。作为服务,云服务的三个主要级别通常以X-as-a-Service的方式达成一致(X是基础架构,平台或软件的缩写)。由于云计算具有上述功能和市场上的成功,因此开发了大量云环境的软件框架。

随着高性能计算技术的飞速发展,现在可以在并行计算机体系结构中显着加速高光谱图像处理算法。在这些方法中,云计算是分布式并行优化的最有前途的技术,可以海量数据处理。Apache Hadoop是一个广泛使用的开源云计算平台,它由分布式并行计算模型MapReduce和Hadoop分布式文件系统(HDFS)组成。Hadoop平台是一种开源的分布式计算平台,其扩展性良好,能够搭建大规模的集群,且编程模式简易高效,在实际的应用中能够发挥很大的价值。它由两个核心构件,分别是HDFS(Hadoop Distributed File System)和MapReduce,是由这两个构件组成的分布式的基础架构。 Hadoop计算平台强大的数据存储能力和庞大的并行计算能力,为处理高光谱数据在单机运行中遇到的存储不足、计算效率过低等瓶颈问题提供了平台。MapReduce可以将原始计算任务分解为分布在云计算平台每个节点上的许多小任务,即使具有不可靠和薄弱的通信链路。在下面我们将描述Hadoop中实现的并行化框架。MapReduce模型使用编程的功能风格,使得代码执行在商用机器的分布式计算环境中并行化。 实时,框架能够分割数据,分配工作量,并通过机器之间的通信提供容错。 结果是软件开发人员易于编程,以利用大型集群系统的计算能力。MapReduce图像处理的方式主要有:(1)用户根据自己的需求上传一些图像,并将它们转化为二进制数据流,然后自行调用 Hadoop 内置数据类型进行处理;(2)利用一些已知的图像文件接口,将图像看成一个数组矩阵,然后进行相应的处理[8]。

综上,建立一个基于云平台的高光谱遥感数据管理系统非常有必要,针对基于云平台的海量高光谱数据管理系统的设计,既要针对云平台的特性,完成海量高光谱图像数据的分布式存储,也要有机地结合图像格式对图像进行一些组织管理。该系统可以对大量高光谱遥感数据进行有效管理,大大提高了对高光谱遥感数据的存储和管理效率。使用云平台来分析和管理海量高光谱遥感数据是一种新兴的解决方案。利用云平台的特性,可以规避传统数据库进行管理时海量数据不能快速访问、处理不够灵活、并且其维护成本较高等问题,有效地提高了工作效率。

1.2  国内外研究现状

1.3  总体技术方案及社会影响

本课题是利用云平台搭建一个海量的高光谱遥感数据管理系统,旨在利用云平台的特性,能够更有效的组织和管理海量数据。总体使用SpringMVC框架搭建一个web应用服务,提供用户进行海量数据管理的客户端,该系统主要需要实现高光谱遥感图像上传、高光谱遥感元数据和原始图像数据的存储管理设计、高光谱遥感图像格式转换等功能,同时结合光谱角匹配等算法实现高光谱遥感图像光谱特征分析功能。对于海量的高光谱遥感原始数据,我们借助了分布式文件系统HDFS来进行存储和管理,对高光谱遥感图像的一些属性信息(即元数据),我们采用了本地数据库,便于存取和查看,因此,总体的技术路线即是利用本地数据库和云平台相结合的方式来实现海量高光谱遥感数据进行存储和管理。