论文部分内容阅读
随着社会的信息化发展,我国气象事业已经进入高速发展阶段,每日产生的气象数据在不断增加,累积的历史数据可以用“海量”来形容。然而,面对如此庞大的气象数据,当前的数据处理方式已经不能跟上“大数据”时代的步伐。如何安全、高效的存储和计算这些海量的气象数据,并从中快速、准确的发现有意义的信息已经成为了气象数据挖掘领域中的热点。本课题来自于天津滨海气象局的相关科研项目,旨在建立一个集气象数据采集、数据存储及数据挖掘、气象数据应用为一体的平台。主要的研究内容分为以下几个部分:(1)设计气象监测系统硬件电路。在了解气象自动站对温度、相对湿度、风速、风向以及降雨量测量要求的基础上,对以上几种天气要素进行传感器的选型,使用PIC18F8722单片机作为主控芯片,使用GPRS模块进行通过数据的无线传输。(2)对气象数据的存储和气象数据分析的研究。首先介绍了数据挖掘中的几种常用的算法分类,将聚类算法作为重点研究对象,选取基样本选择的CLARA算法;其次介绍了分布式系统基础架构hadoop的基本内容,并对其核心部分及相关子项目做了重点研究,在此之上重新定义了气象数据仓库的组成框架,并对其内部组成及相互关系做了说明;最后,搭建实验环境,将CLARA算法进行并行化处理,使之能够应用到hadoop云计算平台之上,设计一系列实验来验证其优势。(3)对气象数据应用的研究。在深入研究了Delauday三角网和网格序列等值线生成算法的基础上,将两者结合起来,形成一个新的等值线生成算法,最后用实验验证新算法在等值线绘制效率上的优势。