论文部分内容阅读
当前,随着信息化进程的不断推进,全世界的数据量急剧膨胀,仅2011年就产生了1.8ZB(1.8万亿GB)的数据量,并且正以每年五倍的速度增长。在许多领域如气象领域,每天仅由卫星、雷达所产生的数据量就高达300M-500M,这使得传统的数据处理方式在面对如此海量数据时变得无所适从。在过去的几年中,云计算技术以其强大的计算能力、存储能力在全世界范围内得到了迅速发展,这为海量数据挖掘提供了新的契机,因此将数据挖掘算法进行并行化并迁移到云计算平台就具有非常重要的实际意义,且已经成为海量数据处理的新途径。本文在充分研究K-nearest neighbor (KNN)算法的并行化策略及气象数据特性的基础上,利用华东地区1960-2011年间的降水资料,经过因子筛选、算法的并行化等步骤,对华东地区的降水开展预测研究。为此,本文主要做了以下工作:(1)利用二阶聚类分析技术对华东地区六省一市的降水数据进行了降水区域划分,并针对每个区域开展时空特征分析(包括降水的趋势分析、突变检测),以此勾勒出华东地区的降水特性,之后选取最具代表性的降水分区作为后续章节降水预测的资料源。(2)鉴于KNN的算法计算量大、效率不高等问题,本文提出了一种基于类中心向量的算法Centre Vector K-nearest neighbor(CVKNN)。它的基本思想是通过选取具有代表性的样本(边界样本)来构建一个分类模型。本文详细阐述了此算法的基本思想以及实现流程,并对该算法作了性能分析,最后结合MapReduce编程模型,给出了KNN、CVKNN算法的并行化实现。(3)详细介绍了并行化的KNN、CVKNN算法在降水预测中的应用。结合第三章提出的降水分区方案,选取长三角地区8个气象站1960-2011年间的逐日降水资料,在Hadoop平台上进行了降水预测实验,并对实验结果作了详细分析。由集群降水实验的分析结果可知,本文提出的CVKNN算法在预测准确率没有明显降低的情况下,运算耗时与传统KNN相比得到了极大缩减,这不仅得益于Hadoop集群的并行化优势同时也得益于CVKNN算法的改进策略。除此之外,本文对数据挖掘算法并行化的尝试也为以后海量气象数据的处理起到了很好的借鉴作用。