基于Hadoop的KNN分类在降水中的研究

来源 :南京信息工程大学 | 被引量 : 9次 | 上传用户:zr_ran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,随着信息化进程的不断推进,全世界的数据量急剧膨胀,仅2011年就产生了1.8ZB(1.8万亿GB)的数据量,并且正以每年五倍的速度增长。在许多领域如气象领域,每天仅由卫星、雷达所产生的数据量就高达300M-500M,这使得传统的数据处理方式在面对如此海量数据时变得无所适从。在过去的几年中,云计算技术以其强大的计算能力、存储能力在全世界范围内得到了迅速发展,这为海量数据挖掘提供了新的契机,因此将数据挖掘算法进行并行化并迁移到云计算平台就具有非常重要的实际意义,且已经成为海量数据处理的新途径。本文在充分研究K-nearest neighbor (KNN)算法的并行化策略及气象数据特性的基础上,利用华东地区1960-2011年间的降水资料,经过因子筛选、算法的并行化等步骤,对华东地区的降水开展预测研究。为此,本文主要做了以下工作:(1)利用二阶聚类分析技术对华东地区六省一市的降水数据进行了降水区域划分,并针对每个区域开展时空特征分析(包括降水的趋势分析、突变检测),以此勾勒出华东地区的降水特性,之后选取最具代表性的降水分区作为后续章节降水预测的资料源。(2)鉴于KNN的算法计算量大、效率不高等问题,本文提出了一种基于类中心向量的算法Centre Vector K-nearest neighbor(CVKNN)。它的基本思想是通过选取具有代表性的样本(边界样本)来构建一个分类模型。本文详细阐述了此算法的基本思想以及实现流程,并对该算法作了性能分析,最后结合MapReduce编程模型,给出了KNN、CVKNN算法的并行化实现。(3)详细介绍了并行化的KNN、CVKNN算法在降水预测中的应用。结合第三章提出的降水分区方案,选取长三角地区8个气象站1960-2011年间的逐日降水资料,在Hadoop平台上进行了降水预测实验,并对实验结果作了详细分析。由集群降水实验的分析结果可知,本文提出的CVKNN算法在预测准确率没有明显降低的情况下,运算耗时与传统KNN相比得到了极大缩减,这不仅得益于Hadoop集群的并行化优势同时也得益于CVKNN算法的改进策略。除此之外,本文对数据挖掘算法并行化的尝试也为以后海量气象数据的处理起到了很好的借鉴作用。
其他文献
似乎近代中国对民众公开进行英语教育的社会环境已经形成,但民众对英语却有着强烈的反感心理,使英语教育受到阻碍。这是因为清朝民众对英国侵略者的仇恨、对正规科举制度的执
蚯蚓作为一种中药材,在我国应用已经有几千年历史,据《本草纲目》记载:蚯蚓能治疗瘰疬溃烂、口舌糜疮,临床上常用来治疗骨折、创伤、下肢溃烂等疾病”。蚯蚓中含高度不饱和脂肪酸
提出了一种基于无源性的配电静止同步补偿器(DSTATCOM)模糊自适应控制方法。该方法从能量的角度分析DSTATCOM的控制系统,利用非线性反馈控制的无源控制(PBC)方法,通过与模糊控制相
在风起云涌、蔚为大观的网络文学中,少数民族网络文学作为独特的一脉不容忽视。少数民族网络文学自20世纪90年代末产生,历经萌芽、发展和转型三个阶段,逐渐形成了自己的规模
山东半岛蓝色经济区作为中国第一个半岛蓝色经济区同时作为黄河流域的出海口和经济发展的领导者,合理的产业分工对于山东半岛蓝色经济区经济的发展和区域分工具有重要的意义
在狗不理包子中添加复合生物防腐剂及复合天然抗氧化剂并采用气调包装技术,对包子的常温贮藏稳定性进行监测,结果显示:试验组明显好于对照组,对照组在贮藏至2d时,酸价和过氧化值急
在计算机视觉环境下建立舰艇防御和攻击的虚拟场景的重点是对三维虚拟海洋图像的仿真实验,传统的三维虚拟海洋视景仿真中在操作进程和虚拟数据资源配置中采用单线程设计,无法
随着社会的发展,音乐教育出现了可变性,以传统和现代教学相结合,创办新型的音乐课堂,从提高教师本身音乐素养出发,在教学中随机应变,培育高素质的音乐人才。 With the devel
以Vygotsky社会互动理论为依据,借鉴《美国21世纪外语学习标准》中的五C原则,提出非英语专业研究生的学术交流英语教学原则;参照“AP汉语与文化课课程目标”,制定了具体课程目标;
成长小说是一个他者概念,又被称为启蒙小说或教育小说。它起始于18世纪末的德国,发展于19至20世纪的英国、美国,是西方现代小说类型之一种。成长小说这个概念,与德语Buildungsrom
期刊