论文部分内容阅读
随着计算机技术和互联网技术的发展,人们的生产生活变得越来越便捷,随之积累的数据量也越来越大。这些海量的数据背后蕴含着丰富的知识和规律,如果能把这些有用的信息挖掘出来,那将对我们未来的生活带来很大的帮助,尤其是在气象领域,这种帮助将更加明显。长期以来,气象预测在人们的生产和生活中都占据着非常重要的位置,大到飞机起飞、火箭发射,小到种植计划、穿衣出行,气象预测深刻影响着我国的科研领域、经济建设和人民生活。近年来,气象事业的现代化水平和现代气象业务体系在不断提高和完善,随之也产生了地面、卫星观测和数值预报等各种类型的大量观测数据,数据量已经达到了PB级。遗憾的是,尽管数据的增长十分迅速,但我们处理数据的技术却发展的相对滞后,传统的数据挖掘方法在面对这些海量数据时,处理和计算都遇到了很大的障碍。在这样的背景下,Hadoop平台的出现为高效地实现海量气象数据的挖掘提供了可能,Hadoop平台利用网络互联技术将若干台计算机连接在一起,实现对资源的集中管理和统一调度。基于Hadoop的海量气象数据预测的基本思想是将传统的气象数据预测算法和Hadoop平台相结合,利用Hadoop超强的计算能力,使海量数据得到充分利用,最终取得更好的气象预测效果。Hadoop技术作为处理海量数据的一种解决方案,具有低成本、高吞吐量、高容错等特点,得到了社会各界广泛的应用。论文深入研究了Hadoop平台和气象数据预测算法,针对朴素贝叶斯分类算法和贝叶斯网络算法在气象预测领域中的一些不足,结合Hadoop平台分布式处理数据的优势和气象数据自身的特性,提出在MapReduce框架基础上运行的贝叶斯网络分类算法,论文主要做了如下研究:(1)考虑到气象数据的海量性,论文采用Hadoop平台对数据进行预处理,并计算任意属性和决策属性之间的相关系数,利用相关系数筛选预测属性,降低了算法的复杂度,提高了模型训练的效率。(2)结合气象数据的特性,对比常用的气象数据预测算法,论文选择了贝叶斯网络分类算法,并利用互信息有关知识对贝叶斯网络结构进行学习。算法在Hadoop平台上运行良好,对气象数据的不确定性和关联性具有较强的适应能力。(3)在算法中加入迭代模型,用测试集对训练得到的贝叶斯网络进行精度评估,如果网络模型不满足系统预设的精度要求,则要修改模型参数,重新对贝叶斯网络进行训练,以获得较优的网络结构。通过和现有气象预测算法进行实验对比,证明了论文改进算法在精度和效率上都有一定的提高。