基于Hadoop平台的气象数据挖掘研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:yliudl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、计算和存储技术的快速发展,气象部门存储的气象数据量日益剧增,我国每年新增的气象资料达到PB量级,同时气象数据类型相对复杂,这使得传统的数据存储和处理技术不能很好解决目前用户的需求。当前国内外许多研究团队都致力于归纳分析这些海量数据,并从中挖掘出具有现实意义的气象规律或模式。近几年,云计算技术作为互联网领域的新产物,它为海量数据存储和处理提供了新的契机,它在海量数据挖掘技术领域中具有显著的优势,且已经得到了广泛的应用。云计算的总体思路是利用网络互联技术将若干台计算机连接在一起,实现对资源集中管理和统一调度,相当于形成一个资源池,以此按用户需求为其提供服务。Hadoop技术作为云计算软件平台中处理数据的一种解决方案,它具有高容错、高吞吐量、低成本等特点,将传统的数据挖掘技术移植到Hadoop云平台上,实现了低成本高效率的数据挖掘过程,这也已经成为气象数据挖掘研究方向的一个趋势。本文深入研究了基于Hadoop平台的数据挖掘方法以及气象资料的特性,针对现有的贝叶斯分类数据挖掘方法存在的一些不足,结合Hadoop云平台处理海量数据的优势,提出了基于MapReduce的贝叶斯网络分类改进算法,为此,本文主要做了如下研究:(1)针对气象数据的大规模特性,本文采用了 Hadoop平台对气象原始数据集进行预处理和计算任意两个特征属性之间的相关系数,利用相关分析技术选取预测属性,在一定程度上减少模型训练的复杂度。(2)分析典型气象数据挖掘分类算法的优劣性,针对气象数据的关联特性,本文采用了贝叶斯网络分类算法,它的提出就是为了解决事物的不确定性和关联性,较其他分类算法更适合气象数据分析。(3)在贝叶斯分类模型训练过程中,采用了精度评估,对不满足精度要求的模型采用迭代训练,并不断修改模型参数,以便获得较优的分类模型,并对测试集进行分类实验。实验结果表明,改进算法较现有的算法在计算效率和性能上均有一定的提高。
其他文献
目的探讨糖尿病患者压疮的综合治疗措施。方法在控制血糖的基础上给予常规护理和局部用碘伏、红外线、康复新液、3M亲水性敷料等治疗。结果压疮面积明显缩小,有新鲜肉芽组织
多年来,“会计信息失真”一直是社会各界关注的焦点会计问题。本文对会计信息失真的危害性进行了全面的剖析,提出了治理会计信息失真的对策和建议。
目的:分析研究多囊卵巢综合征患者不同中医证型的糖脂代谢水平及性激素水平的差异。方法:便利抽取2014年12月~2016年12月来我院进行治疗的多囊卵巢综合征患者110人,采集患者
<正> 郑州市旧城南門外向东拐,为一东西长約三百米,南北寬約一百六十米,高出附近地面約五米的土岡。岡南紧临由西向东流的熊兒河;岡北靠着城的南城壕。因这一带地势較高,所以
期刊
李克强总理在2015政府工作报告中首次把"一带一路"、长江经济带和京津冀协同发展明确为"三个支撑带"。并进一步指出:"要拓展区域发展新空间,统筹实施‘四大板块’和‘三个支
《马丁·伊登》是杰克.伦敦的半自传体小说。故事主人公马丁追求富家小姐萝丝,立志当一名作家,最终看透社会现实,溺海身亡。评论认为,马丁的死亡是由于爱情的消逝和社会的无
目的研究临床医师对中成药上市后再评价的认知度。方法采用自填式问卷调查,对临床医师的用药习惯、对联合用药的认识、中成药存在的问题(疗效、安全性)及中成药上市后再评价
<正>当前,我国农业产业化以其成功的实践与运作,不仅得到国家决策部门的首肯和经济理论界的广泛关注,而且给农业的发展和农民收入的提高提供了广泛的空间。农业产业化成了我
<正>"工程机械行业的人气又回来了!"前不久举行的第十四届中国(北京)国际工程机械、建材机械及矿山机械展览与技术交流会(下称"北京展")上人头攒动,一位参展企业代表颇为兴奋
NALP3炎性体是一类大分子蛋白复合体,其在天然免疫、获得性免疫反应中发挥着重要作用。近年来,NALP3炎性体在神经系统疾病中的关注度日益增加。作为信号感受器对各种主要促炎