云计算环境下基于Apriori算法的气象数据关联规则分析研究

被引量 : 21次 | 上传用户:liwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术不断发展,现代社会面临如何获取,储存和研究随之产生的海量数据,其中如何在迅猛增长的海量数据中找到有价值的信息是研究的重点。气象行业本身拥有着海量的气象数据,并且这些气象资料类型复杂,其中蕴藏着大量的气象规律。关联规则数据挖掘在寻找气象规律中显示出了强大优势,它能够找出数据之间的潜在联系及规律,通过这些规律可以有效地进行气象预测,对灾害性气候及时采取防范措施。但是气象数据的数据量十分庞大,传统的关联规则数据挖掘算法已经很难满足需求,解决关联规则算法在效率、适应性和可用性等方面的瓶颈问题变得格外重要。在传统的计算机上进行大规模数据处理需要花费很长的时间,而使用并行算法可以有效的解决这一问题。因此,气象业务对云计算技术有很多的需求点,云计算强大的计算能力为海量气象数据挖掘提供了很好的技术支持,将海量数据挖掘算法迁移到云计算平台具有非常重要的现实意义。数据挖掘的概念在20世纪80年代末诞生,它是一门新兴的交叉学科,汇集了来自人工智能、机器学习、模式识别、统计学、数据库、可视化技术等各领域的研究成果。关联规则挖掘是数据挖掘的一个重要分支,关联规则算法具有目的明确,实现灵活,求解方便有效,应用范围广泛等优势。它已经成为深入研究的数据内部关联的重要挖掘方法。在信息迅速膨胀的今天,数据呈现几何模式增长,因此分布式关联算法的出现为更有效快速的数据挖掘提供了平台。本文针对传统关联规则算法Apriori算法存在的一些局限性进行改进,提交一种基于压缩矩阵的改进算法。结合Hadoop开源平台处理矩阵中体现出来的优势,设计出基于云计算的压缩矩阵Apriori改进算法。该算法被分为两部分进行MapReduce化操作。最后进行结果合并,产生最后的频繁集合。为了评估算法性能,设计了多个实验,通过改变数据集的大小,支持度,以及Hadoop集群的节点数来验证算法性能。从实验结果可以看出改进Apriori算法在云计算环境下处理海量数据时在运算效率以及运算的完整性上都比传统的算法有比较明显的提升,并且支持度和Hadoop节点数的改变也会对算法的效率产生影响,可见在云计算环境下改进的算法有可扩展性。应用关联规则算法对气象数据进行了挖掘,并在实验室环境中得到了基本实现,得到了一些有意义的数据,发现了气象资料中隐藏的信息,为更进一步的研究工作奠定基础。
其他文献
主要介绍了电去离子(EDI)技术在水处理方面的应用:简要介绍了EDI技术去离子的原理及其发展情况;介绍了该技术在电镀废水、锅炉补给水、纯水制造以及去除低浓度重金属废水中的
<正>【原诗呈现】题木兰庙杜牧弯弓征战作男儿,梦里曾经与画眉。几度思归还把酒,拂云堆上祝明妃。【魅力意译】她岂止弯弓射大雕射得敌寇鬼哭狼嚎男儿胆气盖山河英雄永不倒梦
目的采用转化生长因子(TGF-β1)诱导大鼠肺成纤维细胞,给予罗格列酮干预,明确其对大鼠肺纤维化的影响。方法以组织贴块法培养肺成纤维细胞,分为0.4%血清对照组(空白对照组)、
通过对影响PVC树脂热稳定性的各种因素的分析,综合国内现正在广泛使用的各种热稳定性剂的性能比较,选择了其中从经济技术及安全环保等各方面均认为比较理想的液体锌与脂肪酸
全民食盐加碘预防碘缺乏病已取得一定的成效,但随着碘摄入量的增多,近年来甲状腺疾病发病率又有所增加,甲状腺癌也随之增多,且已备受关注。为全面了解及进一步分析碘摄入量与
在增加市场竞争能力、提倡节约成本和资源的再利用的背景下,在西安石化分公司在建的30万吨/年催化重整装置设计中,改造再利用闲置的石油化工设备的技术难题是:没有可用的国家
本文从信息产品开发的概念界定出发,以信息产品的市场行销为价值目标,论述了信息产品开发的五大策略。
教师理解学生,才能理解教育,才能与学生之间形成真正意义上的教育关系。本文分析了教师对学生理解的几个特征并简要阐述了教师理解学生的意义。
体育氛围的构建主要从体育文化和运动环境和集体等方面入手,对提高中学生体育学习兴趣有着非同寻常的作用。在平常的体育教学实践中,常常把体育课程和课堂教学等作为研究学生
<正> 语文是人们交际、学习和工作的基础工具,它与每个人的日常生活有着无法分割的紧密联系。语文学科是基础教育中的一门基础工具性学科,语文教学在各门学科的教学中处于举