论文部分内容阅读
随着互联网技术不断发展,现代社会面临如何获取,储存和研究随之产生的海量数据,其中如何在迅猛增长的海量数据中找到有价值的信息是研究的重点。气象行业本身拥有着海量的气象数据,并且这些气象资料类型复杂,其中蕴藏着大量的气象规律。关联规则数据挖掘在寻找气象规律中显示出了强大优势,它能够找出数据之间的潜在联系及规律,通过这些规律可以有效地进行气象预测,对灾害性气候及时采取防范措施。但是气象数据的数据量十分庞大,传统的关联规则数据挖掘算法已经很难满足需求,解决关联规则算法在效率、适应性和可用性等方面的瓶颈问题变得格外重要。在传统的计算机上进行大规模数据处理需要花费很长的时间,而使用并行算法可以有效的解决这一问题。因此,气象业务对云计算技术有很多的需求点,云计算强大的计算能力为海量气象数据挖掘提供了很好的技术支持,将海量数据挖掘算法迁移到云计算平台具有非常重要的现实意义。数据挖掘的概念在20世纪80年代末诞生,它是一门新兴的交叉学科,汇集了来自人工智能、机器学习、模式识别、统计学、数据库、可视化技术等各领域的研究成果。关联规则挖掘是数据挖掘的一个重要分支,关联规则算法具有目的明确,实现灵活,求解方便有效,应用范围广泛等优势。它已经成为深入研究的数据内部关联的重要挖掘方法。在信息迅速膨胀的今天,数据呈现几何模式增长,因此分布式关联算法的出现为更有效快速的数据挖掘提供了平台。本文针对传统关联规则算法Apriori算法存在的一些局限性进行改进,提交一种基于压缩矩阵的改进算法。结合Hadoop开源平台处理矩阵中体现出来的优势,设计出基于云计算的压缩矩阵Apriori改进算法。该算法被分为两部分进行MapReduce化操作。最后进行结果合并,产生最后的频繁集合。为了评估算法性能,设计了多个实验,通过改变数据集的大小,支持度,以及Hadoop集群的节点数来验证算法性能。从实验结果可以看出改进Apriori算法在云计算环境下处理海量数据时在运算效率以及运算的完整性上都比传统的算法有比较明显的提升,并且支持度和Hadoop节点数的改变也会对算法的效率产生影响,可见在云计算环境下改进的算法有可扩展性。应用关联规则算法对气象数据进行了挖掘,并在实验室环境中得到了基本实现,得到了一些有意义的数据,发现了气象资料中隐藏的信息,为更进一步的研究工作奠定基础。