论文部分内容阅读
我国地质灾害的发生较为频繁,由于山体滑坡、泥石流等地质灾害发生的次数和造成的危害不断扩大,推动了科研人员研究地质灾害监测技术的快速发展。本论文主要对地质灾害监测系统中所提供的数据进行数据挖掘,利用关联规则分析方法对数据进行深度分析,以达到更好的预测功能。本文主要是对传统Apriori算法进行改进,使之可以更适合应用到地质灾害监测系统中海量数据的深度挖掘。针对传统Apriori算法的不足,本课题在关联规则的挖掘中引入了事务压缩算法,在垂直数据格式下,对挖掘频繁项集的步骤上进行了优化,并且针对单个计算机在一些方面存在着性能不足、不能较好处理大规模数据的弊端,提出了基于分布式编程模型改进的MEC-Apriori(MapReduce-ECLAT-Compress-Apriori)新算法,并且用地质灾害监测系统所提供的数据验证了本算法的正确性。论文主要工作如下:1)分析了关联规则算法中的Apriori算法和ECLAT算法的基本思想以及算法步骤和不足。2)为了优化Apriori算法,将事务压缩的特性引入到了改进的算法中,优化了改进算法在挖掘频繁项集的时间性能。3)基于ECLAT算法,用散列技术以及将水平数据转换成垂直数据的方法,优化传统Apriori算法在挖掘频繁1项集的时间效率。4)提出了基于分布式的MEC-Apriori算法,用分布式计算框架优化传统Apriori算法的时间性能。最后用UCI数据库中的数据集进行实验分析。5)为了进一步验证本文算法设计的可行性,搭建了Hadoop集群环境,以地质灾害系统监测到的数据进行实验。实验结果表明,设计的并行算法在挖掘关联规则在时间性能上,以及挖掘频繁1项集上都有了显著提高,成功的解决了传统Apriori算法在挖掘频繁项集以及候选项集上的时间效率低的缺点。并且用改进关联规则算法挖掘地质灾害监测数据中得到了潜在的价值信息。