论文部分内容阅读
随着信息化时代的到来,人们在享受海量数据带来的大量机遇的同时,也感受到了它所带来的挑战。其中最为明显的是互联网企业,每天要收集和处理海量的数据,想要从中挖掘出高价值的关联信息,而传统的关联规则挖掘算法在面对海量数据时已经力不从心。如何在大数据环境下高效率、低成本的挖掘出关联规则,保障信息的实时性成为了当前数据挖掘的首要研究问题。虽然以Hadoop为代表的分布式计算平台的出现解决了运算成本的问题,大多数经典算法在分布式计算平台上也已经有了非常成熟的实现库,但是由于这些算法先天的缺陷,在大数据环境下其挖掘效率并不十分理想。而很多相关的数据预处理技术在处理实际工程项目时缺乏实用价值。对这些已有的数据预处理技术以及经典挖掘算法的改进就显得十分必要和迫切。本研究课题数据预处理部分创新的通过对决策树引入权值来提取特征属性,然后使用了维度扩展理论来实现网络告警数据的离散化和事务库生成。在关联规则挖掘部分我们通过一种创新的改进算法来提高挖掘效率,该算法整合了Apriori和FP-Growth算法的优点,通过使用一种称为支持度向量的技术提高候选项集的生成和筛选效率。为了进一步提高挖掘效率,我们又提出了一个简单的运算框架,最后我们通过将该框架和Hadoop融合,实现了高效、精准的关联规则挖掘,实验结果显示在保证准确率的前提下算法和框架的效率提升非常明显,而我们提出的数据预处理技术也表现得非常好,实用性很强。本文首先对关联规则挖掘的起源、重要性及国内外研究现状进行了简要介绍,同时介绍了比较重要的几种关联规则挖掘算法和运行平台。接着对数据挖掘中非常重要的环节——数据预处理所涉及的技术和方法进行了详细介绍。然后对经典算法的实现原理和优缺点进行了深入分析,引出了我们的改进算法和简单框架。之后介绍了简单框架和分布式计算框架的融合,最后对三种算法进行了大量的对比测试,并对测试结果作了深入分析。概括起来本文研究的主要内容如下:(1)搜集、整理课题研究需要的数据。通过广泛搜集各种类型数据,我们确保了本次课题研究的基本数据量,保证了后面的算法测试都是在大数据环境下进行的。(2)设计数据预处理技术和方法。通过对已有的数据处理技术和方法进行修改和提出创新的方法,来实现对实际数据的预处理。本次研究中主要针对交通数据和网络告警数据进行了大量处理,对决策树算法修改后用来提取特征属性。同时使用创新的维度扩展理论实现对网络告警数据的离散化。然后对这些数据进行了结构化处理,得到了一致的数据格式。(3)设计改进算法。通过深入分析已有的两种关联规则挖掘算法,整合它们的优势,获得了效率和适用范围均较好的改进算法。(4)设计简单框架。通过深入了解Hadoop的实现机制,结合改进算法的特点,设计出了一个具有资源统一调度、任务监管、自动纠错的简单运算框架,进一步提高了算法的运行效率和准确率。(5)确定框架融合方案及优化调整。通过分析我们自主设计的简单框架和MapReduce框架的工作原理,确定了简单框架在Hadoop平台上的实现方案(融合方案)。同时根据测试数据在融合后的框架上的测试结果优化调整了相关参数,获得了性能最优框架。(6)对实验结果进行分析说明。对大量实测结果进行了详细的分析。实验结果表明:在小众数据集和中等数据集上,改进后的算法运行效率相比于其它两个算法提升不多甚至略差,但因数据量小,性能均满足时效性要求。在海量数据集上,改进后的算法效率提升非常明显,超出了预期要求。