大数据环境下关联规则挖掘算法的研究与实现

来源 :成都信息工程大学 | 被引量 : 4次 | 上传用户：yyj520505

【摘要】

：

随着信息化时代的到来,人们在享受海量数据带来的大量机遇的同时,也感受到了它所带来的挑战。其中最为明显的是互联网企业,每天要收集和处理海量的数据,想要从中挖掘出高价值

【作者】

：

何东静

【出处】

：

成都信息工程大学

【发表日期】

：

2016年01期

【关键词】

：

大数据数据挖掘关联规则分布式计算 Hadoop MapReduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息化时代的到来,人们在享受海量数据带来的大量机遇的同时,也感受到了它所带来的挑战。其中最为明显的是互联网企业,每天要收集和处理海量的数据,想要从中挖掘出高价值的关联信息,而传统的关联规则挖掘算法在面对海量数据时已经力不从心。如何在大数据环境下高效率、低成本的挖掘出关联规则,保障信息的实时性成为了当前数据挖掘的首要研究问题。虽然以Hadoop为代表的分布式计算平台的出现解决了运算成本的问题,大多数经典算法在分布式计算平台上也已经有了非常成熟的实现库,但是由于这些算法先天的缺陷,在大数据环境下其挖掘效率并不十分理想。而很多相关的数据预处理技术在处理实际工程项目时缺乏实用价值。对这些已有的数据预处理技术以及经典挖掘算法的改进就显得十分必要和迫切。本研究课题数据预处理部分创新的通过对决策树引入权值来提取特征属性,然后使用了维度扩展理论来实现网络告警数据的离散化和事务库生成。在关联规则挖掘部分我们通过一种创新的改进算法来提高挖掘效率,该算法整合了Apriori和FP-Growth算法的优点,通过使用一种称为支持度向量的技术提高候选项集的生成和筛选效率。为了进一步提高挖掘效率,我们又提出了一个简单的运算框架,最后我们通过将该框架和Hadoop融合,实现了高效、精准的关联规则挖掘,实验结果显示在保证准确率的前提下算法和框架的效率提升非常明显,而我们提出的数据预处理技术也表现得非常好,实用性很强。本文首先对关联规则挖掘的起源、重要性及国内外研究现状进行了简要介绍,同时介绍了比较重要的几种关联规则挖掘算法和运行平台。接着对数据挖掘中非常重要的环节——数据预处理所涉及的技术和方法进行了详细介绍。然后对经典算法的实现原理和优缺点进行了深入分析,引出了我们的改进算法和简单框架。之后介绍了简单框架和分布式计算框架的融合,最后对三种算法进行了大量的对比测试,并对测试结果作了深入分析。概括起来本文研究的主要内容如下:(1)搜集、整理课题研究需要的数据。通过广泛搜集各种类型数据,我们确保了本次课题研究的基本数据量,保证了后面的算法测试都是在大数据环境下进行的。(2)设计数据预处理技术和方法。通过对已有的数据处理技术和方法进行修改和提出创新的方法,来实现对实际数据的预处理。本次研究中主要针对交通数据和网络告警数据进行了大量处理,对决策树算法修改后用来提取特征属性。同时使用创新的维度扩展理论实现对网络告警数据的离散化。然后对这些数据进行了结构化处理,得到了一致的数据格式。(3)设计改进算法。通过深入分析已有的两种关联规则挖掘算法,整合它们的优势,获得了效率和适用范围均较好的改进算法。(4)设计简单框架。通过深入了解Hadoop的实现机制,结合改进算法的特点,设计出了一个具有资源统一调度、任务监管、自动纠错的简单运算框架,进一步提高了算法的运行效率和准确率。(5)确定框架融合方案及优化调整。通过分析我们自主设计的简单框架和MapReduce框架的工作原理,确定了简单框架在Hadoop平台上的实现方案(融合方案)。同时根据测试数据在融合后的框架上的测试结果优化调整了相关参数,获得了性能最优框架。(6)对实验结果进行分析说明。对大量实测结果进行了详细的分析。实验结果表明:在小众数据集和中等数据集上,改进后的算法运行效率相比于其它两个算法提升不多甚至略差,但因数据量小,性能均满足时效性要求。在海量数据集上,改进后的算法效率提升非常明显,超出了预期要求。

其他文献

关于混凝土配合比设计的几点认识

一、水灰比是算出来的吗读本刊1984年第1期“鲍罗米公式小议”,文中杨煜惠同志评论经验系数A、B值时写道:“公式本来就只能做大概的推算之用……全国统用一个系数未尝不可。

期刊

混凝土配合比设计经验系数鲍罗米公式坍落度水泥用量水灰比需水量配合比设计方法几点认识

长江客运架空索道架缆技术

<正>重庆长江客运架空索道是继重庆嘉陵江客运架空索道后的又一立体公共交通设施,是横跨万里长江上的第一条空中走廊,系我国自行设计和制造的双承载双牵引往复式大型客运索道

期刊

长江客运架空索道架缆

V⊥V滞留伴5⊥5先天性缺失6例分析

我们2000-2006年在门诊中发现有V⊥V滞留伴5⊥5先天性缺失6例，现报道如下。

期刊

牙未萌出

企业Teamcenter软件优化

随着企业信息化的发展,产品全生命周期管理（Product Lifecycle Management PLM）软件Teamcenter的用户数和数据量不断增加,必然导致软件运行速度降低。通过一个实例,从硬件、网

期刊

TEAMCENTER优化

猪场疫病生物安全防控体系的建设

猪场疫病给规模化养猪场带来巨大损失，因此有必要建设安全防控体系。本文介绍了猪场疫病生物安全防控体系的建设,离不开猪场良好的日常管理,二者密不可分.生物安全防控体系主

期刊

规模化养猪场疫病防控生物安全体系构建

幌内煤矿光纤电缆的应用

随着采掘工作面向纵深发展,在日本幌内煤矿决定增加井下动力线路,并且计划采用6000V电压.在动力电缆中引入光纤芯线,并于1984年7月起到9月在进风立井中进行了铺设和连接工程.

期刊

煤矿光纤电缆井下供电

磁共振胰胆管成像技术诊断胆管梗阻36例分析

现就我院2005-03～2006-08收治的胆道梗阻36例并经手术证实的磁共振胰胆管成像（MRCP）资料进行分析如下。1临床资料1．1一般资料本组男21例，女15例，年龄21～71（平均54）岁。

期刊

胆汁淤积/诊断磁共振成像

急性心肌梗死合并心源性休克36例诊治分析

我科1996？07～2005—12收治急性心肌梗死合并心源性休克36例，诊治情况分析如下。

期刊

心肌梗塞/并发症休克心原性/诊断心源性休克/治疗

急性冠脉综合征患者血清hs—CRP水平变化的临床意义

本文通过测定急性冠脉综合征（ACS）患者血清hs—CRP浓度，探讨hs—CRP增高与ACS患者不同临床类型的关系。总结如下。1对象和方法1．1对象ACS组189例，男135例，女54例，年龄38～86岁。其中不

期刊

冠状动脉疾病/血液C反应蛋白质/分析

珠海市建设生态“慢城”可行性研究

摘要：通过解读生态“慢城”内涵和建设原则，对珠海市的城市性格发展进行梳理，对珠海市建设生态“慢城”进行可行性分析，包括良好的自然环境、可持续的经济发展方向、独特的传统文化内涵与“慢生活”的契合，得出珠海市在局部地区具有建设生态“慢城”的可行性。引入“PPP模式”建设海绵生态城市，再以“互联网+”思维弘扬具有岭南特色的“人文珠海”，以国际化视角进行城市文明建设，可大大提高珠海市的城市魅力和旅游吸引

期刊

生态城市慢城珠海市

大数据环境下关联规则挖掘算法的研究与实现

与本文相关的学术论文