基于Hadoop的多维关联规则挖掘算法研究及应用

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:mikesh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是一种在海量数据集中挖掘隐含内容和知识的重要技术,也是一直以来数据挖掘的热门之一。随着时代的发展,关联规则挖掘的研究出现了多维关联规则,并得到了迅猛发展,目前已广泛应用于商业领域。本文设计了以Hadoop分布式模型为基础的,并且是多维度的关联规则挖掘算法。根据传统Apriori算法的性质,加上了解了每一种关联规则挖掘算法以后,通过剪枝策略,设计了一种适用于多维数据的IApriori算法,该算法在时间性能上有所提高。以Hadoop分布式框架为平台,策划并完成了多维关联规则挖掘算法的并行化,这种算法称为Improved Parallel Apriori算法,简称为IPApriori算法。这种并行化算法过程和建立结构的方法可以降低系统的I/O负荷,提高此法的执行效率。本文将改进的多维关联规则算法运用到手机用户行为预测关联分析中,分析影响手机用户行为的一些主要因素。首先需要清洗数据,建立多维数据模型,实验数据维度的划分和预处理。数据特征属性涉及包括多个维度:性别维度、年龄维度、省份维度、城市维度、区域维度、时间维度、手机品牌维度和APP类型维度。然后将并行化的多维关联规则挖掘算法运用于手机用户行为分析,并对结果进行分析,挖掘出手机用户行为与年龄维度、性别维度、时间维度、地点维度和手机品牌维度属性之间可能存在的某种关联。最后运行IPApriori算法、IApriori算法和基于Hadoop的DG-Apriori算法,在不同是事务数量和最小支持度下,分别比较三种算法的时间效率,执行时间越少的,算法运行效率越高。实验结果表明IPApriori算法在不同是事务数量和最小支持度下相较于其他两个算法执行时间是最少的。
其他文献
自2006年中共中央十六届六中全会提出"建设一支庞大的社会工作人才队伍"以来,社会工作的专业化和职业化均得到快速发展,社会工作能力研究也日益丰富。近十年来,相关研究主要
在茶楼设计过程中,如果能够合理应用陶瓷元素,其不仅是茶楼设计元素的丰富构建,更重要的是其通过精神理念的深度表达,从而让茶楼设计的美学内涵得以优化表达。陶瓷元素是我国
有毒有害物质如致病微生物、生物毒素、农药、兽药及添加剂残留等会造成极大的食品安全隐患,严重威胁人类健康。目前,对有毒有害物质的风险监测仍然面临着巨大挑战。代谢组学
目的探讨妊娠合并子宫肌瘤的临床诊断、肌瘤的病理特点以及剖宫产同时行肌瘤剔除的可能性。方法回顾性分析该院2006年1月—2012年1月128例妊娠合并子宫肌瘤产妇的临床资料,选
目的探讨血液透析对糖尿病肾病患者的治疗效果。方法将48例糖尿病肾病患者随机分为两组,每组24例,分别标记为对照组、观察组。对照组24例患者进行腹膜透析治疗,观察组24例患
近年来 ,通过发展对外贸易来带动经济增长的战略日益受到重视。但是 ,在对外贸易促进经济增长的机制和途径上却仍然存在着很大的争论。中国对外贸易对经济增长的促进作用具有
从构成复杂性科学基础的计算机与信息论中的冗余理论及其作用方面对建筑空间领域进行了论述,探索了冗余性对当代建筑空间的影响,并提供一种理解传统空间认识的新方法,最后提
目的探讨急性重症胰腺炎(serious acute pancreatitis,SAP)采用非手术治疗防治胃肠功能衰竭效果。方法选取我院收治的68例SAP患者,随机分为2组,治疗组50例在应用非手术营养支
目的探讨阿克拉霉素、阿糖胞苷联合G-CSF治疗复发急性髓系白血病的临床疗效。方法该院收治的80例复发急性髓系白血病患者,根据随机数字法,将其分为对照组(阿克拉霉素、阿糖胞