基于聚类的多层关联规则挖掘算法研究与改进

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:gaoliksk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘逐渐进入人们的生活,而且以很快的速度发展成一门主流的技术,所以人们现在更关注于通过分析数据来研究或者预测一些行为模式。“购物篮分析”让更多的人把目光投放到关联规则挖掘上,关联规则是数据挖掘的一个经典功能,而且更多的时候就是挖掘单层的关联规则模式。然而现在,人们不仅仅对单层的关联规则模式感兴趣,可能还会对多层关联规则模式感兴趣。为了挖掘多层关联规则,本文提出将关联规则与聚类进行结合的多层关联规则挖掘新思路。首先将原始事务数据集聚类,聚类后的事务数据集通过一定的划分再用于关联规则分析,这样可以挖掘多层关联规则。为了更好适用于事务数据集的多层关联规则挖掘,本文在以上的每一个阶段都做了相关改进。本文主要在以下四个方面重点研究与讨论:1.概述了数据挖掘中关联规则、聚类以及多层关联规则挖掘的相关理论知识,并且分析了它们近几年来的学术成果。同时介绍了一些关联规则和聚类的相关算法,关联规则重点分析了Apriori和FP-Growth算法,聚类重点分析了K-Means和K-Mediods算法;2.设计出了一种专门针对SDS的相关性度量算法。针对本文采用的IBM生成数据集,为了提高聚类质量,通过改进SMC和Jaccard相关系数,计算出数据集中数据对象之间的相关性系数矩阵;3.关联规则算法的改进。在FP-Growth算法基础上提出了一些改进:针对FP-Tree建树时占用内存很大,经过合并相同支持数的节点来减小树的规模,节约空间;针对FP-Growth算法头表生成的情况,以及多次在头表中查找会消耗大量的时间,提出用哈希头表替代头表,这样能够加快查找效率;4.多层关联规则挖掘。通过将聚类与关联规则的结合,达到挖掘多层关联规则的目的。本文中,为了挖掘多层,甚至是跨层之间的关联规则,根据聚类结果将原始事务数据集划分,与其他算法划分不同的是,数据集中需要合并一个簇中的数据对象并用簇的名字代替。这样,不仅可以保留数据集中不同层之间的信息来挖掘多层关联规则,还可以减小数据集的规模。
其他文献
<正>复发性流产(recurrent spontaneous abortion,RSA)是指与同一性伴侣连续发生3次或3次以上流产者,其发生率占妊娠总数的1%~5%[1],下次妊娠自然流产再发生风险高达70%~80%[2],
目的:观察养心抗闭汤联合干预训练治疗心脾两虚型儿童自闭症的临床疗效。方法:将96例心脾两虚型儿童自闭症患儿分为对照组和观察组各48例。对照组采用干预训练,包括行为治疗
网站形态的发展大致上经历了传统平面图文型(二维)到三维几何体网站(三维)再到三维流体网站(四度空间)的演变过程。从理论研究层面而言,以三维流体网站作为研究对象,目前尚无先例。从
农地征收是加快推进现阶段我国农村城市化进程、扩大城市化规模的重要途径。解决征地过程中侵害农民合法权益这一核心问题,既是推进农村城市化进程的根本要求,又是彻底解决“
社会经济地位是影响健康不平等的根本要素之一,行为论和环境论对影响机制提供了不同的理论视角。文章采用2014年"中国老年健康影响因素调查"(CLHLS)数据,运用Logit回归模型和
自20世纪80年代以来我国农民进行组织与制度的创新,在农村建立了各种形式的新型农民合作经济组织,它不同于50年代在农业合作化运动中的合作社等传统合作组织。实践证明,它是我国
本文主要采用量化分析的方法,从历时的角度考察30年来对外汉语初中级口语教材词汇的更替现象。论文以十年为界,从20世纪80年代,20世纪90年代和21世纪初各选取四套初中级口语教材
1940年前后延安文人的思想转变是20世纪中国文学史的一个重要现象:何其芳1938年至1942年在延安写成的诗文,表现了这位曾经走唯美之路的现代派诗人转入为群众服务艺术轨道过程中
伴随着我国的城市化、工业化、市场化、经济国际化进一步的深化发展,以及经济社会全面、协调、可持续发展的趋势,在我国这样一个“二元经济”特征显著的发展中国家,农村的剩
导演陈凯歌说:"我只不过用拍电影的方式,对抗我自身的速朽,充实本可无所事事的人生,诚实地面对自己。"作为"哲人导演",他在电影《道士下山》中成功塑造的"何安下",只是一个视角,或者