基于相关兴趣度的关联规则挖掘

被引量 : 24次 | 上传用户:killer0662
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘技术引起了信息技术领域的极大关注,这是因为数据收集和数据存储技术的快速进步使得各组织机构积累了海量数据,这些数据可以被转换成有用的信息知识进行广泛使用。转换后得到的的信息知识可以被应用到市场分析,商场统筹,工程规划和科学探索等。数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。它是一种将传统的数据分析方法与处理大量数据的复杂算法相结合的技术。关联规则技术作为数据挖掘技术的一个重要部分,在数据挖掘技术发展繁荣的情况下也得到了蓬勃发展,并向着更加广泛和深入的方向继续发展。关联规则挖掘的目的是为了从大量数据中发现项与项之间的直接有趣的关联和相关关系。关联规则无论从理论研究还是现实应用方面都有很宽广的发展前景,从狭义购物篮分析到网站的设计及其优化,甚至扩展到交通事故模式的分析或者是药物成分的关联分析等方面,它的理论研究为很多数据类型的挖掘提供了可行性,比方说从频繁模式的挖掘到闭合模式挖掘,从主观兴趣度到其它相关模式的挖掘。因而,对关联规则相关技术进行深入的研究是非常必要的。近年来,由于能够发现数据间的相关关系,并且发现的规则结构简单、易于理解,因此,关联规则成为数据挖掘领域的热点课题之一。本文对关联规则技术的优缺点进行了分析,并针对其不足之处进行了相应的改进。主要研究工作包括以下几个方面。(1)本文对经典的Apriori以及不产生候选集的FP-Growth算法进行了分析和研究:用Apriori算法挖掘频繁项集,计算量很大,需要多次遍历数据库,增加了CPU开销。FP-Growth算法虽然比Apriori算法在性能上有很大提高,它仅需要扫描两次数据库,并且避免了产生大量的候选项集。但FP-Growth算法主要的缺陷就是空间开销大。为解决此问题,本文引入了概念格,说明了用概念格的哈斯图进行频繁项集的挖掘在结果相似的基础上比Apriori算法更加简捷直观。(2)由于支持度-置信度框架下的关联规则存在一定的缺陷,于是,本文引入了兴趣度度量。首先,对现有的几种关联规则兴趣度进行深入研究和分析,指出这些兴趣度度量方法各自存在的局限,提出了一个基于兴趣度的关联规则度量方法的改进,证明了该度量方法的一些性质,并对该方法与传统方法进行了比较,指出了改进方法可以同时表示正负关联规则的判别,又对都不购买的变量不敏感,实证了新方法的特征属性。该方法较之原有方法有一定的优势。(3)由于在解决前后项集对称型问题时,普通关联规则存在着不足之处,因此,通过提出项项正相关关联规则挖掘改进了这种不足。同时提出了一种挖掘算法:ItemCoMine_AP算法,并对算法性能进行测试,对相关度量的减枝效果和实际应用效果进行分析。通过理论分析和实际测试,说明提出的关联规则能够有效的提高所生成关联规则的质量,应用效果较之普通关联规则有了明显的提高。
其他文献
出口信用保险是减少外贸风险的重要手段.然而,我国出口信用保险的发展严重滞后于对外贸易的快速增长势头.文章建议从政府、保险机构以及出口企业三方面积极采取措施,提高出口
现代化与全球化作为两个世界性的概念,其历史的起点是基本重合的、要求是基本吻合的。什么是中国式的现代化?邓小平同志作了科学的回答,全球化从本质上讲,是发达国家有意识地
本文针对五输循行与十二经脉循行的矛盾之处进行了探讨,认为两者并非同一系统。提出了五输、经别循行同一体的论点,由此设想建立一个在十二经循行以外的,相对独立的经络循行子系
2005全国大学生数学建模竞赛B、D题背景是DVD在线租赁业务。本文对竞赛论文中出现的主要模型和方法进行简要介绍和分析,并指出以此为背景还有很多问题可以继续研究。
主要从学习适应性概念结构和测量入手,进而指出学习适应性研究方法和现状。并初探存在的问题及研究趋势。
目的探讨t-PSA和f-PSA检测在前列腺增生和前列腺癌中的鉴别诊断作用。方法选取87例前列腺疾病患者,检测血清t-PSA和f-PSA,计算f/t-PSA比值,结合病理评分,探讨其内在关系。结
随着铁路技术的更新及发展,我国铁路运行速度不断提高,为满足列车高速运行下能够保证其按计划、安全有效的运行,各国均对计算机联锁系统的软、硬件设备进行改进研究。目前应用于
ZPW-2000A无绝缘轨道电路系统是目前我国广泛应用的重要的铁路信号设备之一,其运行状况直接关系到铁路运输的效率和安全。针对设备制定科学和有效的维修策略是提高其可靠性和
为系统地研究对称性在机械系统制造工艺中的存在、功效及应用规律,提出工艺对称性的概念,构建由工艺方法对称性、工艺过程对称性和工艺设备对称性组成的多层次分类体系.进而
铁路站场信号平面设备布置图(简称站场平面图)是铁路站场信号工程设计的基础,双线轨道电路布置图,则是在站场平面图的基础上,经过一系列反复的探测、计算、调整和校验,识别轨道电路