正、负关联规则挖掘算法的研究与实践

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:oldfan48
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)就是从大量数据中提取或“挖掘”知识。数据挖掘被信息产业界认为是信息系统最重要的研究和应用领域之一,也是信息产业界最有前途的交叉性学科之一。关联规则(Association Rule)是数据挖掘中一个重要的研究内容,而正、负关联规则挖掘(Positive and Negative Associate Rule algorithm)作为关联规则挖掘的一个新的研究课题,用于发现在交易中出现的数据项与未出现的数据项间的关联规则,正逐步受到人们的重视。  本文在总结和分析其他关联规则挖掘算法特别是经典的Apriori算法的基础上,根据Apriori算法的缺点设计了编码算法和正、负关联规则挖掘算法。  编码算法只要遍历一次数据库,对每个交易中数据项是否出现的情况进行编码,然后通过对编码的逻辑运算来得到最后的关联规则。编码算法沿袭了Apriori算法的频繁项集递推的原理,所以结果是准确可靠的,同时由于所有的频繁相集都是用编码的形式表示,递推过程也是通过不同编码间的逻辑运算来实现,以此减少了遍历数据库的次数,达到提高数据挖掘效率的目的。  正、负关联规则挖掘算法的原理是根据概率论中相关系数的概念,设计出兴趣度,用兴趣度阈值来区分规则的前件跟后件之间是无关还是正关联或是负关联,再通过与支持度阈值的比较来得到最后的正或负关联规则。正、负关联规则挖掘算法是通过融合概率论中相关系数的知识,Apriori算法的频繁项集递推的思想和编码算法只需要一次遍历数据库的做法提出的。其中相关系数知识的引入导致了兴趣度的出现使算法可以区分规则是否相关以及规则的正负;频繁项集递推思想的引入确保了挖掘结果的完整性和准确性;编码算法的一次遍历数据库,对项编码的做法提高了相对于正关联规则挖掘开销更大,速度更慢的正、负关联规则挖掘的效率。  实验证明,编码算法在数据库查询时间大于编码生成时间的挖掘集合中有很好的提高挖掘效率的作用;正、负关联规则挖掘算法在保证得到正关联规则的同时可以挖掘出更多有意义的负关联规则,其中很多负关联规则是很重要但由于隐藏在正关联规则下而被人们忽视的规则。本文提出的正、负关联规则挖掘算法是本文的重点。
其他文献
Internet正从一个主要用于交换和共享信息的网络演变成为一个开放协同软件环境。其安全问题呈现出许多新特点,如安全分析主体的复杂化、安全信息的不完整性、安全度量的相对化
Web上信息就像一条河流,从我们身边不停流过.已经有很多人认识到这些信息的价值,从而展开了对Web信息多方面的研究.该文阐述的内容就是基于这些研究,并希望能够对他人的相关
随着微处理器技术和操作系统技术的不断发展,嵌入式实时操作系统已经成为计算机科学的一个重要组成部分,并且已经被广泛应用于制造业、过程控制、仪器仪表、通讯等不同领域。
本文分析了现有矢量化研究的两类主要方法:一阶段方法和两阶段方法.在分析这些方法的优缺点的基础上,提出了"逐步简化的两阶段混合矢量化模型".在上述模型中,首先应用一阶段
近几年来,物流作为促进经济增长的“第三利润源”,受到了国内各行各业的极大重视并得到了迅速的发展。配送是物流中的一个重要的、直接与消费者相连的环节,在配送业务中,配送
芯片制造尺寸的逐步缩小和片上集成度的不断提高,使得数字集成电路的设计愈加复杂,设计错误随之增多。硅前验证技术难以在流片前发现所有的设计错误,一些错误遗留到硅后。硅后调
计算机网络经过长期的发展,不同的操作系统和应用程序以不同的格式在网络上存储了大量信息。一个网络管理员无法在一个集中的信息库中、以方便的方法管理网络信息和资源。用户
在计算机网络快速发展的同时,网络入侵呈现出的综合化发展趋势也给入侵检测技术提出新的挑战。虽然由于采用了多种网络防范技术,使攻击的难度增加,但是入侵者在实施入侵时往
本文将切片技术应用于软件体系结构中,针对软件体系结构的特点,根据传统的程序依赖图和系统依赖图的构建思想,提出了体系结构元素依赖图(Architecture Element Dependence Gr
本研究为军队某部MGIS方案设计分支课题的内容之一,主要探讨由数字高程模型进行地形分析的算法,还原成拟合地表曲面,以利于生成军事电子地图和电子沙盘,为进一步进行导航、地形匹