广义关联分析的蕴涵——约束框架及其挖掘算法

来源 :云南大学 | 被引量 : 0次 | 上传用户:tom1313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联分析又称关联挖掘,主要目的是在交易数据、关系数据或者其它信息载体中,挖掘存在于项目集合或者对像集合中的频繁模式、关联、相关性或者因果结构等。本文将所有基于事务和非基于事务的关联分析称为广义的关联分析。基于事务的关联分析主要依托支持度—置信度框架进行数据挖掘,而非基于事务的关联分析常采用参与度—条件概率框架。首先,提出了强关联规则的评估体系:正确性、可靠性和有趣性。传统的关联分析框架要么只能保证强关联规则的正确性和可靠性,要么只能保证强关联规则的正确性和有趣性,本文提出了蕴涵—约束框架,可以保证强关联规则正确、可靠、有趣。其次,提出并论证了最小支持度min_sup和最小置信度,nin_conf的合理取值范围,从而将最小置信度由支持度—置信度框架下的(0,1]缩小为蕴涵—约束框架下的(0.5,1],最小支持度由(0,1]缩小为(0, min_conf)。第3,提出随机顶点极大团划分法,它能将非基于事务的关联分析转化为基于事务的关联分析,从而使广义关联分析问题整合成为基于事务的关联分析问题,且在更新实例以后只需修改局部划分即可形成新的划分。第4,基于映射的概念,将约束划分为事前、事中和事后约束,从而形式化地解决了约束的应用及方法。第5,根据支持度的单调性,提出了nulti-dimensions and multi-layers算法。该算法能解决一般地多维多层的关联分析问题,且具有较高地效率。第6,利用稠密维和稀疏维,提出了一种multi-knowledge tree的树形存储结构,能有效降低算法的空间复杂度;基于前者提出了multi-pruning算法,该算法在数据增加、删除、修改后无论频繁项集是否满足向下闭合性都能快速获取新的强关联规则。最后,大量实验验证了所提出理论和算法的效果和效率。
其他文献
为了提高口语对话系统中语音识别性能,本文从识别算法和语音确认两个主要方面出发,在关键词搜索性能、语境知识对关键词识别的指导及新语音确认特征诸方面进行了研究,提出如下方
目前,计算机网络技术发展迅猛,各种高速网络技术不断出现,并且其中的很多已经得到了广泛的应用.为了保证高速网络的安全性与稳定性,必须加强对网络进行截获、控制和管理.而现
国际电信联盟ITU提出了电信管理网TMN的概念,目的在于建立一个具有综合管理能力的网管体系结构对电信网络进行有效的管理.而将CORBA应用到TMN中已成为必然趋势,我们需要利用C
在航天领域中,航天产品的研发具有成本高、研发周期长、技术复杂、可靠性要求高的特点。航天产品的测试有极其重要的地位,但是其工作量很大,如何提高测试的质量、加快测试速度成
时至今日,信息安全已成为人们不可忽视的一个重要问题。而作为信息系统的基础,操作系统的安全性显得尤为重要,操作系统面临的安全威胁从根本上来讲主要来自于操作系统自身以及应
演化算法是基于生物进化论原理发展起来的启发式高效随机搜索方法,当前,演化算法在科学研究、工程设计等各个领域得到了广泛的应用,而遗传程序设计是基于演化算法发展起来的
Internet的安全应用已经离不开信任模型(TrustModel,简称TM)的支持。从根本上讲,信任模型是建立和管理信任关系的工具,使数字化社会中的实体间能实现基于信任基础上的多种事务活
随着网络技术、信息技术的进一步发展,社会对可靠、便捷的身份鉴别技术的需求正与日俱增.基于生物统计特征的身份鉴别技术正得到越来越广泛的应用.其中联机手写签名鉴别技术
水情遥测系统是水利信息化的重要组成部分。水情遥测系统主要对水情信息进行采集和处理,并做出准确的预报和调度。水情信息的传输方式是该系统的重要部分。在传统的传输方式中
随着Internet的不断发展,移动agent技术的应用越来越广泛。实际的应用通常需要由多个移动agent共同来完成任务,如何组织与协调移动agent之间的行动带来了对分布式环境中移动age