论文部分内容阅读
在数据挖掘技术发展繁荣的大背景下,关联规则技术得到了蓬勃发展,并正朝更为广泛而深入的方向继续发展。关联规则挖掘的目的是为了从大量数据中发现项之间有趣的关联和相关关系,其应用背景从开始的狭义购物篮分析扩展到网站设计与优化、网络入侵检测、关联规则分类、交通事故模式分析、药物成份关联分析、蛋白质结构分析、软件bug挖掘、设备故障诊断等等,其理论研究内容也从最初的频繁模式挖掘扩展到闭合模式挖掘、最大模式挖掘、扩展型关联规则、衍生型关联规则、隐私保护、增量挖掘、挖掘后处理、主观兴趣度度量、相关模式、数据流等多种类型数据上的关联规则挖掘等等。因此,有必要对关联规则相关技术进行比较深入的研究和探讨。本文针对现有关联规则技术的一些不足,提出了相应的解决方案,取得了一定的创新性成果。本文的主要研究工作包括以下几个方面:(1)提出了一种新的相关性兴趣度景All-item-confidence,研究了该度量所具有的性质,如:合适的上下界,模式中任意一项的发生均可提高其余项发生的可能性,良好的反单调性等。然后阐述了该度量与All-set-confidence度量之间的关系,以及该度量的适用范围。(2)针对普通关联规则在解决前后项集对称型应用问题上的不足,提出了项项正相关关联规则挖掘问题。首先采用All-confidence关联兴趣度度量和All-item-confidence相关兴趣度度量挖掘关联且项项正相关频繁模式,然后进一步得到项项正相关关联规则。给出了项项正相关关联规则挖掘问题相关定义、描述和实例,提出了两种挖掘算法:ItemCoMine_AP和ItemCoMine_CT算法,并对算法性能、相关度量减枝效果、实际应用效果进行了测试。(3)针对普通关联规则在解决前后项集非对称型应用问题上的不足,进一步提出了项项且项集正相关关联规则挖掘问题。在得到关联且项项正相关频繁模式后,采用项集相关性度量对关联规则进行减枝,从而得到项项且项集正相关关联规则。给出了项项且项集正相关关联规则挖掘相关定义、描述和实例,进一步提出了相应的挖掘算法:I&ISCoMine_AP和I&ISCoMine_CT算法,测试了算法的性能、项集相关性度量的减枝效果,以及在实际零售数据集中的应用效果。(4)对动态关联规则技术进行了相应的研究,提出了动态关联规则新定义,进一步阐述了两种动态关联规则挖掘新算法:改进的两阶段挖掘ITS算法和基于扩展FP树的EFP-Growth算法,并对算法性能进行了评测。(5)提出了挖掘带使用信息的动态关联规则(DAR-C)新问题,给出了DAR-C规则的候选有效时段的表示方法,并对DAR-C规则进行了定义;然后进一步提出了相应的挖掘算法:ITS2和EFP-Growth2算法,实验验证了算法的有效性和可伸缩性,应用实例表明DAR-C规则应用的可行性。DAR-C规则对于具有动态和数据分布歪斜性质的数据库,有较好的指示作用。(6)在带有模糊分类结构的层次型模糊关联规则基础上,引入了加权扩展,提出了一种布尔型数据库中的加权模糊层次型关联规则(WGF-AR)模型。采用概化权重来描述不同叶子结点得到的上层概念项目的权重,建立事务对项集的支持度度量,从而提出相应的规则加权支持度度量和加权置信度度量。证明WGF-AR模型中,加权向下闭包性质成立,提出相应的WGF-AR挖掘W-Apriori算法。(7)提出了基于模糊分类结构的关联规则聚类新方法。首先阐述模糊分类结构中多个有向无环图的合并方法,以及构建带语义差别信息的模糊分类结构的方法:进一步提出基于模糊分类结构的项间距离、项集间距离、关联规则距离计算方法,使用示例加以阐释;最后使用聚类算法对规则进行聚类,并可视化显示。