论文部分内容阅读
近年来,数据挖掘己经成为人工智能、模式识别等领域的研究热点。伴随着数据量的急剧增长,数据挖掘技术已经越来越引起人们重视。其中,关联规则是数据挖掘中最活越的研究方向之一。本文对关联规则数据挖掘进行了较为深入的分析和研究。主要工作包括以下几个方面: 1 目前,关联规则的研究主要集中在效率的提高上。针对规则的分析相对较少。本文首先分析了关联规则的衡量标准以及规则的前件与后件的相关性问题,总结了目前对挖掘有效关联规则的相关研究。针对传统关联规则中无法描述规则前件与后件的相关性问题,提出了一种新的挖掘有效关联规则的框架:支持度-匹配度。将该框架下生成的规则与支持度-置信度框架下生成的规则做了比较。结果表明,用所提出的方法生成的规则不仅前件和后件具有较高的相关性,而且减少了冗余规则的生成。最后,给出该框架的扩展应用及部分实验结果。 2 在实际应用中,数据库或数据仓库是随时间变化的,因而其中的关联规则也随之变化。已有许多研究人员对如何高效的更新关联规则进行了分析和研究,并提出了相应的算法。其中关联规则的更新主要涉及三个方面:第一方面,在给定的最小支持度和最小置信度下,当一个新的数据库 db 添加到数据库 DB 中时,如何生成 db+DB中的关联规则;第二方面,在给定最小支持度和最小置信度下,当数据库 db 从 DB中删除时,如何生成DB-db中的关联规则;第三方面,考虑新增加的db的新颖性时,如何进行加权增量更新。 2.1 首先,本文针对第一方面进行了分析和研究,并提出了一种基于向量的增量更新算法 VFUP(Vector-Based Fast Updating Algorithm),将该算法和已有的增量更新算法进行了分析和比较,说明了该算法的高效性和可行性。 2.2 其次,对最小支持度,最小置信度不变的情况下,新增数据库 db 时的关联规则更新问题,进行了分析和研究。考虑到新增数据库的新颖性、以及生成规则的有趣性等问题,本文结合VFUP算法的效率以及匹配度的思想,提出了基于项目集加权的增量更新算法。即:在新增数据库db 中采取频繁项目集与非频繁项目集同时加权的方法来挖掘DB+db中的关联规则。这样可以增加db中频繁项目集和非频繁项目集对DB+db中关联规则的影响。在进行n次增量更新算法的设计时,首先,结合增量更新和加权的特点,设计高效的算法来提高效率。在规则分析中采取新的框架理论,来分析得到的规则。最后,将加权增量更新得到的结果同增量更新算法得到的结果进行分析和比较,实验表明该方法是有效的。