论文部分内容阅读
计算机技术和数据库技术的快速发展,推动了各行各业计算机信息管理系统的应用,同时也在数据库中积累了大量的数据,而这些数据就好比是“知识的矿山”,其中蕴含着丰富的知识,这些知识可以为管理者提供决策帮助。因此,如何发现这样的知识成了研究工作者的重要的课题。在这样的背景下,20世纪80年代末期,人们开始研究如何在数据库中发现知识(Knowledge Discovery in Database,KDD),并于1995年在加拿大的蒙特利尔召开的第一届“知识发现和数据挖掘”国际学术会议上首次提出了数据挖掘这一学科的名称。数据挖掘的一个重要内容是关联规则的挖掘,本文就是针对关联规则的挖掘问题进行研究的。现有的关联规则挖掘研究工作主要集中在挖掘过程的效率的研究,而较少注意在时序数据库中关联规则的挖掘质量问题。因为在时序数据库中得出的关联规则的强度,会随着时间而改变,现有关联规则挖掘算法挖掘得出的关联规则,用户很难确定它们在将来是否还有效,这就给规则的使用带来了困难;再者,现有的关联规则挖掘算法尚可能遗漏一些有趣规则。本文针对现有关联规则挖掘中存在的问题,提出了综合挖掘关联规则及其元规则的思想,并在提出综合挖掘关联规则及其元规则的总体架构的基础上,构建了关联规则元规则的形式化表示方法,提出了元规则的挖掘模型,设计了关联规则及其元规则综合挖掘的算法,提出了应用机器学习方法对元规则集进行再挖掘思路,并对元规则的分类进行了研究。本文提出了一种基于多哈希链结构的频繁模式挖掘算法,该算法具有对频繁1-项集投影交易压缩率高,扫描交易数据库次数少、产生的2-项集少、易于扩展成关联规则及其元规则的综合挖掘算法等优点。通过数据产生器产生的数据和超级市场的实际交易数据进行实验验证表明,在挖掘较短模式时该算法与FP-Growth算法相比,具有更高的效率和更好的可伸缩性,特别适合于像连锁超级市场这样的商业零售企业的交易类数据的挖掘。本文在基于多哈希链结构的频繁模式的挖掘的基础上,提出了一种关联规则及其元规则的综合挖掘算法,它既可以得到关联规则也能得到关联规则的变化趋势,该算法挖掘得出的关联规则与通常的关联规则挖掘算法相比,