论文部分内容阅读
随着数据库技术的飞速发展以及Internet的迅猛普及,数据库技术已成为信息社会中对大量数据进行有效组织与管理的重要技术。特别是近些年在各大商场、书店等使用的条码技术,更为各企业方便快捷地收集数据提供了帮助。数据挖掘技术正好可以从大量数据中发现隐藏在数据背后的知识,从而帮助人们更好地理解事物的本质。关联规则是数据挖掘中一种重要的知识类型。随着关系数据库的广泛使用,研究关系数据库中的关联规则挖掘算法有着广阔的发展前景。当前这方面的常用算法是基于单表的,这些算法虽可以应用于多个表上,但需进行相应的转化—将多个表转换为一个表后才可应用。另外,还有基于ILP技术提出的算法等,这些算法分别在挖掘效率及应用范围、模式表示等方面存在一些不足,这就要求提出新的关联规则挖掘算法以适应需求。本文通过研究分析,借鉴传统的Apriori关联规则算法的先进思想,分析了该算法在时间复杂度以及只应用于事务数据库的不足的基础上,结合CrossMine算法中的元组标识传播(Tuple ID Propagation)的思想,提出了一种新的应用于关系数据库中多表间关联规则挖掘的算法BMM。该算法通过分析关系数据库中关联规则的多值、多维等特性,针对这些特征采取相应的措施来解决:首先对关系数据集进行数据预处理,以适应关联规则的发现,然后,通过扩展元组标识传播的思想得到每个属性所对应的目标关系ID,以此可以通过目标关系ID将所有考察的多表间的属性联系起来,从而可以直接作用在多个表上;最后,算法中的数据结构采用了链表结构来表示频繁项集及其对应的目标关系ID,以达到减少对数据库的访问次数。最后通过实验验证BMM算法。同时将BMM算法与基于SQL的算法进行比较做出了比较分析,实验证明该BMM算法表现出更好的时间性能。