论文部分内容阅读
数据挖掘(Data Mining)就是从大量数据中提取或“挖掘”知识。数据挖掘被信息产业界认为是信息系统最重要的研究和应用领域之一,也是信息产业界最有前途的交叉性学科之一。关联规则(Association Rule)是数据挖掘中一个重要的研究内容,而正、负关联规则挖掘(Positive and Negative Associate Rule algorithm)作为关联规则挖掘的一个新的研究课题,用于发现在交易中出现的数据项与未出现的数据项间的关联规则,正逐步受到人们的重视。 本文在总结和分析其他关联规则挖掘算法特别是经典的Apriori算法的基础上,根据Apriori算法的缺点设计了编码算法和正、负关联规则挖掘算法。 编码算法只要遍历一次数据库,对每个交易中数据项是否出现的情况进行编码,然后通过对编码的逻辑运算来得到最后的关联规则。编码算法沿袭了Apriori算法的频繁项集递推的原理,所以结果是准确可靠的,同时由于所有的频繁相集都是用编码的形式表示,递推过程也是通过不同编码间的逻辑运算来实现,以此减少了遍历数据库的次数,达到提高数据挖掘效率的目的。 正、负关联规则挖掘算法的原理是根据概率论中相关系数的概念,设计出兴趣度,用兴趣度阈值来区分规则的前件跟后件之间是无关还是正关联或是负关联,再通过与支持度阈值的比较来得到最后的正或负关联规则。正、负关联规则挖掘算法是通过融合概率论中相关系数的知识,Apriori算法的频繁项集递推的思想和编码算法只需要一次遍历数据库的做法提出的。其中相关系数知识的引入导致了兴趣度的出现使算法可以区分规则是否相关以及规则的正负;频繁项集递推思想的引入确保了挖掘结果的完整性和准确性;编码算法的一次遍历数据库,对项编码的做法提高了相对于正关联规则挖掘开销更大,速度更慢的正、负关联规则挖掘的效率。 实验证明,编码算法在数据库查询时间大于编码生成时间的挖掘集合中有很好的提高挖掘效率的作用;正、负关联规则挖掘算法在保证得到正关联规则的同时可以挖掘出更多有意义的负关联规则,其中很多负关联规则是很重要但由于隐藏在正关联规则下而被人们忽视的规则。本文提出的正、负关联规则挖掘算法是本文的重点。