论文部分内容阅读
数据挖掘的目标是从数据库中发现隐含的、有意义的知识,以便通过预测未来趋势及行为,做出前摄的、基于知识的决策.关联规则挖掘是数据挖掘领域的一个重要研究课题,目的在于从大量的数据库记录或交易中发现所有频繁出现的项目子集,并以关联规则形式给出一个项目子集如何影响其余子集.关联规则极富商业价值,可以用来支持商业决策和信息预测,例如,货架安排,销售提升,市场决策等.然而,用传统的关联规则挖掘方法所得到的规则数量通常很庞大,并且其中有大部份对于用户来说可能是无用的,或者是用户不感兴趣的,我们称之为冗余规则.这样的冗余又可能是多种多样的,要根据具体的用户需求来做出定义.该文所提出的冗余是针对这样的问题:由于频繁项目集本身存在一些包含与被包含关系,从而导致所产生的关联规则中必然存在一些在规则意义上是相同或是相似的规则.随着数据规模的增大或是最小支持度阈值的降低,这样的规则又是大量存在的,把这样大量的具有重复意义的规则提供给用户是不明智的,违背了数据挖掘的首要目的.由于这种冗余是规则集本身所固有的,因此排除这些冗余不需用户的干预就应完成.通过排除冗余,最终提供用户简洁的、紧凑的规则集,这样不但减少了在数据挖掘处理过程中的无关噪音,对于用户理解和提取信息也更有帮助.该文主要针对此类冗余问题做了一些研究工作.首先,考虑因为大量频繁项目集具有包含与被包含关系,因此考虑把这些项目集聚合起来,称为同组项目集.这样实际是对频繁项目集做了一次分组压缩,由这些同组项目集可以得到一些具有相同置信度的规则.然后,根据算法的需要提出了一种对数据进行处理的方法,我们称之为近似格.它是由上述同组项目集构造的一种类似格的结构,通过近似格组织结构可以较为方便和有效地对规则集中存在的冗余进行处理.最后,在模拟数据上实验验证了该文提出的算法的正确性和有效性.