论文部分内容阅读
数据挖掘研究如何从大量的数据中智能地自动地抽取出有价值的知识和信息,是当前人工智能研究中非常活跃的研究领域。关联规则(Association Rules)挖掘是数据挖掘领域重要的研究分支。概念格与粗糙集都是有效的数据分析方法。粗糙集理论利用等价关系对数据表进行分类,能有效地处理模糊性和不确定性问题的数学工具,为数据挖掘提供了新的思路和基础。而概念格是基于数据表,结合序理论,尤其是完备格理论,进行概念分层讨论。它们之间的关系引起了许多研究者的关注。文章首先介绍了经典的关联规则挖掘算法,分析了需要进一步深入研究的问题:挖掘过程中需要重复多次扫描数据库;挖掘过程中产生大量候选项集;产生的规则数量过多。接着主要以上面三个问题为突破口分别讨论了运用粗糙集、改进的概念格模型进行关联规则的提取,最后对二者的关系作进一步的探讨,并提出了粗糙概念格结构。主要内容及创新工作具体如下:1.Apriori算法优化:改进算法,缩小所需扫描的事务项集大小,并提出了一种简单的数据结构一树型结构来存储事务项集数据,使得算法在数据集量巨大时,性能得到有效提高。2.结合粗糙集理论,推导出“多属性不可分辨类”的性质。然后根据这个性质,提出了一种新的关联规则挖掘算法,该算法仅需扫描一次数据库,改善了现有的挖掘算法由于多次扫描数据库而导致时间效率低下问题。同时针对产生的规则数量过多问题,提出了基于规则约束和加权支持度的双变量约束关联规则挖掘,只对与约束条件有关的项目进行处理。3.研究了基于剪枝概念格的关联规则挖掘求解和表示。提出顺序剪枝和同步剪枝概念格的构造方法。实验表明基于剪枝概念格挖掘关联规则,减少了关联规则的挖掘空间,提高了关联规则挖掘的效率。4.对概念格与粗糙集之间的关系作进一步的探讨,并且证实粗糙集的一些概念包括等价类,上、下近似等都可以通过概念格来表示。提出了粗糙概念格RCL,采用粗糙集上、下近似集,描述概念格中内涵所拥有的外延,这种概念格结构体现了对象与特征间的确定与不确定两种关系。