论文部分内容阅读
随着信息数据的高速增长,数据挖掘已经成为一个活跃的研究领域,用来从海量数据中快速高效地获取有用的信息。在数据挖掘领域中关联规则挖掘和分类挖掘技术是两个重要的分支,其应用遍及社会各个领域。关联分类方法是将关联规则挖掘与分类挖掘技术相结合的新方法,其具有分类精度高、扩展性好等特点,备受很多研究人员的关注,是分类研究领域中一个十分具有研究价值和应用前景的研究方向。现有的关联分类方法主要有Eager关联分类方法和Lazy关联分类方法两种。Eager关联分类方法是针对全部的样例进行总体分析,但当类样本较少时会出现small disjunction问题,如果通过降低最小支持度和最小置信度的阈值来解决该问题,又会导致更大的挖掘开销;Lazy关联分类方法则是针对当前具体样例进行分析,其能够避免small disjunction问题,但是当待分类样本很多时,又会出现分类效率低下的问题。本文首先针对关联规则挖掘的相关理论和算法进行介绍,并分析了Eager关联分类方法和Lazy关联分类方法所存在的优点与不足,然后针对这两类算法所存在的不足,并结合各自的优点,提出了一种新的分类方法—基于混合策略的关联分类方法,并研究分析了该方法对缺失数据集的分类情况,最后通过在18个UCI数据集上所做的大量实验验证了本文方法的有效性。本文所提出的方法的主要贡献如下:①针对两类关联分类方法所存在的不足,提出了将Eager方法与Lazy方法相结合的基于混合策略的关联分类新模型。②在算法方面,采用Lazy方法解决Eager方法中存在的small disjunction问题,并针对Eager方法与规则匹配进行改进,实验结果表明本文方法与CBA算法和LAC算法相比,其分类准确率更高。③本文方法在算法整体执行效率方面较Lazy方法有很大的提高,使得关联分类方法更具有实用性。④为了验证本文方法在缺失数据集上的分类情况,本文分别针对本身有缺失的数据集和通过人为对数据集作5%、10%、15%、20%缺失处理的数据集进行了实验,实验结果表明在直接对缺失数据集进行分类时本文方法比朴素贝叶斯方法的分类准确率更高。