论文部分内容阅读
数据挖掘技术是人工智能和机器学习的重要研究领域。目前,相关挖掘方法的研究主要集中在特征提取、属性约简、算法效率、分类精度、特定领域背景下的相关方法改进及应用等多个方面。在众多的数据挖掘方法中,关联规则挖掘方法和决策树分类方法具有算法计算量小、运行时间短、生成的结果易于理解等优点,因此在理论研究及实际应用方面拥有广阔的发展前景。为此,本文通过对现有相关算法的深入分析和研究,提出了相应的改进算法,并采用UCI数据进行对比测试,取得了较好的实验效果。其中,主要研究工作包括如下三个方面:(1)传统的频繁项集挖掘算法会生成大量的短模式集,但是实际上用户真正感兴趣是长模式集生成的规则。因此,本文提出了一种基于前后件约束和长度递减支持度约束的频繁闭项集生成算法(ACLCMiner)。实验证明该算法极大地减少了频繁项集的生成数量并提高了算法效率。(2)现有的决策树算法存在属性选择困难、易受噪声数据影响和泛化能力低等不足。而基于变精度粗糙集构建的决策树算法具有较好的分类效果,且能够容忍噪声数据。为此,本文分析了现有的基于变精度粗糙集的决策树算法,针对其中存在的不足,提出了一种综合考虑了当前结点的加权近似精度、信息增益和属性取值个数的属性选择标准——属性重要度。基于该标准的决策树算法CGVPRSDT能够有效提高分类准确率。(3)针对现有的多值属性多类标决策树分类算法的不足,本文提出了新的多值属性和多类标数据的决策树算法。算法中提出了一种基于非噪声类标集的相似度计算公式,该公式综合考虑了类标集的相似性以及噪声数据的影响。另外,算法改进了原有的结点停止分裂条件。实验证明改进的多值属性多类标决策树算法具有较高的分类精度和抗噪声能力。