论文部分内容阅读
关联规则挖掘(mining association rule)与决策树(decision tree)是模式识别、人工智能、数据挖掘等领域的研究热点,在商业决策、医院病人诊断与治疗规律分析等领域都有着广泛的应用,但目前面临缺少基于特定数据集的扩展研究、预测精度难以进一步提高等诸多挑战。为此,本文研究了关联规则挖掘与决策树算法,重点对关联规则挖掘的扩展研究,包括生成规则数量、挖掘支持度较低的长项目集关联规则以及决策树算法中属性选择标准和多值属性多类标数据决策树的构建等方面进行了深入探讨,开展了如下创新性研究。(1)分析了支持度-置信度-兴趣度模型下的参数意义,并利用回归方法设计了多种规则条数与参数之间的方程。利用复相关系数检验了方程的拟合效果,并采用显著性检验来验证参数的系数是否显著为零。将复相关系数较大的回归方程作为拟合的最优方程。并利用冠心病数据和University of California Irvine(UCI)数据进行了验证。通过选定的最优方程,可以较好地预测给定参数下的规则的数量,同时优化参数的选择以及确定参数的选择范围。(2)提出新的关联规则挖掘模型:模糊递减支持度,置信度。在此基础上,通过分析生成的规则前件与后件的相关性,提出了3种修正模型:模糊递减支持度,置信度,兴趣度模型;模糊递减支持度,双向置信度,兴趣度模型;模糊递减支持度,重合度,兴趣度模型。根据医院采集的冠心病数据,提取中医的辨证相关因素和病人的用药数据。实验结果表明,本文提出的模型不仅验证了已有的辨证与用药规律,而且能够挖掘出多因素组合的辨证和多种药物之间的配伍规律。(3)分析了已有的基于变精度粗集的决策树分类算法,提出了两种新的属性选择方法。第一种属性选择方法,不仅考虑当前结点的属性值个数,而且考虑下层结点的变精度明确区大小,即同时考虑树的两层结点。通过新的属性选择方法,不仅克服了ID3算法中的不足,而且具有变精度粗糙集的优点。第二种属性选择方法,使用了一种综合考虑分类精度和分支数量的属性选择新标准——加权粗糙度和复杂度。同时在结点停止分裂条件中引入了支持度和置信度,提高决策树的泛化能力。为降低噪声数据和缺失值的影响,算法使用了基于匹配度的类别预测方法。通过对比实验,验证了本文提出的方法的有效性。(4)提出了3种新的多值属性和多类标数据的决策树算法。算法中,首先提出了新的孩子结点的类标集相似度计算公式来评定属性分类效果,综合考虑两个多类标集合中元素同时出现或不出现的情况,使类标集相似度的计算更加全面和准确。其次,提出了新的结点停止分裂条件,使得结点的类标集标注更加准确。最后,给出了相应的预测方法。通过与已有的算法进行比较,验证了本文提出的算法的分类效果。文中提出的分类算法更适合处理多值属性和多类标数据的分类问题。