基于关联规则与决策树的预测方法研究及其应用

被引量 : 78次 | 上传用户:vvf022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘(mining association rule)与决策树(decision tree)是模式识别、人工智能、数据挖掘等领域的研究热点,在商业决策、医院病人诊断与治疗规律分析等领域都有着广泛的应用,但目前面临缺少基于特定数据集的扩展研究、预测精度难以进一步提高等诸多挑战。为此,本文研究了关联规则挖掘与决策树算法,重点对关联规则挖掘的扩展研究,包括生成规则数量、挖掘支持度较低的长项目集关联规则以及决策树算法中属性选择标准和多值属性多类标数据决策树的构建等方面进行了深入探讨,开展了如下创新性研究。(1)分析了支持度-置信度-兴趣度模型下的参数意义,并利用回归方法设计了多种规则条数与参数之间的方程。利用复相关系数检验了方程的拟合效果,并采用显著性检验来验证参数的系数是否显著为零。将复相关系数较大的回归方程作为拟合的最优方程。并利用冠心病数据和University of California Irvine(UCI)数据进行了验证。通过选定的最优方程,可以较好地预测给定参数下的规则的数量,同时优化参数的选择以及确定参数的选择范围。(2)提出新的关联规则挖掘模型:模糊递减支持度,置信度。在此基础上,通过分析生成的规则前件与后件的相关性,提出了3种修正模型:模糊递减支持度,置信度,兴趣度模型;模糊递减支持度,双向置信度,兴趣度模型;模糊递减支持度,重合度,兴趣度模型。根据医院采集的冠心病数据,提取中医的辨证相关因素和病人的用药数据。实验结果表明,本文提出的模型不仅验证了已有的辨证与用药规律,而且能够挖掘出多因素组合的辨证和多种药物之间的配伍规律。(3)分析了已有的基于变精度粗集的决策树分类算法,提出了两种新的属性选择方法。第一种属性选择方法,不仅考虑当前结点的属性值个数,而且考虑下层结点的变精度明确区大小,即同时考虑树的两层结点。通过新的属性选择方法,不仅克服了ID3算法中的不足,而且具有变精度粗糙集的优点。第二种属性选择方法,使用了一种综合考虑分类精度和分支数量的属性选择新标准——加权粗糙度和复杂度。同时在结点停止分裂条件中引入了支持度和置信度,提高决策树的泛化能力。为降低噪声数据和缺失值的影响,算法使用了基于匹配度的类别预测方法。通过对比实验,验证了本文提出的方法的有效性。(4)提出了3种新的多值属性和多类标数据的决策树算法。算法中,首先提出了新的孩子结点的类标集相似度计算公式来评定属性分类效果,综合考虑两个多类标集合中元素同时出现或不出现的情况,使类标集相似度的计算更加全面和准确。其次,提出了新的结点停止分裂条件,使得结点的类标集标注更加准确。最后,给出了相应的预测方法。通过与已有的算法进行比较,验证了本文提出的算法的分类效果。文中提出的分类算法更适合处理多值属性和多类标数据的分类问题。
其他文献
全球金融危机的深刻教训再一次让人类意识到金融可持续发展的重要性,也让人类不得不重新检讨金融结构、金融环境与金融功能之间的相互关系。本文在梳理现有文献的基础上,以澳大
在中国当代文学史上,女性解放的文学创作思潮以女权至上为口号,女性写作、女性文学、个人化写作、身体写作、私语化等概念铺天盖地席卷而来。然而严歌苓的写作,从某种程度上
文章先从全国高考选择对时空观念的重视和高三学生时空观念的淡薄两方面分析了高三历史复习面临的尴尬现状,明确学会时空定位的必要性;并以高考典型真题入手,明确时空观念的
进入二十世纪后期以来,世界各国都面临严重老龄化问题。企业年金在各国的养老保障体系中占有重要地位,在解决养老问题中发挥着重要作用。企业年金可以成为公共年金巨大的财政
近年来,电子商务快速发展。人们利用了低成本的互联网通讯技术在网络上直接销售商品,阿里巴巴、京东商城、当当网等新兴的电子商务网站迅速成长起来。2010年,中国电子商务交
目的:探讨羽毛球运动训练对体育院校学生体质健康的影响。方法:使用辽宁丹东体育有限公司身高、体重、肺活量、握力、立定跳远、台阶脉搏测试仪对哈尔滨体育学院2009级羽毛球
论文以临漳县第五小学为个案,运用了文献法、问卷法、访谈法和课堂观察法,对临漳县第五小学高年级语文课堂教学多样化教学方式实施策略进行研究。论文具体分六部分:绪论,介绍选题
<正>新课标修订后,学校提出将写教案变成写导学案,一开始我对此很疑惑,不知什么是导学案,原以为只是将原有的教案设计换一个说法,但经过一系列的学习后,我有了一些想法。导学
<正>近年来由于未婚先孕的增加,导致流产人群比例和次数不断增加,进而引起输卵管炎性不孕者呈上升趋势。输卵管性不孕约占不孕妇女的30%~50%,且呈逐年上升的趋势,并有可能成为
超疏水表面因其在人们的日常生活和国民生产各个领域有着巨大的应用前景而受到研究者的广泛关注。对自然界超疏水表面的研究发现,固体表面的润湿性是由材料表面的化学组成(表