决策树优化与关联规则挖掘算法研究

被引量 : 12次 | 上传用户:a596298067
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是人工智能和机器学习的重要研究领域。目前,相关挖掘方法的研究主要集中在特征提取、属性约简、算法效率、分类精度、特定领域背景下的相关方法改进及应用等多个方面。在众多的数据挖掘方法中,关联规则挖掘方法和决策树分类方法具有算法计算量小、运行时间短、生成的结果易于理解等优点,因此在理论研究及实际应用方面拥有广阔的发展前景。为此,本文通过对现有相关算法的深入分析和研究,提出了相应的改进算法,并采用UCI数据进行对比测试,取得了较好的实验效果。其中,主要研究工作包括如下三个方面:(1)传统的频繁项集挖掘算法会生成大量的短模式集,但是实际上用户真正感兴趣是长模式集生成的规则。因此,本文提出了一种基于前后件约束和长度递减支持度约束的频繁闭项集生成算法(ACLCMiner)。实验证明该算法极大地减少了频繁项集的生成数量并提高了算法效率。(2)现有的决策树算法存在属性选择困难、易受噪声数据影响和泛化能力低等不足。而基于变精度粗糙集构建的决策树算法具有较好的分类效果,且能够容忍噪声数据。为此,本文分析了现有的基于变精度粗糙集的决策树算法,针对其中存在的不足,提出了一种综合考虑了当前结点的加权近似精度、信息增益和属性取值个数的属性选择标准——属性重要度。基于该标准的决策树算法CGVPRSDT能够有效提高分类准确率。(3)针对现有的多值属性多类标决策树分类算法的不足,本文提出了新的多值属性和多类标数据的决策树算法。算法中提出了一种基于非噪声类标集的相似度计算公式,该公式综合考虑了类标集的相似性以及噪声数据的影响。另外,算法改进了原有的结点停止分裂条件。实验证明改进的多值属性多类标决策树算法具有较高的分类精度和抗噪声能力。
其他文献
布依族社区由于经济落后,老年人文化水平低下,绝大多数都有自我养老,负担过重,缺乏感情慰藉等特点,必须要大力发展布依族社区经济,完善机构设施等才能解决布依族养老问题。布
近年来,跨国并购作为国际直接投资的重要方式,受到了中国企业的青睐。然而,中国企业大规模并购中却不乏失败之举,其主要原因是不能很好地对目标企业进行系统的评价。本文认为
石家庄天冰冷饮公司(以下简称ST冷饮公司)是一家中型冷饮公司。隶属于河南天冰冷饮公司。天冰冷饮公司创建于1986年,公司下属河南天冰,江苏天冰、石家庄天冰、洛阳天冰、武汉
毛泽东军事思想,是以毛泽东为代表的中国共产党人关于中国革命战争、人民军队和国防建设以及军事领域一般规律问题的科学理论体系。它是毛泽东思想的重要组成部分。是马克思
随着社会的发展和人民生活水平的不断提高,休闲成为城市居民生活不可或缺的组成部分。目前,我国城镇居民法定节假日达到了114天,这意味着国民一年中有将近三分之一的时间可以
公路收费经营权在会计实务中基本作为企业的无形资产核算,对于无形资产的摊销方法现有准则并没有明确采用哪些方法,实务中采用的直线法与工作量法适用性如何?本文在分析公路
随着数字信号处理技术和大规模集成电路的飞速发展以及软件无线电技术的广泛应用,中频全数字解调技术得到了进一步的发展,在无线通信中得到了广泛应用。论文简要介绍了QPSK数
文章概述了知识管理的定义、性质、内容、特点和目标 ,知识管理与信息管理的区别 ,知识管理的实施方法等问题的研究状况。
数控机床的发展水平对于我国重工业的发展起着至关重要的作用,对数控机床在机检测的研究有着非常重要的意义。目前,国内机床在机检测技术的研究与应用与国外还存在较大差距。
GB/T 228-2002规定了用直接法和移位法测定断后伸长率,直接法测得的断后伸长率随断口所在的位置而变化,不具备唯一性;移位法弥补了直接法的不足,但是比较麻烦。笔者提出了一