基于关联规则的决策树算法改进及应用

被引量 : 0次 | 上传用户:wudouyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类挖掘在商业等领域中的广泛应用使它成为数据挖掘中最活跃的研究方向。其中,决策树以其出色的数据分析效率、直观易懂等特点,倍受青睐。现有的决策树主要是集中在利用各种启发信息来度量属性的重要程度,或利用各种策略对决策树进行剪枝。但是很多情况下,数据所包含的原始属性或者存在冗余,或者涵盖的信息量不足,这无疑影响了决策树的构建。本文以原始数据涵盖信息量不足为出发点,利用经典的关联规则算法Apriori,首先生成新的属性,然后借鉴信息增益的思想,并利用关联规则挖掘的参数支持度和可信度,提出了新属性的评价标准,找出高可信度近似精确规则。将新属性加入到数据的原始属性中,再利用决策树C4.5算法进行分类预测,从而提高了算法预测的准确率。但Apriori算法存在验证候选频繁k_项集时需要对整个数据库进行扫描,非常耗时的缺陷;同时决策树C4.5算法在连续值属性离散化过程中,需要对所有的划分进行测试,也占用了较多的时间。为了避免在提高算法准确率的同时牺牲了算法的效率。本文基于Fayyad和Irani的证明:无论用于学习的数据集有多少种类别,其类别的分布如何,连续值属性的最佳划分点总是在边界点处;对决策树C4.5算法的连续值属性离散化过程进行了改进。通过UCI数据库中包含连续值属性较多的15个数据库中数据的测试实验,从算法复杂度、算法效率、算法准确性三个方面对C4.5算法和改进的C4.5算法进行了比较,证实改进的C4.5算法降低了算法的复杂度,提高了算法的准确性,且没有牺牲算法的效率。本文最后将改进的C4.5算法应用于航空业客户流失预测中,通过与C4.5结果的比较,进一步说明改进的C4.5算法具有很高的实用价值。
其他文献
20世纪90年代以来,世界各国相继发展出了自己的自行高炮武器系统,其中大部分都能够实现自动化供弹,自动供弹问题已经成为衡量高炮武器系统自动化水平一个重要依据。本文主要
本文旨在通过对表演者权主体理论进行系统的研究,总结前人的研究成果和外国的立法经验的基础上,构建我国表演者权主体的理论体系,力图使人们对表演者权的归属与行使有清楚的
近年来,随着居民可支配收入的大幅度提高,我国商业银行的个人理财业务市场急剧扩大。与此同时,各家银行,包括国有大行等都纷纷杀入个人理财业务市场,竞争强度逐渐提升。广发
在玉米消费持续增长,玉米种植面积增加有限的形势下,要保障玉米的供需平衡,只能依靠进一步提高单产来实现。超高产技术的研究对进一步提升玉米单产水平具有重要的推动作用。2
在市场经济蓬勃发展的大环境下,深化国有企业改革、完善现代企业制度一直是我国重要且紧迫的任务。然而旧体制给国企遗留下诸多问题,国有企业管理层激励方式较单一,缺乏长期
欧洲法院通过一系列的案件特别是Van Gend en Loos案和Costa案的判决,建立了欧盟法中具有里程碑意义的两大宪法原则:直接效力原则和至高效力原则。这两个原则在法律上直接造
随着网络技术和信息技术的快速发展,我国进入新媒体时代,期刊与新媒体融合是科技期刊未来发展的重要趋势,这对科技期刊编辑提出了更高的要求。当前阶段,科技期刊编辑工作开展
经济发展的过程同时也是产业结构不断调整升级的过程。因此,各国学者一直将如何促进产业结构的升级作为研究的重要领域。产业结构的影响因素有很多,比如技术进步、消费需求、
为了研究盾构液压推进系统控制特性,设计了一种盾构推进系统模拟平台。从机械结构、液压系统两方面详细分析了实验台的设计过程,并结合实验台控制特性的要求进行了实验分析。
针对室内外GPS/WiFi信号交织区定位模式反复切换、定位精度低的问题,提出一种基于灰色预测模型的融合定位方法。通过构造GM(1,1)模型得到当前定位模式下物体的灰色预测轨迹,