基于边界点原理和学习矢量量化的改进C4.5决策树算法研究

来源 :华中科技大学 | 被引量 : 1次 | 上传用户:q6748799
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据的时代背景下,随着信息化技术的不断进步,各个领域数据的采集规模也在迅速发展。这些数据作为一种资源,需要通过一些技术手段去分析解读其背后蕴含的规律,才能体现其价值。分类作为数据挖掘中的一项重要任务,目标是刻画数据类别特征,预测未知数据的类别以辅助决策。在分类任务中,连续型的数值数据是一种常见的数据类型,C4.5决策树作为处理连续型数据的一种常用算法,因其在分类准确率和可解释性上的优秀表现,在各领域被广泛应用。但同时其离散化方法也存在缺陷,容易导致算法效率低,分类结果不理想的情况。本文针对C4.5算法离散化方法的不足,提出了两种改进算法。第一种是基于边界点原理:最佳分割点总出现在边界点处,进行连续属性离散化,通过减少候选分割点以提升算法效率;第二种是在第一步改进的基础上,利用学习矢量量化(LVQ)对数据进行聚类,添加类别间的近似边界点作为候选分割点,充分利用数据信息,使候选分割点的选取更加合理。本文将改进后的算法与原算法在UCI的数据集上进行了对比试验,实验结果证明基于边界点原理改进的C4.5算法,在损失小部分分类正确率的前提下,大大提升了算法效率。而加入学习矢量量化改进的C4.5算法,充分利用了数据的内部结构信息,获得了分类正确率的提升。最后,本文利用网格搜索法对学习矢量量化的初始参数设置展开了研究讨论,得出结论:参数选取不存在普适规律,需要按照参数调节的具体步骤进行最优选择。
其他文献
目的横纹肌肉瘤(rhabdomyosarcoma,RMS)是常见于儿童的一种软组织恶性肿瘤,起源于间叶组织。以PAX3/7-FOXO1等融合蛋白为特征,将RMS分为融合基因阳性(fusion-positive,FPRMS)和融合基因阴性(fusion-negative,FNRMS)横纹肌肉瘤,而融合基因阳性与预后差有关。尽管FNRMS的预后良好,但对于患病的儿童及青少年来说,传统的化疗、放疗对患儿
学位
等离子体是由大量带电粒子组成的非凝聚系统,当等离子体的运动和电场的运动紧密耦合时,存在非常丰富的集合效应和集体运动模式,我们可以用VlasovPoisson方程来描述等离子体的演化规律。本篇文章主要研究:在二维情况下,两组分的Vlasov-Poisson系统的无限质量问题。首先,我们介绍经典的Vlasov-Poisson系统的研究背景以及无限质量问题的研究现状。其次,我们给出本篇论文的核心结论和后
学位
目的:利用高分子聚合物负载化疗药物构建药物递送系统可实现肿瘤局部化疗。本研究拟通过静电纺丝制备负载化疗药物的纳米缓释纤维药膜并探究其在体内外的抗肿瘤效果。方法:静电纺丝技术制备共载顺铂和吉西他滨的聚乳酸纤维药膜;应用扫描电镜观察纤维膜表征;采用高效液相色谱法测定载药纤维体外释放行为。以人前列腺癌细胞DU145为研究对象,以流式细胞术及Western Blot实验检测DU145细胞接受不同处理后细胞
学位
随着大数据的发展,数据分析、数据挖掘等创新技术已经在众多学科领域中得到了广泛运用。聚类分析是我们在实践中运用非常多的一种无监督数据挖掘类算法。而k均值聚类算法是日常中使用频率最多的聚类型算法,但是k均值聚类算法也同样有其缺点:首先算法很可能陷入局部最优,难以实现想要的聚类效果,初始聚类中心的选取肯定会影响到聚类的最终结果,不一样的初始中心肯定会是不一样的呈现,可能达不到理想的聚类结果;其次k值的选
学位
随着航天技术与遥感技术的发展,遥感卫星影像数据越来越容易获得。遥感影像在城市规划、灾害评估、土地利用、交通检测、军事安全等方面都有着广泛的应用。为了高效的利用大量影像数据,需先对影像进行处理,提取关键信息。其中一项关键技术,就是图像语义分割技术,因此研究遥感影像语义分割算法有重大的应用价值。本文基于U-Net等通用语义分割模型,并进行适当的改进,将高性能的图像语义分割算法迁移到遥感影像数据集上,在
学位
数据不平衡问题给分类问题带来了挑战,特别是对少数类样本的预测。比如,在客户流失预测中,我们的目的是定位即将流失的客户从而采取措施挽留客户,但是数据样本中流失客户数量远少于未流失客户,这使分类预测中模型倾斜于多数类样本,忽视对少数类样本的正确预测,这与我们关注的目标群体相违背,因此减轻数据不平衡问题对实际应用有很大的意义。数据合成是增加少数类样本数量的有效手段,他有效避免了随机采样造成的信息重复或信
学位
【背景】烟雾病是一种以颈内动脉末端、大脑前和大脑中动脉慢性进行性狭窄或闭塞为特征,并继发颅底异常侧枝血管网形成的血管性疾病。颅内外血流重建术是目前治疗烟雾病患者神经功能损伤和预防病情恶化的首选治疗方式。目前常用的血流重建方法包括直接搭桥、间接搭桥和联合搭桥,其中以联合搭桥手术最为普及。尽管颅内外血流重建手术方式已经日益成熟,但仍有部分患者在术后围手术期出现各类并发症,包括术后新发缺血、脑梗塞、脑出
学位
近年来,无论是传统金融行业还是新兴互联网金融,其信用服务都呈现出蓬勃发展的趋势。对于这些机构来说,建立具有可解释性并且高效的信用评分模型从而有效的规避风险是非常有必要的。随着大数据时代的到来以及深度学习研究的深入,很多学者提出比传统线性判别方法和Logistic回归表现更好的模型,但这些模型的准确性是以牺牲可解释性为代价获得的,使得金融人员难以从业务方面解释模型的决策。从提升模型的可解释性及分类精
学位
目的:研究H2AFY基因在肝细胞癌(HCC)中的表达和预后价值,探索其在HCC中的功能网络,及其对HCC细胞增殖、迁移、周期和凋亡等生物学行为的影响,并探讨其相关的信号通路。方法:(1)利用TIMER、Oncomine和HCCDB在线数据库研究H2AFY基因在HCC组织和正常肝组织中的表达差异情况;从TCGA和ICGC数据库官网分别下载371例和232例HCC患者的RNA-seq转录谱数据和相应的
学位
大数据时代的到来与人工智能的发展促进了各个行业的智能化变革,在司法实践领域中,专业要求高、案件处理工作量大等情况成为了加速司法智能化发展的现实因素,而公开可查、数量庞大的裁判文书又为司法智能化提供了即专业又可观的研究数据,这些法律文书中有潜藏着许多值得挖掘的信息。因此基于裁判文书等法律文书的量刑预测等研究由此而起。在司法智能化的背景下,本文将研究对象限定在刑事案件中的故意伤害罪上,以该单一罪名案例
学位