一种基于密度的改进决策树算法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:jaeiris
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是机器学习领域的重要研究内容,分类是指对已知类别的数据集进行高度抽象,提取规则,构建预测模型,从而使用该模型对未知类别的样本数据进行归类。决策树是各种分类算法中最常见的算法,它相对于其他算法模式简单、分类速度快、准确率高,且生成的规则可以用语意表示,具有更强的可解释性。然而实际数据集中常常伴随着噪声或者孤立点,这会使决策树出现只包含极少量样本的叶子节点,产生不必要的分支,进而使决策树规模变大。针对这一问题,本文提出了基于密度的决策树构建思想,即在决策树的构建过程中将划分区域内的样本密度作为一个衡量标准,使生成的决策树中不存在或者仅少量存在上述不必要分支,精简了决策树规模,同时在一定程度上避免了过拟合现象,提高了预测精度。同时,本文将基于密度的构建思想推广到了以RandomForest、Bagging和AdaBoost为代表的集成算法中,这三种算法虽然相较于单个决策树已经可以表现出较强的分类能力,但是同样面临基分类器在训练结果中存在不必要分支的问题,而基于密度的集成学习算法则表现出了更强的分类能力,可以明显缩小建树规模,提高分类准确性。本文在多组UCI数据集上进行了多次实验,将本文方法与传统方法在树的平均节点个数和分类准确性上进行了对比。实验表明,本文方法可以普遍减小决策树节点个数,同时降低过拟合程度,提高预测准确性,使得由本文方法构建的分类器具有更佳的分类性能,而且结构简单,语义明了,泛化能力强。
其他文献
板面颜色的均匀性和白化度是覆膜竹帘胶合板表面质量的重要指标,它们直接影响到产品的使用效果和使用寿命。在试验基础上分析了影响板面颜色和白化度的因素,提出了提高板面质量
[目的]比较不同方法提取的香茅草挥发油化学成分。[方法]采用超临界CO2流体萃取法(SCDE)及水蒸气蒸馏法(SD)从香茅草中提取挥发油,用气相色谱-质谱联用技术(GC-MS)对其化学成分进行
<正>现行的人教版初中语文教材中,课文共有180篇,其中出现过女性形象的课文26篇,占总篇目的14.4%,而刻画、塑造了鲜明女性形象的课文就有21篇,占总篇目的11.7%;人教版高中教
仿拟在广告语中发挥积极作用,得到广泛应用。广告语中的仿拟类型主要有四类,即仿词、仿语、仿句和仿篇。广告语应用仿拟可以形象生动地传达产品信息,并且具有推陈出新、有效
随着社会的发展,越来越多人都想要成为坐在办公室吹空调的小白领,以至于我国已形成一线操作工供不应求的境地。21世纪是知识经济时代,也是人才主权时代,人才的流动导致了一线操作工离职的严重性。这无疑会给企业带来不利的影响,一方面,一线操作工流动率高会降低企业的生产率;另一方面,会降低企业员工的工作积极性。为探讨解决宿迁市用工单位面临的一线操作工薪酬方面的种种问题,文章以宿迁市用工单位为基础,研究宿迁市一
小学语文教学内容中,汉语拼音是重点内容之一,是学生学习字词和语句的基础,因此采取有效措施提升汉语拼音教学质量势在必行。近年来,在新课程改革不断深入的背景下,小学语文
目的:建立人的可溶性PD-1(sPD-1)酶标检测试剂盒并探讨其检测的临床意义。方法:在已成功获得两株识别位点不同的鼠抗人PD-1分子单克隆抗体(1F2和5F10)的基础上,采用该室制备
ID3算法是示例学习中建立决策树的一种重要的方法.介绍了ID3决策树算法的基本思想,讨论了 ID3决策树算法中的难点和不足,结合实例给出了利用信息增益度法来改进ID3算法的详细
研究采用内隐记忆加工分离程序,考察了不同性别类型大学生对积极品质词、消极品质词、中性品质词的内隐与外显记忆成绩。结果表明:大学生对各种类型的品质形容词有意识提取高于
缉毒剧《破冰行动》通过超越观众感知和接受能力的大尺度情节,艺术性地展现了正义与邪恶两股力量的斗争冲突与彼此压制。而反腐和宗族元素搭配多类型的情感话语,又形成了多声