模型决策树方法研究

来源 :山西大学 | 被引量 : 5次 | 上传用户:naruto_Dragonballlll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的快速发展使得数据的采集、传输变得更加容易,数据规模也呈现指数式增长的趋势。这样庞大的数据中蕴藏着巨大的价值,所以对大数据的分析和利用便显得尤为重要。对数据进行分类是机器学习领域中的一个重要任务,比如垃圾邮件识别、图像识别、人脸识别、语音识别等。决策树(Decision Tree,DT)凭借其优秀的数据分析效率和易理解的输出结果在分类问题中得到了广泛的应用,然而因为决策树采用递归方法构建,在数据规模较大的情况下,训练效率较低,并且过度分类的决策树可能会产生过拟合现象。因此研究高效的决策树构建算法仍然具有重要的应用价值。本文针对上述问题开展研究,具体内容包括:(1)提出模型决策树方法。针对决策树递归构建造成算法时间变长、效率变低的问题,本文提出一种模型决策树算法(Model Decision Tree,MDT)。MDT算法在训练数据集上采用基尼指数生成一棵不完全决策树,然后用一个简单分类模型对其中的非纯伪叶结点(非叶结点且结点包含的样本不属于同一类)进行分类,进而生成最终的决策树。这样产生的模型决策树与原始的决策树算法相比,能够在算法精度不损失或者损失较小的情况下,提高决策树的训练效率。(2)提出模型决策森林方法。模型决策树虽然能够提高决策树算法的训练效率,但是随着非纯伪叶结点规模的增大,模型决策树的精度也在下降。因此针对模型决策树算法精度较低的问题,提出了一种模型决策森林算法(Model Decision Forest,MDF)。MDF算法将模型决策树作为基分类器,利用随机森林的思想,生成多棵模型决策树。算法首先通过旋转矩阵得到不用的样本子集,然后在这些样本子集上训练出多棵不同的模型决策树,最后将这些树通过投票的方式进行集成。在标准数据集上的实验结果表明,本文提出的模型决策森林在分类精度上明显优于模型决策树算法。本文针对经典的决策树算法在构建时采用递归方式造成训练时间长、训练效率较低的问题开展研究,提出了两种新的决策树模型,不仅可以提高构建树的效率,而且具备了一定的抗过拟合能力。本文的研究成果丰富了决策树算法的研究,具有较好的应用潜力。
其他文献
本文通过对中国优秀的跆拳道运动员腿部无氧力量训练进行前后对比,发现科学的训练能促使跆拳道运动员腿部无氧力量得到明显改善。今后腿部无氧力量训练也将在跆拳道训练中占据
AIF(apoptosis-inducing factor)是一个典型的双功能基因,其蛋白质在正常细胞内是线粒体氧化呼吸链调控分子之一,而在病理状态下AIF是非Caspase依赖的细胞程序性死亡诱导物之
油菜是一种用途广泛的农作物,不仅仅是油料作物,同时也是蛋白质作物,而且在我国无论是种植面积,还是总产量,都是居于世界首位的,但是人均占有量却并不理想。尤其是随着人口的
<正>一、案例引入2016年3月25日,杭州市富阳区湖源乡61岁的吴大伯,背着从自家承包山地上砍伐的上百斤竹子进家院时,因重心不稳不慎摔倒,经富阳中医骨伤医院诊断为跖骨骨折,打
会议
由于传统的校园路灯控制系统已经不能够满足现代校园发展的需要,为此提出并设计了基于RFID物联网技术的校园路灯智能控制系统。硬件系统主要包括终端控制器、驱动电源和光照
发酵酸肉是我国少数民族的一种特色发酵肉制品,具有酸香醇厚、风味独特、贮藏期长等特点。其通常发酵20 d后即可开坛食用,余下部分则往往继续采用密封发酵的方式进行保藏。然
以野生火棘果渣为原料,用乙醇作提取剂,研究了超声波法提取火棘果渣中黄色素的工艺条件。探讨了料液比、提取温度、超声波功率、超声时间、工作/间歇比、提取次数等因素对火
目的:本课题研究ZNRF3在胃腺癌组织中及胃癌旁组织的的表达差异,阐明其与临床病理相关指标以及预后的关联;同时通过过表达技术来研究ZNRF3在SGC-7901胃癌细胞株中的增殖、凋亡的
目的:探讨Galectin-3、MMP-2在甲状腺乳头状癌中的表达及其临床意义。方法:以免疫组化法检测Galectin-3、MMP-2在甲状腺乳头状癌、甲状腺瘤、结节性甲状腺肿及正常甲状腺组织中
油菜在我国是一种非常重要的农业经济作物,种植面积广泛,市场需求量稳定,具有较高的经济效益。基于自贡市富顺县童寺镇的油菜栽培经验,主要对油菜高产栽培技术要点进行了相关