决策树设计及集成技术研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:liu13948706813
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术。数据分类是数据挖掘中一个重要的内容。分类存在很多方法,其中决策树算法以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和较高的分类准确率等优点而得到广泛的应用。   然而决策树算法是不稳定的,为了提高决策树的分类性能,本文引入了集成学习技术。集成学习是一种新的机器学习范式,它使用多个分类器来解决同一个问题,能够显著地提高学习系统的泛化能力。因此从20世纪90年代开始,对集成学习理论和算法的研究成为机器学习领域的一个热点。   本文围绕决策树和集成学习理论进行了相关的研究,主要研究工作包括:   1.ID3算法是最具有影响的一种决策树生成算法。该算法根据属性的信息增益来选择分裂属性,但是易偏向于选择属性值个数较多的属性,而属性值个数多的属性却并不一定是最优的分裂属性。为了克服ID3算法的不足,将熵均值决策与样本分布决策进行了融合,本文提出了一种新的决策树构造算法MIDT(MultipleInformation Decision Tree)。实验表明,MIDT算法在分类正确率和稳定性上优于ID3算法和参数估计决策树算法。   2.单变量决策树算法造成树的规模庞大,规则复杂,不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法DTRD(Decision Tree based on Rough set and Dispersion degree)。在UCI上部分数据集的实验结果表明,我们提出的多变量决策树算法的分类性能与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。   3.集成成员分类器之间要有一定的差异性,否则集成在一起意义不大。由于差异性度量没有统一的定义,研究人员提出了多种不同的差异性度量方法。我们在分析常用的差异性度量基础上,提出了一种新的分类器差异性度量方法CDEC(Correctresults,Disagreement and Exponential Count of errorS)。综合考虑了集成中两个分类器对模式分类一致正确、分类不一致情况,同时抑制了分类器同时发生分类错误的情况,并以此为基础提出了一种新的分类器选择性集成方法。在UCI上部分数据集的实验结果表明,CDEC能有效的度量分类器之间的差异性,并能较好的用于选择性集成中成员分类器的选择过程。   4.AdaBoost算法对噪声很敏感,在训练样本具有噪声数据时,分类性能较差。我们提出了一种用于噪声数据分类的局部Boosting算法,即LAdaBoost。其主要思想是:在每次迭代过程中,计算每个训练样本的局部错误率,利用局部错误率更新样本被选作用于训练下一个分类器的概率。对一个新的样本进行分类时,考虑了该样本和它邻域内的每个训练样本的近似度。在UCI部分数据集上的实验结果表明,LAdaBoost算法比AdaBoost和Bagging算法分类更有效,且鲁棒性较好。
其他文献
电动机是各行各业应用最广泛的动力设备,随着现代科学技术的进步和自动化程度的提高,电机已被广泛应用于工业生产的各个领域。电机发生故障而停止运行,不仅会损坏电机本身,而且会影响整个系统的正常工作,甚至危及人身安全,造成巨大的经济损失。因此,实行状态检修的呼声日益高涨。在此背景下,电机故障检测与诊断技术迅速成为研究热点而不断发展。通过对电机状态的监测和分析,能及时有效地对电动机进行维修,排除故障,以实现
危险环境侦察机器人是当前机器人领域的研究热点之一,其在反恐排爆、灾难救援等多领域都具有广泛的应用前景,而微小型化将成为侦察机器人的一个重要发展趋势。本文针对一款哑
综掘迎头巷道冒顶、片帮事故频发,且掘进效率低下,采用支护设备对迎头巷道进行临时支护,然而,本文研究对象迈步式超前支护液压支架在临时支护过程中,难以保证姿势平衡和初撑力精确
风电作为可再生能源,可节约燃料成本降低污染物排放,但同时存在一定的波动性和不确定性。风电并网后,为保证电力系统的稳定性和供需平衡,常规机组等需要通过启停或调节出力来平衡风电波动性和不确定性带来的影响,本文称之为风电的平衡成本。为衡量风电并网后的真实成本,本文分析了波动成本及不确定性成本(两者共同构成平衡成本)的计算方法;为实现风电价值的区分,充分利用品质优良的风电,促进风电的健康发展,本文研究了基
语言学习的最终目的是交际,而在交际过程中。只有谈话双方遵守一定的原则,谈话才能顺利进行。合作原则和礼貌原则是语用学研究的两个重要原则,二者的关系也是语言学界的热门
随着传感技术、模式识别技术的发展,人机交互技术正由传统的“人适应计算机”向“计算机适应人”的方向发展。虽然这种新的交互方式还没有实现真正意义上的“以人为中心”的目
仿冒品牌的横行,极大地威胁着老字号品牌的生存和发展,广告能为品牌做些什么?相传上古时期,炎帝神农氏为解民之疾苦,跋山涉水,辨五谷以为民食,尝百草以医民恙。听闻太行南麓
As a key technology of the fifth generation(5G) wireless communications, sparse code multiple access(SCMA) system has quite high frequency utilization, but its
电网对火电机组负荷响应速率的要求越来越高,为满足电网要求,需要设计出良好的协调控制系统,而获得准确的被控对象模型是设计良好协调控制系统的必要条件。储能容量是协调控
激烈的市场竞争对于企业优化生产管理提出更高的要求,制造执行系统应运而生。作为制造执行系统的核心技术之一,数据校正技术提供精确可靠的数据协调结果,从而为制造执行系统的其他模块和企业相关业务层面提供数据支撑,优化生产管理过程。本文以流程工业为背景,进行数据校正的理论研究和应用工作。论文主要内容包括:1)从数据协调、显著误差检测和系统冗余性分析三方面对数据校正理论进行综述,简要介绍了制造执行系统的发展现