基于决策树的集成学习算法研究与探讨

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:sheen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来和社会的发展,各个领域都产生了大量的数据。由于许多数据不仅数据量很大,而且数据的结构日趋复杂,运用传统统计方法来处理这些数据也变得越来越困难。而作为现代统计发展一个主流方向的数据挖掘技术,特别是其中的一个重要研究领域——机器学习,由于它在分析处理数据时本身所具有的独特魅力,正日益引起人们广泛的关注。   那么,什么是机器学习?机器学习是研究计算机模拟或实现人类活动的一种学习行为,以达到获取新的知识或技能来重新组织已有的知识结构并使之不断改善自身性能的目的。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能各个领域,它主要使用归纳、综合而不是演绎的方法。   一个好的机器学习系统应该具有较强的推广与引申能力,即根据已有数据建立的模型能够很好地处理新的数据。因此,推广能力一直是机器学习关注的一个焦点。作为机器学习研究领域四大热点之一的集成学习和选择性集成学习则是利用全部或从中选择部分个体学习器进行各种方式的组合来解决同一个问题。如果把单个基学习器比作一个决策者,集成学习和选择性集成学习方法就相当于全部和部分决策者对同一个问题共同进行一项决策,它们可以显著地提高学习系统的推广能力。由于集成学习特别是选择性集成学习在解决问题时具有的独特优点,从20世纪90年代开始,对其理论和算法的研究从未停止过。尤其是最近几年,在机器学习、神经网络、统计学等领域的很多研究者都投入到该领域的研究中,使得该领域成为了一个相当活跃的研究热点。   本文即是从集成学习和选择性集成学习研究出发,对它们的历史、发展以及最新研究作了较为详细的阐述和系统的归纳整理,并在此基础之上,设计了6种新的集成学习算法。笔者分别将其称为:DS-Bagging Trees、SC-Bagging Trees、SG-Bagging Trees、SFG-Bagging Trees、SE-BagBoosting Trees和ID-BaggingTrees。同时,笔者分别从理论思想和实验数据运行上验证了这几种算法的有效性及适用性。具体研究内容包括以下几个方面:   1.在进行集成学习研究之前,需要理清构成集成学习的两个最重要的组成部分:Bootstrap技术和个体学习器(基学习器)的概念和相关知识。因为本文所采用的基学习器的类型为决策树中的一种——分类回归树,而集成学习又同Bootstrap技术紧密相关,所以在第2章中,主要对Bootstrap技术和以CART算法为例对决策树的相关内容做了重点介绍与阐述。   2.追踪介绍了目前国内外关于集成学习研究的已有成果及最新研究进展。特别是对一些经典的集成学习算法,如:Boosting、Bagging、Arcing、RandomForest等算法的思想及理论作了较为详细的阐述和系统的归纳,并着重介绍了“选择性集成”的理论思想及应用。   3.针对于满足独立同分布的截面数据,笔者提出了6种集成学习算法,分别将它们称为:DS-Bagging Trees算法、SC-Bagging Trees算法、SG-Bagging Trees算法、SFG-Bagging Trees算法、SE-BagBoosting Trees算法和ID-Bagging Trees算法。以上6种集成学习算法的基学习器均采用分类回归树,但在选择集成时,由于选择集成的方法不同,在处理实际问题时各有优劣。具体来说,DS-BaggingTrees算法和SC-Bagging Trees算法分别是基于差异选择思想的和变相似度聚类技术的快速选择性集成学习算法;SG-Bagging Trees算法是一种改进的基于贪婪算法的选择性集成学习算法,它在汲取贪婪算法运行效率高优点的同时也克服了贪婪算法搜索问题空间容易陷入局部最优的缺点;SFG-Bagging Trees算法是一种改进的基于遗传算法的选择性集成学习算法,能够提高遗传算法的运行效率;SE-BagBoosting Trees算法是将Boosting算法和Bagging算法进行组合后再进行集成或选择性集成研究;最后一种ID-Bagging Trees算法是笔者提出的专门针对“病态数据”的集成学习算法,又可细分为ID1-Bagging Trees和ID2-BaggingTrees两种算法。理论探讨和实验结果表明本文提出的这几种算法与传统集成学习方法相比,具有一定的优越性,并且运行的效率也得到了较大的提高。   4.以一个大型商业客户营销数据03DMEF为研究对象,分别从传统统计学和现代统计学(即机器学习和数据挖掘等)两个角度出发,对该数据集进行了较为详细的分析和研究,试图挖掘出客户购物的规律与习惯以及影响因素,为营销公司下一次开展促销活动提供一些有益的指导意见,并且着重考察笔者提出的这几种集成学习算法运用于该数据集研究运行的实际效果。
其他文献
期刊
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
唐宋这两个时期的人物画各有特点,这种特点既相似、又有别,本文旨在从社会风貌的角度入手来探究形成这种异同的成因。 Tang and Song characters in these two periods have
试验对温室番茄开花坐果期不同灌溉上限进行处理,结果表明:在灌溉上限为土壤相对含水量85%时,茎粗增长量、根系活力、净光合速率较大,土壤温度下降较小,蒸腾速率相对较低,水分利用效率
培养料栽培杏鲍菇后的菌渣再用于栽培草菇,是目前食用菌栽培基质循环利用的重要方式之一。本试验对杏鲍菇栽培前后以及草菇栽培前后的培养料进行取样分析,检测培养料中总碳、
本论文在气候变化不断加剧和国际碳排放约束问题日益突出的背景下,从经济增长与碳排放关系的内在关联性、国际经验借鉴、广义技术进步与二氧化碳排放和中国省际、工业行业全要
期刊
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊