经典集成学习算法的有效性解释及算法改进研究

来源 :南京航空航天大学 | 被引量 : 9次 | 上传用户:LUEYONGS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何有效地对未知类别的新样例进行分类是数据挖掘领域中一项非常重要的研究课题。集成学习作为解决这一问题的一种强有力的技术自提出以来受到了广泛的关注和研究,并在实际应用中取得了极大的成功。集成学习已发展成数据挖掘领域中的一个重要研究分支。目前学者们已经提出了一些经典的集成学习算法,如Bagging、AdaBoost、DECORATE等,并取得了一些重要的研究成果。然而,对于这些集成学习算法的有效性,还不存在一种对其进行充分解释的较为通用的理论工具;此外,在特定训练环境下某些集成学习算法的性能还不够理想。本文致力于解决这些问题,具体的,可将本文的主要贡献总结如下。(1)由于不同的集成学习算法是学者们从不同角度提出的,自然的它们具有不同的工作机理。因此,若能从理论上对现有的经典集成学习算法的有效性进行分析,可使人们对这些算法产生更深刻的理解,更重要的是有助于发现一种能对集成学习算法有效性进行解释的较为通用的理论工具,从而为设计新的有效集成学习算法提供一定的理论指导。受margin理论所启发,本文尝试使用该理论对Bagging、AdaBoost和DECORATE这三种最有代表性的经典集成学习算法的有效性进行实证分析和比较。实验结果表明,对于探讨的每种集成学习算法,它在训练集上生成的margin分布越好,则其取得的测试精度就越高。也就是说,margin理论能够很好地解释这些算法的有效性。因此可得出结论:margin理论是对集成学习算法的有效性进行解释的一种较为通用的理论工具。基于这一发现,本文建议将margin分布作为设计新的集成学习算法时的优化目标。(2)为了得到理想的泛化性能,集成学习算法通常生成大量的基分类器来构成集成系统。然而在得到的集成系统中,可能存在一些精度较低或者相似的分类器,这不仅会增加集成系统的存储和计算开销而且会降低它的分类效率和泛化性能。为解决这一问题,本文提出了一种基于平均margin排序的基分类器选择方法,以便从初始集成系统中选择一个近似最优的分类器子集。该方法使用平均margin作为性能评价度量来对初始集成中个体分类器的性能进行评估。另外,本文还将平均margin与accuracy和diversity这两种常用的性能评价度量进行了全面比较。实验结果表明,本文的基分类器选择方法能有效地提高初始集成系统的分类效率和泛化性能,并且平均margin是一种比accuracy和diversity更好的性能评价度量。这对改善数据挖掘中分类任务的性能具有重要的理论和实践意义。(3)在一些多分类问题中,训练集有时会包含很多类标签被错误标记的噪声样例。集成学习算法AdaBoost对这些误标记噪声样例非常敏感并且容易产生过度拟合,从而对误标记噪声样例不具有鲁棒性。针对这一问题,本文提出了一种鲁棒的误标记噪声数据多分类方法Rob_MulAda。在Rob_MulAda中,形式地设计了一种基于噪声检测的多分类损失函数,并通过证明一个命题求解了其最小化问题;另外,给出了一种新的权值更新方式来克服误标记噪声样例的影响。在不同的噪声水平下将Rob_MulAda与其它几种相关方法进行了详细的实验比较,实验结果表明Rob_MulAda能够很好地改善AdaBoost在多分类问题中对误标记噪声样例的鲁棒性。(4)很多实际应用中收集的训练集往往具有不平衡的类分布。由于大多数基分类器学习算法被提出时都基于这一假设:训练集应该具有大体平衡的类分布,因此它们在类不平衡训练集上生成的分类器通常具有较差的泛化性能,尤其是对少数类样例不能有效地进行分类。鉴于集成学习在提高个体分类器性能方面的优势,本文尝试利用集成学习来提高分类器在类不平衡训练环境下的泛化性能,提出了一种基于进化欠抽样的Bagging集成方法EUS-Bag。在EUSBag中,为了使进化欠抽样EUS更加适合Bagging框架、以生成一些具有良好性能且多样化的个体分类器,本文设计了一种考虑了三个因素的新适应度函数,从而更好地将EUS和Bagging的优势进行结合。在类不平衡数据集上进行的比较实验表明,EUS-Bag能够有效地提高分类器对类不平衡数据的分类性能。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
人才培养是大学定位的逻辑起点,明确应用型本科人才的主要特征是新建应用型大学办学定位的基本前提;新建应用型大学办学定位要有适度超前的战略意识,要重视科学研究在学校发
胎儿时期卵巢囊肿主要因激素作用而形成,较小的囊肿可于产后自行消失;较大的囊肿或复杂囊肿多需实施手术进行切除。胎儿卵巢囊肿有其特有的磁共振成像(MRI)表现,因此掌握胎儿
在机器学习中,通常根据是否利用有标记样本进行学习将其分为有监督学习和无监督学习.作为机器学习的重要组成部分,前馈神经网络在模式识别、函数逼近等方面具有重要应用.对有
随着我国科学技术的飞速发展,我国市场经济体制不断健全,化学分析检测质量控制工作在材料应用及研究的重要性日益凸显。化学分析检测中影响质量的因素有很多,其中任何一个环
文章从分析基础英语教学的相对弱化的新的形势着手,阐述了加强大学英语教学的必要性。在加强大学英语教学的同时,为了保质保量完成大学英语教学目标内容,提出了加强英语实践
目的探讨庇护性就业形式的职业治疗对慢性精神分裂症患者症状及功能改善的评价。方法选取2017年8月~12月我院收治的44例慢性精神分裂症患者,随机分为干预组和对照组,每组22例
本文对依迪丝·汉密尔顿所著的《希腊的回声》一书中提到的“自由”予以定义,并引发思考。笔者仅对该书的第一章内容作发散性的联想,通过古希腊的悲剧,以索福克勒斯所创
"七·一"前夕,中共哈尔滨市委《学理论》杂志社举办了纪念建党80周年老党员、劳动模范代表座谈会。会上,老党员、劳模代表深情回顾了党的丰功伟绩和在党的培养教育下成长
目的比较耳内镜下鼓膜修补术与显微镜下鼓膜修补术的临床应用效果。方法选取2016年12月至2018年1月我院收治的88例慢性化脓性中耳炎后遗症(鼓膜穿孔)患者为研究对象,按照随机