基于条件互信息的集成学习的研究与应用

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:hawk327
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习是当今机器学习的四大研究方向之首,随着越来越多的学者的介入研究,集成学习经典算法族Bagging和Boosting已经研究的比较深入,因此需要从其他的角度来研究性能更好的集成算法。选择性集成就是一种特殊的集成学习的范式。它利用优化选择出个体学习器中的部分差异性大,泛化能力强的学习器加以集成,得到了比以往集成所有个体学习器更好的性能。目前集成学习已经应用到很多领域,比如行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等领域。本文详细分析了集成学习的有关理论和算法,集成学习生效的原因和优势,并指出了集成学习的不足和研究方向,然后介绍了选择性集成学习的理论基础和构造算法,最后做了以下两个主要的工作。首先,介绍了信息论中条件互信息的理论,并将它与集成学习相结合,构造出一个利用条件互信息来选择优化个体学习器的算法CMISEN(Conditional Mutual Information Based Selective Ensemble),该算法在选择个体学习器的过程中考虑了他们之间的影响,能防止选入一些冗余的个体学习器,使个体学习之间的差异性更大。最后将它在Weka平台下实现,通过与Bagging和MISEN(Mutual Information Based Selective Ensemble)算法在UCI数据集上比较,证明了该算法在预测准确性上优于前两种方法。其次,感官评估也是目前研究的热点内容之一,目前在烟草行业已经运用了很多计算机智能的方法来解决问题,并取得很好的成果。但是在机器学习方面仍是利用传统的单一学习器的方法。单一的模型的预测不是很稳定,可能对这批数据集预测效果好,对另一批数据的预测效果就差,而且如果过拟合的话往往导致泛化能力的下降,所以利用集成学习的方法会降低这种过拟合而导致泛化能力下降的风险。因此本文将集成学习算法用于烟叶感官评估,通过实验证明,集成学习在烟叶感官评估方面确实要优于传统的单一的模型。最后提出了以后的工作展望,对集成学习的进一步发展提出了自己的看法。
其他文献
本文在研究国内外OA(Office Automation)系统的基础上,借鉴了发达国家在OA系统开发中的先进技术和理念,结合广西象州电力有限公司特有的管理体制,设计并实现了一个基于J2EE(Java2 P
我们实验室应中国海洋大学信息科技处要求开发的高校科研信息管理系统是一套典型的信息管理系统。且由于科研项目流程本身的复杂性,这套系统的业务需求上也较一般的信息管理
陶瓷材料的组成与结构决定着材料的性能,陶瓷配方的优化对于生产各种品质和质地的陶瓷制品有着重要的意义,是陶瓷生产工艺过程中的一个最为重要的环节。由于陶瓷材料的化学成分
一些对温度敏感的特殊产品如细菌,血清,血液,血浆,疫苗,微生物等,在保存、运输和使用的各个环节要持续较低的温度范围,这一保冷系统称为冷链系统。由于对温度敏感,从制造部门
信息系统作为当代企业提升自身经济与管理效益的有效工具,已经渗透到当前各行业中来。在我国,业已开始的各大中型医院信息化技术已经有不少技术和产品沉积——HIS(Hospital I
模型驱动的体系架构(MDA)是一种新的软件开发框架,它改变了传统的软件开发方式,以建模行为驱动整个软件开发过程。基于MDA的软件开发过程更加突出分析与设计的重要性,而软件
呼叫中心又称为客户服务中心,现代呼叫中心是一种基于CTI(ComputerTelephony Integration)技术,并将通信网和计算机网的功能集成,进而与企业连为一体的一个完整的综合信息服
学位
随着计算机网络技术与多媒体技术的发展,数字作品的制作、复制与传输变得非常方便、快捷,然而数字作品很容易被盗版者利用,因此,数字作品的版权与完整性保护不容忽视。数字水
当今时代信息飞速发展,图像作为传输方便、信息量大的一种数据载体得到人们越来越多的关注和使用。由于图像采集时受环境和采集仪器内部电路的影响,往往拍摄的图像中除了人们