半朴素贝叶斯分类器和选择性集成的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:winningking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
朴素贝叶斯分类器是一种经典的机器学习算法,它通过利用属性的条件独立性假设使学习过程变得简单高效。但是在真实问题中,条件独立性假设并不成立,半朴素贝叶斯分类器通过削弱属性独立性假设来提高朴素贝叶斯分类器的泛化能力,受到了机器学习界的关注。集成学习是有效提高学习系统泛化能力的重要技术,它通过训练一组学习器并将它们集成起来解决一个问题。研究表明,与集成所有已有的学习器相比,选择性集成,即从已有的学习器中选择一部分进行集成,可以获得规模更小且泛化能力更强的学习系统。   本文对半朴素贝叶斯分类器和选择性集成进行了研究,主要取得了以下创新成果:   1.提出了基于广义加性函数的半朴素贝叶斯分类器GBC。与以往通过限制贝叶斯网络结构的方法不同,GBC用广义加性函数来描述变量之间的依赖关系,并基于此使用1-依赖贝叶斯分类器逼近贝叶斯分类器所需要的联合概率。实验表明,GBC算法性能优于很多流行算法。   2.提出了一种基于集成学习的半朴素贝叶斯分类器LODE。该方法通过模型似然对1-依赖贝叶斯分类器(SPODE)的性能进行估计,进而据此加权集成SPODE。研究表明LODE方法在没有显著增加经典算法AODE的计算复杂性的情况下显著提高了分类性能。   3.提出了一种基于正则化框架的选择性集成算法RSE。该方法将选择性集成中的个体学习器选择问题形式化成二次规划问题来求解。它不仅能够利用有标记样本进行学习,当有大量未标记样本存在时,它还能够有效利用未标记样本进一步提高泛化能力。实验表明,与经典集成学习算法Bagging、AdaBoost以及选择性集成算法GASEN相比,RSE算法能够产生规模更小且泛化能力更强的分类器集成。
其他文献
随着网络和通信技术的迅猛发展,以及计算机应用规模的持续扩大,软件系统的规模越来越大,复杂性越来越高。在这种背景下,发生了软件复杂性危机,即维护、故障排除等人的干预赶不上软
随着计算机技术的迅速发展,软件的应用范围越来越广泛,软件系统规模越来越大、结构越来越复杂。为了保证软件产品的质量,软件测试特别是自动化测试越来越受到人们的重视。软
为支持从各种移动对象产生的大量GPS数据,后端服务器通常存储低采样率的轨迹。因此,人们不能直接从后端服务器获得精确的位置信息,换句话说,不确定性是这些时空数据的固有特性。
现今世界范围内的商业环境和竞争节奏发生急剧变化,从客观上提高了企业对商业智能和数据仓库的依赖和需求。数据仓库查询技术是商业智能的重要组成部分,传统上,数据仓库的信
序列模式挖掘是数据挖掘领域的一个重要研究方向,在各个领域具有广泛的应用。现有序列模式挖掘方法挖掘出的频繁序列模式往往缺乏可解释性,在支持度较低或者当数据集比较稠密的
水稻病虫害长期以来就是阻碍农业发展的一大危害,对水稻害虫及时发现并对症下药是防治的重点。随着计算机技术的飞速发展,水稻害虫识别自动化已经作为该领域的一大热点,被逐渐应
随着信息技术和世界经济的飞速发展,嵌入式系统越来越受到人们关注,越来越多基于嵌入式技术的产品进入人们日常生活中。 本文首先对比了嵌入式系统的存储结构与通用PC机的
随着我国经济的高速发展,环境污染问题日益突出。作为我国的一项基本国策,环境保护是落实科学发展观、可持续发展、构建和谐社会的重要内容。环境监测作为环保各项工作的数据
现如今,人们对手机的要求已经不仅仅局限于通话本身,而更关注于将越来越多的应用集成在一起。从通话、短消息到上网、收发E-mail,再到今天的照相、摄像,手机的功能已经越来越
模型驱动体系结构(Model Driven Architecture MDA)是OMG组织为解决不同中间件平台间的集成问题而提出的一种开放的、供应商中立的软件开发方法。MDA是以模型为核心的。在MDA