半朴素贝叶斯分类器和选择性集成的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：winningking

【摘要】

：

朴素贝叶斯分类器是一种经典的机器学习算法，它通过利用属性的条件独立性假设使学习过程变得简单高效。但是在真实问题中，条件独立性假设并不成立，半朴素贝叶斯分类器通过削弱属

【作者】

：

李楠

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2008年期

【关键词】

：

机器学习数据挖掘选择性集成半朴素贝叶斯分类器 GBC算法性能实验

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

朴素贝叶斯分类器是一种经典的机器学习算法，它通过利用属性的条件独立性假设使学习过程变得简单高效。但是在真实问题中，条件独立性假设并不成立，半朴素贝叶斯分类器通过削弱属性独立性假设来提高朴素贝叶斯分类器的泛化能力，受到了机器学习界的关注。集成学习是有效提高学习系统泛化能力的重要技术，它通过训练一组学习器并将它们集成起来解决一个问题。研究表明，与集成所有已有的学习器相比，选择性集成，即从已有的学习器中选择一部分进行集成，可以获得规模更小且泛化能力更强的学习系统。　　本文对半朴素贝叶斯分类器和选择性集成进行了研究，主要取得了以下创新成果：　　 1.提出了基于广义加性函数的半朴素贝叶斯分类器GBC。与以往通过限制贝叶斯网络结构的方法不同，GBC用广义加性函数来描述变量之间的依赖关系，并基于此使用1-依赖贝叶斯分类器逼近贝叶斯分类器所需要的联合概率。实验表明，GBC算法性能优于很多流行算法。　　 2.提出了一种基于集成学习的半朴素贝叶斯分类器LODE。该方法通过模型似然对1-依赖贝叶斯分类器(SPODE)的性能进行估计，进而据此加权集成SPODE。研究表明LODE方法在没有显著增加经典算法AODE的计算复杂性的情况下显著提高了分类性能。　　 3.提出了一种基于正则化框架的选择性集成算法RSE。该方法将选择性集成中的个体学习器选择问题形式化成二次规划问题来求解。它不仅能够利用有标记样本进行学习，当有大量未标记样本存在时，它还能够有效利用未标记样本进一步提高泛化能力。实验表明，与经典集成学习算法Bagging、AdaBoost以及选择性集成算法GASEN相比，RSE算法能够产生规模更小且泛化能力更强的分类器集成。

其他文献

基于自主计算的自适应Agent

随着网络和通信技术的迅猛发展，以及计算机应用规模的持续扩大，软件系统的规模越来越大，复杂性越来越高。在这种背景下，发生了软件复杂性危机，即维护、故障排除等人的干预赶不上软

学位

自主计算自适应框架Agent软件复杂性危机

软件自动化功能测试分析及其应用

随着计算机技术的迅速发展,软件的应用范围越来越广泛,软件系统规模越来越大、结构越来越复杂。为了保证软件产品的质量,软件测试特别是自动化测试越来越受到人们的重视。软

学位

软件测试软件测试自动化测试自动化测试测试控制测试控制缺陷管理缺陷管理录制录制回放回放类测试类测试

使用大规模轨迹数据进行个性化路径推荐

为支持从各种移动对象产生的大量GPS数据，后端服务器通常存储低采样率的轨迹。因此，人们不能直接从后端服务器获得精确的位置信息，换句话说，不确定性是这些时空数据的固有特性。

学位

个性化路径推荐轨迹数据上下文信息不确定性分析

数据仓库查询技术的研究

现今世界范围内的商业环境和竞争节奏发生急剧变化,从客观上提高了企业对商业智能和数据仓库的依赖和需求。数据仓库查询技术是商业智能的重要组成部分,传统上,数据仓库的信

学位

数据仓库数据仓库查询技术查询技术OLAP查询OLAP查询商业智能商业智能

精简序列模式挖掘与维护研究

序列模式挖掘是数据挖掘领域的一个重要研究方向，在各个领域具有广泛的应用。现有序列模式挖掘方法挖掘出的频繁序列模式往往缺乏可解释性，在支持度较低或者当数据集比较稠密的

学位

序列模式挖掘数据挖掘频繁序列模式SP-Feature序列表达模型逆序列树数据流滑动窗口

基于图像处理和分类器的水稻害虫自动识别系统的研究

水稻病虫害长期以来就是阻碍农业发展的一大危害，对水稻害虫及时发现并对症下药是防治的重点。随着计算机技术的飞速发展，水稻害虫识别自动化已经作为该领域的一大热点，被逐渐应

学位

水稻害虫识别系统图像处理特征提取图像分类BP神经网络

基于XIP运行方式的存储结构的研究

随着信息技术和世界经济的飞速发展,嵌入式系统越来越受到人们关注,越来越多基于嵌入式技术的产品进入人们日常生活中。本文首先对比了嵌入式系统的存储结构与通用PC机的

学位

嵌入式系统嵌入式系统Linux平台Linux平台串行闪存串行闪存存储结构存储结构代码执行方式代码执行方式

嵌入式Web远程监控技术在污染源自动监控系统中的应用

随着我国经济的高速发展,环境污染问题日益突出。作为我国的一项基本国策,环境保护是落实科学发展观、可持续发展、构建和谐社会的重要内容。环境监测作为环保各项工作的数据

学位

嵌入式嵌入式Web服务Web服务远程自动监控远程自动监控污染源污染源TCP/IP协议TCP/IP协议CGI技术CGI技术系统构建系统构建

基于手机平台的PDF417条形码识别方法的研究

现如今,人们对手机的要求已经不仅仅局限于通话本身,而更关注于将越来越多的应用集成在一起。从通话、短消息到上网、收发E-mail,再到今天的照相、摄像,手机的功能已经越来越

学位

二维条形码二维条形码条码识别条码识别手机平台手机平台PDF417PDF417

处理动作模型的MDA模型转换技术

模型驱动体系结构(Model Driven Architecture MDA)是OMG组织为解决不同中间件平台间的集成问题而提出的一种开放的、供应商中立的软件开发方法。MDA是以模型为核心的。在MDA

学位

模型驱动架构体系结构模型转换技术动作语言MDA工具软件开发

半朴素贝叶斯分类器和选择性集成的研究

与本文相关的学术论文