基于连续型数据的朴素贝叶斯分类器的改进研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:JK0803_liuchao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
样本分类是数据挖掘一项非常重要的任务,在众多分类方法和理论中,贝叶斯分类方法具有坚实的统计理论基础,其简单形式是朴素贝叶斯方法(NBC模型),由于具有简单快速的计算过程及泛化能力强等优点,NBC模型得到了广泛应用。本文着重研究基于连续型数据的朴素贝叶斯分类器,探讨基于属性加权及增量学习的改进方法。   在属性加权改进方法上,本文引进Fisher判别分析理论定义各属性的分类权重,提出了Fisher加权朴素贝叶斯分类器(FWNBC模型),通过实验分析表明FWNBC模型在一定程度上提高了朴素贝叶斯分类器的准确率。   在增量学习方法上,由于朴素贝叶斯对数据作高斯分布假设,本文首先应用有限混合模型思想分析分类器的参数求解过程实质上是高斯混合模型的参数估计过程。接着讨论EM算法在高斯混合模型参数估计问题上的应用,提出增加未标注训练样本的结合EM算法的朴素贝叶斯分类器(EMNBC模型)。实验表明当数据对朴素贝叶斯有较好的类可分性时,EMNBC模型可以明显地提高参数估计精确性和分类准确率。   当数据的类可分性较差时,本文将传统NBC模型与EMNBC模型通过线性组合设计组合EMNBC模型与加权组合EMNBC模型,并用实验表明组合模型有相对稳定的表现,准确率较传统NBC模型有一定提升,加权后的组合EMNBC模型能使准确率有进一步提升。
其他文献
本文主要研究了利用2-带2重多小波对图像进行去噪处理的方法。首先,讨论了多小波理论的发展现状,分析了利用多小波变换对图像进行去噪处理方法的研究历程以及其优越性。其次,
以南昌新八一大桥的牵索式挂篮结构计算为例 ,着重介绍了牵索式挂篮的内力计算方法 ,并编制了空间桁架计算机程序 ,文中给出了程序说明 Taking Nanchang Bayi Bridge as an
被业界称为“一石三鸟且重大利好”的国有股转持政策体现了以行政为主导的部门利益分配,表面调和了部门矛盾但却难以真正实现各利益主体的协调运作,隐含着证券市场是一个相对
近年来,由于人类对大型食肉动物的重要性缺乏认识,导致了大型食肉动物的大量消失甚至灭绝,食物链顶端缺失会破坏生态系统的平衡.如何在短时间合理调节生态系统的平衡是人与自然
一个有序对G=(V,E)称为一个无向图,其中V和E一般是有限集.V中的元素称为图G的顶点,E是由V中不同元素的无序对组成的集合,E中的元素称为图G的边.通常用V(G)和E(G)来表示图G的顶点
本文包含三个部分。第一部分回顾了有理插值存在性研究的历史发展沿革。   第二部分研究了型值点的位置与有理插值存在性的关系:给定m+2个型值点,通过对型值点几何分布的分
为了给当今有需要的大学生提供及时的心理服务,给心理相关专业的学生提供较好的实践平台,以及为了深入地对积极心理学n进行探索,在学校和一些社区开展“好心情加油站”活动,并通
粒子群优化(Particle Swarm Optimization, PSO)算法是一种较新的全局优化方法。与遗传算法、蚁群算法等大多数进化计算方法一样,PSO算法也是一类基于群体智能的随机优化算法
<正>会理县现有石榴面积1.93万hm2,产量34万t,产值13.12亿元,带动二、三产业8.5亿元,是全国八大石榴产区之首,所产石榴享誉川内外,开发出了石榴盆景、石榴酒、石榴饮料等系列
广义随机系数自回归模型是重要的非线性时间序列模型,利用该模型在拟合众多的动态的经济、社会及自然等现象时效果较好.关于该模型的性质和参数估计的相关问题一直是研究的热