贝叶斯分类器及其应用研究

来源 :上海大学 | 被引量 : 41次 | 上传用户:qxd986319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类能力是人类经过学习得到的重要而基本的能力,分类技术是使用计算机对人类分类能力的模拟,已成为机器学习、模式识别及数据采掘等领域研究的核心内容之一。这种模拟通过建立分类器和使用分类器进行分类识别来实现。构建分类器是一个归纳学习的过程,需要依据训练数据归纳出属性和类之间的函数关系或规则,而分类是对给定的属性配置,根据函数关系或规则通过推理确定类值的过程。现已发展了许多著名的分类器,如神经网络、支持向量机、贝叶斯网络分类器、C4.5和基于实例的最近邻分类器等,它们各有特点,在许多领域得到了广泛的应用。概率分类器(也称为贝叶斯分类器)是分类器家族中的重要成员之一,使用概率分类器分类需要进行联合概率(或密度)计算,并依据最大似然推理原则进行分类预测。概率分类器由结构和参数两部分构成,结构决定分类器的表示形式和参数布局,根据结构和训练数据估计参数。分类器结构的不同导致了联合概率(或密度)分解和计算的差异,并产生了各种类型的概率分类器。朴素贝叶斯分类器(属性结点之间没有连接)和完全贝叶斯分类器(属性结点之间具有完全连接)是概率分类器中最简单和最复杂的分类器。概率分类器一般是通过结构的变化来实现与例子数据拟合程度的优化,具体情况如下图所示。朴素贝叶斯分类器以高效和良好的分类准确性而著称,是得到广泛应用的分类器之一。这种分类器基于给定类时属性之间条件独立的假设,使得属性之间的依赖信息得不到有效的利用,但朴素贝叶斯分类器能够直接处理连续属性,对连续属性的密度估计优化,以及属性依赖扩展是该分类器的两个主要研究领域。链贝叶斯分类器是对朴素贝叶斯分类器属性的链(有向或无向链)依赖扩展,可以是一条完整的、部分的和间断的链,该分类器使用联合密度也可处理连续属性,但目前对这种分类器的研究较少。树贝叶斯分类器是对朴素贝叶斯分类器属性的树(有向或无向树)依赖扩展,属性可依赖扩展成树或森林,这种分类器同样可使用联合密度处理连续属性,是目前研究较多的分类器,其研究成果主要集中在连续属性处理和分类器优化方面。图贝叶斯分类器是对朴素贝叶斯分类器属性的图(有向或无向)依赖扩展,这种分类器能够使属性之间的依赖信息得到充分的利用,经过有向和无向扩展分别得到贝叶斯网络分类器和马尔科夫网络分类器。近些年对贝叶斯网络分类器的研究较多,但主要是采用建立因果贝叶斯网络的方法进行贝叶斯网络分类器学习,由于更倾向于因果知识发现,使学习得到的分类器的分类准确性并不具有明显的优势,这种分类器的变化较多,研究空间广阔,但连续属性需要离散化。完全贝叶斯分类器是对朴素贝叶斯分类器属性的完全(有向或无向完全图)依赖扩展,需要对连续属性进行离散化,不需要结构学习,能够在理论上证明该分类器是最优分类器,但这种分类器易于导致对例子的过度拟合,而且参数学习往往需要大量的例子数据,学习的复杂程度随属性增加指数增长,因此,对多属性的完全贝叶斯分类器需要先进行属性子集选择来避免这一问题,该分类器可以保证属性之间的依赖信息不会丢失,当属性之间具有复杂的依赖关系时将具有优势,属性子集选择和优化将是主要的研究课题。本文从具有离散和连续属性两个方面,基于贝叶斯网络、概率统计和信息论等理论与方法,对朴素贝叶斯分类器,朴素贝叶斯分类器的依赖扩展、完全贝叶斯分类器和将贝叶斯分类器与时间序列相结合而得到的动态贝叶斯分类器,以及贝叶斯分类器的应用等展开一系列的研究,推动概率分类器的发展和研究进程。本文的主要贡献如下:(1)在变量之间基本依赖关系分析和属性对类贡献分析的基础上,结合依赖分析方法、分类器分类准确性评价标准和搜索算法建立了离散属性约束贝叶斯分类网络。首先基于依赖分析方法发现与类具有直接依赖的属性,然后再将分类准确性评价标准与贪婪搜索相结合进行属性的父结点集优化,最终建立约束贝叶斯分类网络。使用UCI机器学习数据仓库中分类数据的实验结果显示约束贝叶斯分类网络具有良好的分类准确性。(2)给出基于高斯分布参数化方法的连续属性朴素贝叶斯分类器的依赖扩展,在高斯分布的假设下,以条件互信息为权重构造最大权重跨度树,结合属性联合密度计算和属性对类的贡献,进行连续属性朴素贝叶斯分类器的树结构依赖扩展和优化。实验结果显示,参数化方法能够有效的提高分类器的分类准确率。(3)使用引入平滑参数的高斯核函数来估计属性条件密度,在以分类器的分类准确性为标准优化平滑参数的基础上,同样以分类准确性为标准进行属性的属性父结点贪婪(greedy)选择,建立了扩展的朴素贝叶斯分类器,并分析属性为类提供的信息构成,以为依赖扩展提供理论依据,使用UCI机器学习数据仓库中连续属性分类数据的实验显示,相对于著名的分类器,扩展的朴素贝叶斯分类器具有更好的分类准确性,验证了依赖扩展的必要性和方法的有效性。(4)对于连续属性完全贝叶斯分类器,使用Gaussian copula函数估计多元概率密度函数,建立独立于边缘分布的联合依赖结构。这种独立性可使我们构造带有已知联合依赖结构的任意分布函数,而不需要给边缘分布以限制。这种方法得到的贝叶斯分类器具有较强的灵活性,实验证明,此方法可使分类器分类准确率得到较大幅度提高,尤其适用于高维特征空间。
其他文献
针对虚拟现实技术在园林规划设计中的应用问题,根据虚拟现实技术的特点,完成虚拟现实系统平台的构建。最后通过对比分析,筛选出合适的虚拟现实系统平台及建模软件,选取Sketch UP
……他只有一个人孤零零地躲在破屋的一角,感受着自己向深渊的一次次跌落    从小,他都是个瞎子,却活得如常人般快乐,因为他有母亲,是母亲给了他希望和力量,给了他光明多彩的世界,他一直觉得很幸福,这种幸福来自母亲一次次温暖的牵手,在母亲温润柔软的手掌里,他感受着母亲爱的无尽传递,有了这种爱,他并不觉得他生活的黑暗世界与常人有何不同,他甚至有些安逸于这样的状态,直至一次意外的发生。   那是一个阳光明
接地网在牵引变电所安全运行方面起着重要作用。本文通过利用CDEGS软件,介绍了一种用仿真的形式设计接地网的方法,该方法不仅可以计算接地电阻,还可以绘制接地网的电压分布图
在检定和使用压力变送器的过程中,经常碰到压力变送器的输出理论值的计算、已知输出电信号反算压力的计算、压力变送器涉及到的二次仪表输出理论值的计算。本文通过实例给出了压力变送器的计算问题的具体方法及求解过程。
目的:探讨幽门螺杆菌(Hp)感染与冠心病(CHD)相关危险因素的关系,分析幽门螺杆菌感染在冠心病发病中的作用;探讨幽门螺杆菌感染与冠心病中医证型的相关性。观察清胃行滞方治疗冠
由于扩招等政策的推行,进入大学校园接受高等教育的学生逐年增多,高等教育从“精英化”走向“大众化”,传统的思想政治教育模式和方法已经不能满足现代教育的需求。此外,科技
本文重点讨论了机器视觉技术在农作物病虫害的研究与应用,其中包括农作物的病虫害的检测,以及病虫害的防治,并总结了机器视觉技术在在病虫害研究中存在的不足及未来发展方向
北京市检察院从2007年就开始进行信息化的建设,对全国检察院电子政务信息化工作做出了突出的贡献。全市检查机关大集中模式的建立,使市检察院承受了更大的建设维护的压力。市
子洲-米脂气田所处地区山大沟深,管道高低起伏,集气站站内不注醇的工艺现状决定地面工艺运行中必须确保所有单井在节流后不形成水合物,从而致使外输(分离)温度偏高,当外输(分离)温度