论文部分内容阅读
分类能力是人类经过学习得到的重要而基本的能力,分类技术是使用计算机对人类分类能力的模拟,已成为机器学习、模式识别及数据采掘等领域研究的核心内容之一。这种模拟通过建立分类器和使用分类器进行分类识别来实现。构建分类器是一个归纳学习的过程,需要依据训练数据归纳出属性和类之间的函数关系或规则,而分类是对给定的属性配置,根据函数关系或规则通过推理确定类值的过程。现已发展了许多著名的分类器,如神经网络、支持向量机、贝叶斯网络分类器、C4.5和基于实例的最近邻分类器等,它们各有特点,在许多领域得到了广泛的应用。概率分类器(也称为贝叶斯分类器)是分类器家族中的重要成员之一,使用概率分类器分类需要进行联合概率(或密度)计算,并依据最大似然推理原则进行分类预测。概率分类器由结构和参数两部分构成,结构决定分类器的表示形式和参数布局,根据结构和训练数据估计参数。分类器结构的不同导致了联合概率(或密度)分解和计算的差异,并产生了各种类型的概率分类器。朴素贝叶斯分类器(属性结点之间没有连接)和完全贝叶斯分类器(属性结点之间具有完全连接)是概率分类器中最简单和最复杂的分类器。概率分类器一般是通过结构的变化来实现与例子数据拟合程度的优化,具体情况如下图所示。朴素贝叶斯分类器以高效和良好的分类准确性而著称,是得到广泛应用的分类器之一。这种分类器基于给定类时属性之间条件独立的假设,使得属性之间的依赖信息得不到有效的利用,但朴素贝叶斯分类器能够直接处理连续属性,对连续属性的密度估计优化,以及属性依赖扩展是该分类器的两个主要研究领域。链贝叶斯分类器是对朴素贝叶斯分类器属性的链(有向或无向链)依赖扩展,可以是一条完整的、部分的和间断的链,该分类器使用联合密度也可处理连续属性,但目前对这种分类器的研究较少。树贝叶斯分类器是对朴素贝叶斯分类器属性的树(有向或无向树)依赖扩展,属性可依赖扩展成树或森林,这种分类器同样可使用联合密度处理连续属性,是目前研究较多的分类器,其研究成果主要集中在连续属性处理和分类器优化方面。图贝叶斯分类器是对朴素贝叶斯分类器属性的图(有向或无向)依赖扩展,这种分类器能够使属性之间的依赖信息得到充分的利用,经过有向和无向扩展分别得到贝叶斯网络分类器和马尔科夫网络分类器。近些年对贝叶斯网络分类器的研究较多,但主要是采用建立因果贝叶斯网络的方法进行贝叶斯网络分类器学习,由于更倾向于因果知识发现,使学习得到的分类器的分类准确性并不具有明显的优势,这种分类器的变化较多,研究空间广阔,但连续属性需要离散化。完全贝叶斯分类器是对朴素贝叶斯分类器属性的完全(有向或无向完全图)依赖扩展,需要对连续属性进行离散化,不需要结构学习,能够在理论上证明该分类器是最优分类器,但这种分类器易于导致对例子的过度拟合,而且参数学习往往需要大量的例子数据,学习的复杂程度随属性增加指数增长,因此,对多属性的完全贝叶斯分类器需要先进行属性子集选择来避免这一问题,该分类器可以保证属性之间的依赖信息不会丢失,当属性之间具有复杂的依赖关系时将具有优势,属性子集选择和优化将是主要的研究课题。本文从具有离散和连续属性两个方面,基于贝叶斯网络、概率统计和信息论等理论与方法,对朴素贝叶斯分类器,朴素贝叶斯分类器的依赖扩展、完全贝叶斯分类器和将贝叶斯分类器与时间序列相结合而得到的动态贝叶斯分类器,以及贝叶斯分类器的应用等展开一系列的研究,推动概率分类器的发展和研究进程。本文的主要贡献如下:(1)在变量之间基本依赖关系分析和属性对类贡献分析的基础上,结合依赖分析方法、分类器分类准确性评价标准和搜索算法建立了离散属性约束贝叶斯分类网络。首先基于依赖分析方法发现与类具有直接依赖的属性,然后再将分类准确性评价标准与贪婪搜索相结合进行属性的父结点集优化,最终建立约束贝叶斯分类网络。使用UCI机器学习数据仓库中分类数据的实验结果显示约束贝叶斯分类网络具有良好的分类准确性。(2)给出基于高斯分布参数化方法的连续属性朴素贝叶斯分类器的依赖扩展,在高斯分布的假设下,以条件互信息为权重构造最大权重跨度树,结合属性联合密度计算和属性对类的贡献,进行连续属性朴素贝叶斯分类器的树结构依赖扩展和优化。实验结果显示,参数化方法能够有效的提高分类器的分类准确率。(3)使用引入平滑参数的高斯核函数来估计属性条件密度,在以分类器的分类准确性为标准优化平滑参数的基础上,同样以分类准确性为标准进行属性的属性父结点贪婪(greedy)选择,建立了扩展的朴素贝叶斯分类器,并分析属性为类提供的信息构成,以为依赖扩展提供理论依据,使用UCI机器学习数据仓库中连续属性分类数据的实验显示,相对于著名的分类器,扩展的朴素贝叶斯分类器具有更好的分类准确性,验证了依赖扩展的必要性和方法的有效性。(4)对于连续属性完全贝叶斯分类器,使用Gaussian copula函数估计多元概率密度函数,建立独立于边缘分布的联合依赖结构。这种独立性可使我们构造带有已知联合依赖结构的任意分布函数,而不需要给边缘分布以限制。这种方法得到的贝叶斯分类器具有较强的灵活性,实验证明,此方法可使分类器分类准确率得到较大幅度提高,尤其适用于高维特征空间。