面向不确定性数据的贝叶斯分类方法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:yy1986527123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来数据挖掘技术在各个领域取得巨大进步,但如何处理带误差的不确定性数据仍然是数据挖掘算法的一个挑战。传统的数据挖掘算法通常都假设收集到的数据是精确的,没有丝毫误差。然而,在很多应用领域,由于采样误差,仪器误差的存在或是隐私保护的原因需要对数据进行扰动,导致数据本质上是不确定的。不确定性数据的特征值不再是一个单一的值,而是一个区间,服从某个概率分布。现已有一些传统的分类算法,比如决策树,支持向量机等,被扩展为可以处理不确定性数据。在本文中,我们创新性地使用贝叶斯分类器来处理不确定性数据分类问题,对一些UCI数据集,分类精度可有接近10%的提高。   贝叶斯分类器是一个基于贝叶斯理论的分类器,在许多领域被广泛使用。根据贝叶斯定理,测试样本的后验概率可以通过类条件概率和先验概率求得,最终把测试样本分类为使后验概率最大的类。贝叶斯分类器的核心问题是怎样估计类条件概率。估计类条件概率有两大类方法,一类是带参数估计,包括最大似然估计和贝叶斯估计;另一类是无参数估计,也就是是核密度估计。类条件概率估计一般采用核密度估计方法,因为其简单且不需要事先知道有关概率分布的任何先验知识(比如假设服从正态分布等)。传统的类条件概率估计是基于数据的每个特征是单一值的精确数据,但对不确定性数据的分类问题,需要从表示为概率分布的不确定性数据中学习类条件概率。一个简单的方法是求每个不确定性数据的均值,然后使用这些均值来构建贝叶斯分类器。但是这种方法没有充分利用不确定性数据中的概率分布信息,为了解决这个问题,本文提出了一个基于双重积分求期望的算法,分为基于公式的算法和基于采样的算法两种情况。当不确定性数据服从正态分布和均匀分布,经过推导可以把类条件概率估计公式中的双重积分符号去掉,使其不包含积分符号,这时使用基于公式的算法可以精确且高效地计算类条件概率;当不能通过公式推导把类条件概率估计公式中的双重积分符号去掉,使用基于采样的算法来计算核密度估计公式里双重积分的值。从对UCI上的大量数据实验表明,在朴素贝叶斯分类器框架下,充分利用不确定性数据的概率分布信息的基于双重积分求期望的算法,分类精度比仅利用不确定性数据均值的基于均值的算法要好。
其他文献
隐私数据发布是隐私保护数据挖掘的一个重要方向,但是时间序列的隐私发布问题还没有得到足够的重视。由于时间序列数据的高维特性和时序特性,传统的隐私数据发布方法往往造成数
随着计算机网络与通讯技术的发展与应用,电子邮件也得到了广泛的应用。但是,随之而来的垃圾邮件问题日益严重,反垃圾邮件技术的研究和发展越来越受到人们的关注。目前,设计实
虚拟群体运动仿真一直是各大虚拟现实课题组的重要研究方向。仿真技术的成果在群体管理(检阅系统、暴乱处理)、公共空间设计(建筑、城市设施规划)、灾害防演等方面发挥举足轻
本文针对现实网络中传统SSLVPN记录层的安全缺陷、传统公钥体制数字签名规模小、数字签名验证现场性不强、记录层的实时性较差等方面的问题,结合对SSLVPN基本原理的论述,特别
软件规模估算在软件生命周期特别是早期开发阶段有着重要作用,是作为项目计划以及资源分配的重要依据。虽然占据重要地位,但是软件估算在软件工程中一直是比较薄弱的一环。软件
随着时态信息处理技术和互联网应用的广泛深入,为了更方便地反映现实世界的时态数据,实现不同网络环境之间的信息共享和数据交换,时态XML的研究已成为当今的一个研究热点。目前
如今,数字水印技术成为网络中有效的实施版权保护和保障信息安全的重要手段。现有的数字水印算法对图像压缩,滤波等信号处理攻击有很好的抵御效果,但不能抵抗旋转、缩放、平
人脸表情识别是指利用计算机分析特定人的脸部表情及变化,进而确定其内心情绪或思想活动,实现人机之间更自然更智能化的交互。其研究对于增强计算机的智能化和人性化,开发新
学位
人群仿真是基于计算机图形学、力学、心理学、社会学等多种学科的一种仿真建模技术,已经被广泛地应用于许多领域。现实社会中的公共安全及建筑设计领域,要求精度和效率更高的仿