论文部分内容阅读
近年来数据挖掘技术在各个领域取得巨大进步,但如何处理带误差的不确定性数据仍然是数据挖掘算法的一个挑战。传统的数据挖掘算法通常都假设收集到的数据是精确的,没有丝毫误差。然而,在很多应用领域,由于采样误差,仪器误差的存在或是隐私保护的原因需要对数据进行扰动,导致数据本质上是不确定的。不确定性数据的特征值不再是一个单一的值,而是一个区间,服从某个概率分布。现已有一些传统的分类算法,比如决策树,支持向量机等,被扩展为可以处理不确定性数据。在本文中,我们创新性地使用贝叶斯分类器来处理不确定性数据分类问题,对一些UCI数据集,分类精度可有接近10%的提高。
贝叶斯分类器是一个基于贝叶斯理论的分类器,在许多领域被广泛使用。根据贝叶斯定理,测试样本的后验概率可以通过类条件概率和先验概率求得,最终把测试样本分类为使后验概率最大的类。贝叶斯分类器的核心问题是怎样估计类条件概率。估计类条件概率有两大类方法,一类是带参数估计,包括最大似然估计和贝叶斯估计;另一类是无参数估计,也就是是核密度估计。类条件概率估计一般采用核密度估计方法,因为其简单且不需要事先知道有关概率分布的任何先验知识(比如假设服从正态分布等)。传统的类条件概率估计是基于数据的每个特征是单一值的精确数据,但对不确定性数据的分类问题,需要从表示为概率分布的不确定性数据中学习类条件概率。一个简单的方法是求每个不确定性数据的均值,然后使用这些均值来构建贝叶斯分类器。但是这种方法没有充分利用不确定性数据中的概率分布信息,为了解决这个问题,本文提出了一个基于双重积分求期望的算法,分为基于公式的算法和基于采样的算法两种情况。当不确定性数据服从正态分布和均匀分布,经过推导可以把类条件概率估计公式中的双重积分符号去掉,使其不包含积分符号,这时使用基于公式的算法可以精确且高效地计算类条件概率;当不能通过公式推导把类条件概率估计公式中的双重积分符号去掉,使用基于采样的算法来计算核密度估计公式里双重积分的值。从对UCI上的大量数据实验表明,在朴素贝叶斯分类器框架下,充分利用不确定性数据的概率分布信息的基于双重积分求期望的算法,分类精度比仅利用不确定性数据均值的基于均值的算法要好。