论文部分内容阅读
分类是模式识别、机器学习以及数据挖掘中一项基本而又重要的任务。在众多的分类方法中,贝叶斯分类方法因建立在贝叶斯统计学和贝叶斯网络基础上,能够有效地处理不完整数据,并且具有模型可解释、精度高等优点,而被认为是最优分类模型之一。尤其是朴素贝叶斯分类器,虽然结构简单,但在很多情况下却具有相当高的分类精度,可以达到甚至超过其它成熟算法如C4.5的分类精度,而且对噪声数据具有很强的抗干扰能力。自从朴素贝叶斯分类器提出以后,就被应用到了众多领域中,其有效性已经为实践所证明。但是,随着应用领域的扩大,该种分类器的不足也更加明显。朴素贝叶斯分类器要以一个很强的条件独立性假设为前提,即假设在各个类中,每个属性变量(也称作特征)的概率分布独立于其它属性变量的概率分布。然而,实际中的数据一般难以满足这一假设前提。如果不满足这一前提条件,分类器的分类效果往往会明显下降。弥补这一不足的一种有效的方法是利用属性选择去除数据集中的冗余属性,使选择出的属性尽可能地满足条件独立性假设。然后,在选择出的属性子集上构建贝叶斯分类器,即选择性贝叶斯分类器。目前已有不少学者对选择性贝叶斯分类器进行过研究,并给出了一些有效的算法,但这些算法大都是用于完整数据和低维数据。虽然实际中不完整数据大量存在,并且这些数据大都包含着严重影响分类效果和效率的冗余属性和无关属性,然而,由于处理不完整数据的复杂性,目前用于不完整数据的选择性分类算法却很少见。因此,充分利用贝叶斯分类方法能够有效地处理不完整数据的优势,来构造用于不完整数据的选择性贝叶斯分类算法是一项重要的研究课题,这正是本文主要研究内容之一。另外,随着现代信息技术的不断发展,大量的高维数据不断涌现,而朴素贝叶斯简单高效,适于处理高维数据,同时又对属性选择很敏感,因此对用于高维数据的选择性贝叶斯分类算法的研究具有重要的意义,也是本文的另一项主要研究内容。本文的主要贡献如下:(1)通过分析以往在分类过程中对不完整数据的处理方法,给出了一种基于分布的不完整数据分类算法DBCI(Distribution-based Bayesian Classifiers forIncomplete data)。该算法在训练过程中将缺失值的频数合理地分配到其它观测值的频数中。因此,不完整数据集中所包含的信息可以得到充分利用。该算法与分类效果和效率都很突出的不完整数据分类器RBC(Robust Bayes Classifiers)相比,其分类效果与后者相当,而算法的效率明显高于后者。(2)虽然不完整数据集中也通常包含着大量影响分类效果和效率的冗余属性或无关属性,但是,目前用于不完整数据的选择性分类器却极为少见。针对这一问题,基于包装法(wrappers)给出了两个有效的选择性不完整数据分类器。首先,通过分析以往的不完整数据分类算法,构造了选择性不完整数据分类器SRBC(Selective Robust Bayes Classifiers)。与高效的RBC以及DBCI相比,SRBC不仅能获得显著更高的分类准确率,同时还能大幅度地降低冗余属性和无关属性的数目。然后,利用提出的更加高效的DBCl分类器构造了选择性分类器SDBC(Selective Distribution-based Bayesian Classifiers for incomplete data)。与SRBC相比,SDBC的分类准确率和效率都有明显提高。(3)为进一步提高上述SPBC和SDBC的效率,基于混合法构造了三个更加高效的选择性不完整数据分类器。首先,利用一个简化的增益率计算式和SRBC构造了分类器SRBCBG(Selective Robust Bayes Classifiers Based on Gain ratio)。与此同时,利用用于不完整数据的卡方统计量和SRBC构造了分类器CBSRBC(Chi-square-Based Selective Robust Bayes Classifiers)。与SRBC和SDBC相比,SRBCBG和CBSRBC具有更高的分类效率和更好的分类效果。然后,为了构造对大型不完整数据集具有更好的扩展性的选择性贝叶斯分类器,又利用推广的Relief算法和SDBC构造了比CBSRBC和SRBCBG更高效的分类器RBSD(Relief-F-algorithm-Based Selective DBCI)。(4)针对最为常见的高维数据——文本数据,给出了两个用于贝叶斯分类器的多类别文本数据属性评价函数,以构造基于过滤法的选择性贝叶斯分类器。在文本数据集上的分类结果显示,利用这两个属性评价函数构造的选择性贝叶斯分类器具有更好的分类效果。