论文部分内容阅读
贝叶斯网络分类模型是用于知识表示与不确定性推理的经典方法,通常是一种由一组条件概率分布和有向无环图组成的统计模型。它提供了一种清晰明确的、图形化的、可解释的不确定性知识表达方法,非常适合用于解决数据分析和模式识别领域中有关分类的代价敏感问题,比如医疗诊断、故障分析等问题。在众多贝叶斯网络分类模型中,最为经典的是朴素贝叶斯(Naive Bayes,NB),它也是目前应用最为广泛的分类算法之一。朴素贝叶斯网络分类模型中特征之间遵循着严格的条件独立性假设,其算法简单高效性也由此而来。但是由于NB过强的假设违背现实事实,使得它在处理分类精度要求较高的分类任务中的表现差强人意,因此许多学者采用了各种改进方法来削弱NB中的条件独立性假设,并提出很多经典贝叶斯网络分类模型,如树增广朴素贝叶斯分类模型和K阶依赖贝叶斯网络分类模型。然而随着近几年高维度数据的不断增加,贝叶斯网络分类模型的学习过程变得越来越困难。我们迫切需要一种适用于高维度数据的高精度的贝叶斯网络分类模型。特征选择是机器学习领域中一种重要的用于降低数据维度的技术,它能有效地去除数据中的不相关冗余特征,减少模型的计算时间并改善模型分类性能。根据不同的搜索策略,常用的特征选择方法一般可以被分为filter型和wrapper型。filter型特征选择方法与所选择的模型无关,通常执行于模型构建之前。而wrapper型特征选择方法直接把最终要使用的模型的预测性能作为特征子集的评价准则,即搜索特征空间中所有可能的特征组合并通过所选模型在训练集上对其进行打分以确定最佳特征子集。因此,本文基于最小冗余最大相关准则(minimal-redundancy-maximal-relevance,m RMR)结合filter和wrapper两种特征选择方法提出了一种改进的贝叶斯网络分类模型——基于filter-wrapper m RMR改进的K阶依赖贝叶斯网络分类模型。根据分类任务把模型的学习过程划分为两部分:结构学习与参数学习。在结构学习的过程中添加一次额外的学习过程,在训练集上通过使用留一法交叉验证同时评估一系列嵌套子模型的分类性能,其中每个子模型都是根据特征选择方法所划分的一系列特征子集与模型参数K的可能取值构建的,从中选取出最佳特征子集和最优K值进行参数学习计算概率分布。本文从UCI数据库中选取出了的20个数据集,分别根据评估函数0-1 loss和F1-measure,就分类性能方面进行了多个模型之间的实验与分析比较,实验结果证明了本文所提出的算法与NB、TAN、KDB、AODE等成熟的贝叶斯网络模型相比具有明显优势。此外,本文还考虑到数据偏斜对模型分类性能的影响,因此还根据Matthews相关系数对模型进行评估,结果证明本文所提出算法较其他算法而言处理偏斜数据分类问题的能力更胜一筹。