论文部分内容阅读
在大数据时代,数据信息是最有价值的抽象事物,数据中蕴含着大量的有价值的信息,需要将这些信息提取出来,数据挖掘是实现的重要过程之一。数据挖掘是现今社会的热门学科,是从存储的数据中发现知识的过程。数据挖掘包含分类和聚类两个方向,本课题研究的是分类算法,分类是根据一系列的属性来给出类别判断,分类方法很多,近年来贝叶斯网分类器受到的关注越来越多。贝叶斯分类模型包含四种经典的分类模型,分别是朴素贝叶斯(Na?ve Bayes,NB)、树增广朴素贝叶斯(Tree-Augmented Na?ve Bayes,TAN)、平均一阶依赖贝叶斯(Averaged One-Dependence Estimators,AODE)和K阶依赖贝叶斯(K-Dependence Bayesian,KDB)。贝叶斯分类的核心思想在于已知先验分布,从观察的数据中得到后验分布,从而进行预测分类。本课题提出的AS_TAN模型属于一阶依赖的贝叶斯模型,主要思想是对属性根据互信息和非类变量条件互信息进行排序,得出相关性从强到弱的属性序列,根据属性的顺序进行构建的分类模型;局部模型是根据测试实例在测试的过程中构建的模型;GL_AS_TAN模型就是全局和局部都应用AS_TAN模型的思想实现的混合模型,全局模型是针对所有属性来构建的,局部模型是根据个别情况构建的,混合模型将全局模型和局部模型综合起来提升分类的准确度。K_TAN模型也属于一阶依赖贝叶斯模型,含有参数K,K表示的是为属性选择属性父节点的时候限制的选择范围个数;K_TAN_D模型是K_TAN算法结合了反馈系统,通过反馈系统为每个数据集分别选择合适的参数K,构建适应于每个数据集的模型。本文使用0-1 loss、Bias和Variance三个衡量指标对文中提到的三个模型与其他模型进行比较分析,实验证明本文提出的模型相较于经典一阶依赖贝叶斯模型在分类准确度上是有所提升的。