基于属性选择的一阶依赖贝叶斯分类模型的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:dingjk3883085
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据信息是最有价值的抽象事物,数据中蕴含着大量的有价值的信息,需要将这些信息提取出来,数据挖掘是实现的重要过程之一。数据挖掘是现今社会的热门学科,是从存储的数据中发现知识的过程。数据挖掘包含分类和聚类两个方向,本课题研究的是分类算法,分类是根据一系列的属性来给出类别判断,分类方法很多,近年来贝叶斯网分类器受到的关注越来越多。贝叶斯分类模型包含四种经典的分类模型,分别是朴素贝叶斯(Na?ve Bayes,NB)、树增广朴素贝叶斯(Tree-Augmented Na?ve Bayes,TAN)、平均一阶依赖贝叶斯(Averaged One-Dependence Estimators,AODE)和K阶依赖贝叶斯(K-Dependence Bayesian,KDB)。贝叶斯分类的核心思想在于已知先验分布,从观察的数据中得到后验分布,从而进行预测分类。本课题提出的AS_TAN模型属于一阶依赖的贝叶斯模型,主要思想是对属性根据互信息和非类变量条件互信息进行排序,得出相关性从强到弱的属性序列,根据属性的顺序进行构建的分类模型;局部模型是根据测试实例在测试的过程中构建的模型;GL_AS_TAN模型就是全局和局部都应用AS_TAN模型的思想实现的混合模型,全局模型是针对所有属性来构建的,局部模型是根据个别情况构建的,混合模型将全局模型和局部模型综合起来提升分类的准确度。K_TAN模型也属于一阶依赖贝叶斯模型,含有参数K,K表示的是为属性选择属性父节点的时候限制的选择范围个数;K_TAN_D模型是K_TAN算法结合了反馈系统,通过反馈系统为每个数据集分别选择合适的参数K,构建适应于每个数据集的模型。本文使用0-1 loss、Bias和Variance三个衡量指标对文中提到的三个模型与其他模型进行比较分析,实验证明本文提出的模型相较于经典一阶依赖贝叶斯模型在分类准确度上是有所提升的。
其他文献
当前物流市场全面开放的格局加剧了各类物流企业的竞争态势。作为国有大型传统物流企业中国外运长航集团的下属机构,广西北海外运有限公司如何在不断变化的物流环境中做出相
在声呐技术中,声呐图像分割结果的准确性直接影响后续的处理环节以及最终对声呐图像的理解,因此声呐图像分割在声呐技术中具有重要的地位。但是由于声呐图像受海底噪声影响,
随着信息技术的飞速发展,作为分离有用和无用信号的模拟滤波器是信息产业中的重要部件,其性能的优劣直接影响整个信息系统的质量。由于电流模式电路在带宽、速度以及线性度等
随着现代工业技术的不断发展,数字电路的集成度越来越高,系统芯片(System-on-a-Chip,SoC)上集成的知识产权核(Intellectual Property,IP)越来越多,功能也越来越复杂。在测试
3D视频以其观看时强烈的立体感和全新的视觉体验日渐成为数字媒体发展的主要趋势,而在目前2D-3D图像/视频转换技术中,基于深度图绘制(DIBR)3D图像技术由于具有所需的数据量小
在这个数据日益增长的时代,各类电子设备在每时每刻都会产生或多或少的数据,有时产生的数据往往维度非常高,即称为高维大数据,然而数据挖掘中需要处理的高维数据通常包含冗余
左手材料是等效介电常数与等效磁导率同时为负的一种新型人工材料。作为21世纪科学界的最大发现,它奇异的微波特性很快就引起了广大学者的研究兴趣。负折射、逆多普勒效应和
“精准农业”是当今农业最富有吸引力的前沿课题,通过引入现代技术和科学管理方式,获取农作物生长过程中的参数信息,辅助管理人员做出科学决策,以提高农作物的产量。多光谱技
人类对无线电频谱资源的需求急剧膨胀,为了有效地利用稀缺的无线电频谱资源,一些频谱利用率较高的调制方式和传输技术如多电平正交幅度调制(M-QAM)、正交频分复用(OFDM)、宽
近年来,互联网以及社交通讯的飞速发展给许多企业带来了技术的革新。企业可以通过基于互联网社交平台的投诉反馈通道,快速地收集到各类产品评价及服务质量等投诉反馈信息。对