树增强朴素贝叶斯算法的改进及其并行化研究

来源 :长沙理工大学 | 被引量 : 2次 | 上传用户:wskfdftg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
身处互联网时代,数据是社会各行业的自画像和原油。分类算法是从海量数据中快速挖掘核心价值的有效手段。分类算法的研究主要关注两点:一是分类算法自身的性能优化;二是分类算法结合大数据处理平台的可扩展性研究。朴素贝叶斯分类(NB)算法由于其较强的条件独立性假设而褒贬不一,但是树增强朴素贝叶斯算法(TAN)的分类准确率通常优于朴素贝叶斯,同时保持了精简的网络结构,是一种简单高效的贝叶斯网络分类器。本文基于树增强朴素贝叶斯算法的结构特点,对树增强朴素贝叶斯算法的网络结构学习进行研究;同时也给出了树增强朴素贝叶斯算法在Spark平台上的并行化设计方案。(1)传统树增强朴素贝叶斯算法仅仅在属性变量集合上初始化网络结构,没有在初始阶段考虑到各个属性与类别的相关性差异,降低了分类准确率。通过对贝叶斯网络结构学习方法进行分析,提出一种基于改进的BIC评分函数构建SETAN分类器的学习方法。实验结果表明,该方法有效扩展了 TAN结构,同时也剔除了冗余属性,学习到的SETAN模型具有与TAN模型相同的时间复杂度,在多个离散数据集上的平均分类准确率相对于NB、TAN模型提升了 3.5%%%和5.7%%%。(2)对基于Spark平台的SETAN模型的构建过程进行研究。根据SETAN模型的特点,提出了基于Spark平台的SETAN模型并行化构建方案,以及相应的资源优化方案。实验结果表明,并行化的SETAN具有良好的数据伸缩率和可扩展性,能有效处理大规模数据。
其他文献
【正】 过去对于思想史的研究,一般局限于写那些有较多论著的代表人物。对工农出身的革命先烈、英雄模范人物,由于他们有的没有留下什么文字资料和论著,有的虽然留有一些文字
滚子直动从动杆盘形凸轮轮廓曲线设计的新方法广东省广州粘合剂化工厂梁笑玲凸轮机构在生产中应用广泛,因此,工程技术人员必须熟练掌握凸轮轮廓曲线(下简称凸轮廓线)的设计方法。
社会发展节奏越来越快、越发强烈的社会竞争、不断拔高的生活成本及生活压力,导致了现代人的时间越发珍贵,导致了越来越多的年轻人选择奔赴他乡去大城市工作拼搏。给予家中年
笔者在初中数学课堂教学中探究实践了“合作教学”模式,本文就此谈谈自己的一些做法,借以抛砖引玉,以期得到同行的指正.
目的探讨常规军事训练前后军事人员免疫和血细胞参数的改变。方法用流式细胞仪和SYSMEX2100血细胞分析仪对50名军事人员常规军事训练前后T、B、NK淋巴细胞亚群及血细胞参数进
尖晶石结构LiNi0.5Mn1.5O4材料因具有高工作电压、高能量密度等优点,被认为是高比能量动力锂离子电池首选的正极材料之一。基于其倍率性能和循环性能不能兼顾的问题,本文采用
石材行业作为重要的建筑类行业之一,在经济、文化、物质飞速发展的今天随着人们对生活中物质品质的要求不断攀升,石材的需求量、开采量日益增长,与之密切相关的石材加工产业也在蓬勃发展。异型石材制品作为石材产品的主要输出模型,其加工效率和加工质量决定了石材加工行业的水准。石材类浮雕是一种典型的复杂异型制品,传统加工中采用金刚石铣刀进行粗加工和精加工来完成整个加工过程,但是铣刀加工效率较低,在开粗加工中去除大
氮化硅(Si3N4)陶瓷材料具有良好的耐磨耐蚀性、高的抗弯强度、良好的断裂韧性、极高的硬度等优异的力学性能且热导率较高,是一种应用前景极为广阔的结构陶瓷材料和功能陶瓷材料
本文对真空过滤机的抽汁系统进行水力学分析,给出合理设计结构及参数的理论依据。
【正】一、关于课堂小结课堂教学需要艺术,适时精彩的课堂小结更能体现出教学的智慧和艺术".编筐编篓,重在收口",通过课堂小结,引导学生把新旧知识联系起来,形成相应的知识结