基于信息论的自筛选贝叶斯分类模型的研究与设计

来源 :吉林大学 | 被引量 : 0次 | 上传用户:jorby289702834
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2012年,随着大数据时代的降临,人们意识到信息爆炸产生的海量数据对企业的重要性。在很多领域中,决策将逐渐增加对数据分析的依赖,并最终脱离传统经验和直觉。比如在医学领域,伴随着数据挖掘技术和医学的快速发展,在积存大量病人数据的情况下,人们逐渐聚焦到数据挖掘技术在医学领域上的辅助诊疗应用。如果应用得当,辅助诊疗将会极大地降低医生的工作量和误诊率。目前已有的很多数据挖掘技术都无法给出域中各个变量间的因果关系。而贝叶斯网络擅长使用互信息寻找依赖关系,并通过图形化网络展示出因果关系,它是处理不确定信息的重要手段。因此提出一个高分类准确率的贝叶斯模型是非常有现实意义的。最简单的受限贝叶斯分类器是朴素贝叶斯(NB),基于NB,学者们又提出了许多的更高分类性能的贝叶斯模型,如TAN和KDB等。但是NB和TAN虽然在较小数据集上表现优秀,在大数据集上很难满足需求。KDB(K=2)作为二阶依赖贝叶斯分类器,在大数据集上性能优于NB和TAN,但是不够明显,而在小数据集上又明显不如前者。本文的目的是在研究以上经典贝叶斯分类器的基础上,提出一种能清晰展示因果关系的分类准确率高的贝叶斯分类模型。首先在KDB的基础上提出了分类性能更好的动态二阶依赖贝叶斯(D2-DB)分类模型,简称全局模型,为了让该模型更精确,在对分类属性排序时考虑了已添加属性对新添加属性的影响,然后在已添加属性中为新添加寻找父节点,最终构建出一个完整的贝叶斯网络。全局模型提升幅度较低,为了大幅提升分类准确率,采用局部互信息和局部条件互信息按照D2-DB分类模型构造规则构建了局部二阶依赖贝叶斯分类模型(L2-DB),简称局部模型,该模型分类性能很不稳定。之后本文总结出了一个规律:优秀的贝叶斯分类器,其误判情况是相对模糊的。使用该规律能有效消除两个贝叶斯算法不相交的误判部分,因此可以利用其设计一个更精确的分类算法。使用错分模糊规律将局部模型与全局模型结合使用,取长补短,这就是自筛选贝叶斯分类器。实验证明,自筛选贝叶斯分类器适用范围更广,并具有更高的分类准确率。
其他文献
水平井技术成为川西地区增储上产的重要手段,但由于该地区地质条件复杂,地层不稳定,钻井过程中易形成岩屑床,同时还存在钻井液固相含量大,泥饼虚厚,前期循环不充分等问题使井
自媒体,是指使公众得以提供并分享他们的真实看法或发布新闻的一种即时的传播方式和载体,如博客、微博、网络论坛、贴吧、微信等新兴网络平台。自媒体强调发布信息的主体是个人
本文论述了分布式数据库的现状、存在的问题并探讨了将来的发展方向。
依照侵犯商业秘密行为类型的不同,可将侵犯商业秘密罪中"重大损失"认定标准对应分为三种情形,即非法获取商业秘密行为、非法使用商业秘密行为和非法披露商业秘密行为。非法获
武装直升机在现代战争中的作用日益显著,是夺取并控制低空超低空制空权最重要的武器系统,有着其他航空飞行器无可替代的优越性。低空作战的环境很复杂,对直升机机载武器的发射提
课题学习作为一种全新的学习方式,给学生提供了实践性、探索性和研究性学习的渠道,有利于培养学生主动探究和研究的精神,发展数学能力.本文从初中数学"课题学习"的类型、基本
随着信息科技的普遍应用,大数据已渗透到人们日常生活的各方面,对数据价值的挖掘越来越重要。大数据对新闻生产理念和生产模式带来了深远影响,在此背景下研究数据新闻的实践
成熟高效的数学课堂,需要教师不断修炼自己的"功力",把学生放在心中,把教学当成艺术。教师的"功夫"既要有精湛的数学功底,又要有驾驭课堂的能力和素质,只有这样才能应对课堂的瞬
对于整天忙来忙去的办公族来说,忙里偷闲和远方的朋友QQ一下,本来不算什么,但如果被要求严格的Boss发现,一个月的奖金就可能和你再见了。这里向大家推荐一款能够帮助大家以最快的速度隐藏当前工作界面(包括QQ聊天窗口和图标)的绿色软件“一点没”(下载地址:http://hi.baildu.com/ofree/blog,item/eb5a88d437ef5702a08bb745html)。  下载解压后
从体数据集中生成等值面是体可高化的主要技术之一。当体数据集的数据量很大时,计算量也随之增大,单处理机的存储与计算能力难以胜任其可视化要求,基于并行与分布式计算环境设计