基于互信息的Bayes网络分类器的构建

来源 :复旦大学 | 被引量 : 0次 | 上传用户:thinkthinkthink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘又称数据库中知识发现(KDD),是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可解释的模式的非平凡过程,是一种从原始数据中获取隐含信息的工具之一.它的主要功能包括分类预测、关联规则、聚类、时序分析等.Bayes网络是分类预测的成功模型之一.该文讨论的是如何建构Bayes网络分类器的问题,其主要研究内容和创新如下:首先,该文从Bayes网络的基本理论出发,在国内外相关工作的基础上,发现建构Bayes网络存在若干问题.第一,要想得到准确的Bayes网络结构,即要得到很好的符合数据库中数据信息的Bayes网络结构,需要用户指定参数,这对用户来说是比较困难的;第二,要自动找到一个最佳的网络结构是一个NP难题.第三,通过不断修改网络参数来建构Bayes网络结构,是一个漫长的过程.针对这些问题,该文提出了在没有用户参与的情况下,仅仅根据数据库中数据信息,以Shannon信息论为依据,用互信息作为衡量两个随机变量间的依赖程度的测度,快速建构准确的Bayes网络结构的思想.然后,分别针对不同的情况,提出三个建构算法:1)提出了当描述数据的属性均为离散取值时,用互信息衡量属性间的依赖关系,建立了Bayes网络结构的朴素BNC算法.2)提出了EBNC算法.EBNC算法引进gini系数,用它对连续取值的随机变量的取值进行最优二分,使之离散化.然后再运用朴素BNC算法对经过预处理的属性集建构网络.3)提出了OSBNC算法.OSBNC算法用HBN-Tree记录数据流的中的有用信息,使得算法能够在只扫描一遍数据库的基础上,创建Bayes网络结构.如果在数据流上开标记窗口,则OSBNC算法可以用来处理数据流.最后,该文用ucidata测试数据对上述三种算法进行了实验和性能分析,和同样不需要领域专家参与的决策树分类算法进行了比较,发现该文算法的准确性在大多数情况下要好于决策树,且速度也较之要快.同时,实验也证实了OSBNC算法可以运用在数据流模型中.
其他文献
实时操作系统中通常需要使用各种外部设备,并且要求对外部事件作出快速准确的响应,否则可能导致灾难性后果.此外嵌入式系统使用的设备种类繁多,往往需要用户自行编写相应的设
随着学术成果的蓬勃发展,学术论文大量涌现,如何从最新的学术论文中挑选出自己感兴趣的学术论文,成为科研人员亟待解决的难题之一。传统的学术推荐系统面临着如下三个问题:(1)需
传统的Web访问控制一般是通过口令,或公钥证书等手段对用户进行身份认证,然后根据服务器端的访问控制列表对用户进行授权.实践证明,传统的访问控制列表方式已经不能满足Web环
该将对传输层安全协议SSLV3.0进行研究分析,介绍在嵌入式系统中实现SSL协议客户端功能的过程.SSL是一个完整而开放的通讯协议,它概括了使用对称密钥算法、公开密钥算法、数字
网络数据管理协议(NDMP,NetworkDataManagementProtocal)是一个用于网络数据备份与恢复的开放性协议.遵循NDMP标准的服务器上不再需要安装其他备份代理,就能被NDMP兼容的备份
DOM(DocumentObject Model,文档对象模型)是由W3C组织制定的一个对象化的XML数据接口,一个与语言无关、与平台无关的标准接口规范.它定义了HTML和XML文档的逻辑结构以及存取
计算机图形学中的流体场景模拟,无论在传统的影视特效、广告、三维游戏开发等领域,还是在逐渐兴起的虚拟现实、增强现实等领域,都有着广泛的应用和研究价值。然而,由于流体形态的
用户行为研究对互联网服务提供商保证应用的稳定、可靠、高质量,以及控制成本提高效率有非常重要的意义。各种应用的用户请求数据海量且特征多维度,分析要求及时性和准确性,不同
随着通信网络的迅速发展,通信网络规模越来越庞大,结构也越来越复杂.为了让一流技术的网络也能发挥一流的效益,关键在于提高网络的管理、维护水平.网管系统的建设,正是提高网
组件化可拔插的服务框架采用完全开放和可插入的体系结构,服务框架由服务请求者、服务分发器、服务引擎和具体服务四个部件组成.在服务框架下,调用不同类型服务的服务插件可