论文部分内容阅读
数据挖掘又称数据库中知识发现(KDD),是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可解释的模式的非平凡过程,是一种从原始数据中获取隐含信息的工具之一.它的主要功能包括分类预测、关联规则、聚类、时序分析等.Bayes网络是分类预测的成功模型之一.该文讨论的是如何建构Bayes网络分类器的问题,其主要研究内容和创新如下:首先,该文从Bayes网络的基本理论出发,在国内外相关工作的基础上,发现建构Bayes网络存在若干问题.第一,要想得到准确的Bayes网络结构,即要得到很好的符合数据库中数据信息的Bayes网络结构,需要用户指定参数,这对用户来说是比较困难的;第二,要自动找到一个最佳的网络结构是一个NP难题.第三,通过不断修改网络参数来建构Bayes网络结构,是一个漫长的过程.针对这些问题,该文提出了在没有用户参与的情况下,仅仅根据数据库中数据信息,以Shannon信息论为依据,用互信息作为衡量两个随机变量间的依赖程度的测度,快速建构准确的Bayes网络结构的思想.然后,分别针对不同的情况,提出三个建构算法:1)提出了当描述数据的属性均为离散取值时,用互信息衡量属性间的依赖关系,建立了Bayes网络结构的朴素BNC算法.2)提出了EBNC算法.EBNC算法引进gini系数,用它对连续取值的随机变量的取值进行最优二分,使之离散化.然后再运用朴素BNC算法对经过预处理的属性集建构网络.3)提出了OSBNC算法.OSBNC算法用HBN-Tree记录数据流的中的有用信息,使得算法能够在只扫描一遍数据库的基础上,创建Bayes网络结构.如果在数据流上开标记窗口,则OSBNC算法可以用来处理数据流.最后,该文用ucidata测试数据对上述三种算法进行了实验和性能分析,和同样不需要领域专家参与的决策树分类算法进行了比较,发现该文算法的准确性在大多数情况下要好于决策树,且速度也较之要快.同时,实验也证实了OSBNC算法可以运用在数据流模型中.