论文部分内容阅读
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识.数据挖掘是信息技术自然演化的结果.目前数据挖掘技术已成为机器学习、数据库系统、人工智能等领域内热门的研究方向.贝叶斯(Bayesian)网络近年成为数据挖掘引人注目的研究方向.与数据挖掘其它方法相比,贝叶斯网络的优点是可以综合先验信息和样本信息,这在样本难得时特别有用;可以发现数据之间的因果关系,适合于处理不完整数据集,这是其它模型难以做到的.贝叶斯网络的学习也就是要找出一个能够最真实反映现有数据集中各数据变量相互之间的依赖关系的贝叶斯网络模型.该文提出了一个贝叶斯网络学习模型的优化策略,即概念层次+(MIAC方法+Jie Cheng&David Bell算法)+BC算法,对在不完整数据集和存在连续属性的情况下贝叶斯网络的学习做了些小小的研究工作(在该文中着重研究了贝叶斯网络结构学习方面).在第三章中,将面向属性归纳中的概念层次方法引入到学习模型中,通过大量文献阅读,将文献中的AGHC算法和AGPC算法引入到本文中,经比较分析,选取了效率更好的AGPC算法作为我们的自动分层算法,为贝叶斯网络学习用于连续属性数据的提供了一点可供借鉴的小经验.基于相关性分析的BN学习算法和基于记分搜索的BN学习算法各有其优缺点,该文将两者结合,即采用Jie Cheng&DavidBell算法学习BN结构和BC算法用于不完整数据下的BN参数学习.该文对JieCheng&David Bell算法进行了局部的小优化,使之效率更高,并借鉴BC算法思想提出了一种互信息近似计算的方法(MIAC,Mutual Information ApproximateComputation),其可用于基于相关性分析的算法,对在不完整数据集下学习贝叶斯网络结构还是有一些实用意义;最后通过基于该文的一个课题,给出了贝叶斯网络学习在一个EPAD系统中的应用.