论文部分内容阅读
在不确定环境下进行知识学习与推理是智能行为的基础。互联网的快速发展使得信息的采集、传播速度和规模达到空前的水平,数据量呈现爆炸式增长,人类已经进入大数据时代。有效地分析和挖掘这些量大、快变、多样、结构复杂的数据,获取新的知识并加以推理利用,已成为当今科技界高度关注的研究方向,同时也是支撑数据产业界的关键技术。因此,研究大数据中所蕴含的不确定性知识的有效学习和推理的理论与方法,具有重要的理论意义和实用价值。
贝叶斯网络提供了一种表示多变量联系概率分布的方法,同时是一种将概率统计应用于复杂系统领域、进行不确定性知识学习、推理和数据分析的工具。尽管有着坚实的理论基础,然而,由于模型本身的特性,在给定不确定信息下,贝叶斯网的结构学习、精确推理及近似推理问题都被证明是NP难的。本文分别从本质图构建、平凡图三角化、近似推理采样算法等三个方面进行了理论分析,并提出了一系列有效算法。
本文主要工作与贡献如下:
第一,针对不确定环境下的知识学习问题,提出了一种贝叶斯网本质图结构学习算法(MICGES)。首先采用一种新的不受关系类型影响的统计量MIC确定变量间关系,其次多次利用条件独立测试删除多余的边以及对无向边添加方向,构建网络结构作为GES的初始结构,最后利用两阶段贪婪搜索算法确定具有最高数据匹配度的最优贝叶斯网络结构。理论上证明了MICGES具有多项式时间复杂性。数值实验表明,MICGES能较快地确定出与数据匹配程度最高的本质图结构,从而能更高效地学习贝叶斯网络结构,与传统GES算法相较,该算法收敛速度和最优本质图评分都有明显提高。
第二,针对联结树推理问题,提出了一种新的基于BOA的贝叶斯网三角化算法(BOA_Tri)。首先将贝叶斯网络三角化问题转化为求解Moral图的最佳结点删除序列问题,其次采用改进的K2作为BOA算法中贝叶斯网络构建的方法,最后迭代进化得到平凡图的最佳结点序列。改进后的算法的种群进化策略避免了传统遗传算法中交叉算子和变异算子的适应度评价带来的随机性和盲目性,可有效的提高进化搜索的效率。在国际通用的数据集上测试表明,与ECGA、FDA以及原始BOA相比较,BOA_Tri算法可以准确地获得贝叶斯网Moral图的三角化网络,显著提高了不确定环境下联结树推理的效率。
第三,针对近似推理采样收敛性问题,提出了一种具有通用接受函数形式的MPM算法(GAF_MPM)。在具有归一化权重函数形式的MPM算法框架下,提出接受函数分解的约束条件,将接受函数α(x,y)分解为当前信息函数β(x,y)和历史信息函数γ(x,y|x*-k,y-k),给出了9类典型的接受函数,讨论了不同的接收函数选择对样本点接受率和相关性的影响。本文证明了GAF-MPM算法的收敛性,即满足细致平衡条件(Detailed Balance Condition),由GAF-MPM算法构造的马氏链收敛于目标分布。数值实验验证了该算法的收敛性和有效性。