论文部分内容阅读
马尔可夫网(Markov network)是一种无向图,是对不确定知识学习和推理的重要工具。它以无向边来表示变量间的依赖关系,具有直观、简便的特点。学者提出了很多从数据中学习Markov网的算法。但是随着数据的增长,已有的Markov网经常不能表示出增长后的数据所蕴含的知识。从增长后的整体数据中重新学习Markov网是一种直接的方式,但这意味着要完全抛弃原有网络和已有的信息,并对原有数据重复挖掘。从效率角度看,这种方法是不可行的。我们需要一种增量Markov网学习方法,在原有网络结构和新增数据的基础上得到新的网络结构。在假定相对原始数据,增量数据规模很小的情况下,本文提出一种增量Markov网更新算法(iMU),它充分利用原有网络和已有信息,先把主要工作集中在对增量数据的挖掘上,然后在原有网络结构上进行局部更新得到新的Markov网。这种方法将对原有网络的更新分为两步:结点更新和边更新。在结点更新的过程中,我们利用增量Apriori算法得到新的频繁项集,根据1-频繁项集将原有网络结构中的结点进行相应地删减。在边更新过程中,为了控制测试的边的规模,我们提出最需要更新子结构的概念,对最需要更新子结构内部的结点之间进行条件独立测试,增删相应的边。具体来说,如果有删除的点,我们在结点更新中一并删除与之相关的边。如果有增加的点,我们找出包含增加点的极大频繁集和与之有共同结点的极大频繁集,然后在增加点与这些极大频繁集中的相关结点间进行条件独立测试,添加相应的边。完成结点更新和边更新后,我们得到的Markov网就是能够表示新数据所蕴含知识的Markov网。最后通过对比实验验证,这种算法是正确和可行的。