论文部分内容阅读
随着信息的爆炸式增长,人们日益变得在信息垃圾当中不知所措。如何从这些无用的信息中挖掘出对我们有用的知识是近几十年来数据挖掘的主要研究目的。最初的数据挖掘的对象是结构化的关系表和事务数据库。到目前为止,该领域已经有了长足的发展。然而,随着数据挖掘应用领域的不断扩大,如何从半结构化和非结构化数据当中发现知识呢?这是目前研究人员所面临的技术难题,因为传统的数据挖掘算法不能有效的应用到这些领域中来。图结构能够模拟几乎所有的事物之间的联系,它也能应用到上述半结构化和非结构化的数据挖掘中来。基于图的数据挖掘已成为数据挖掘中的一个新的研究热点。基于图的数据挖掘有广阔的应用空间,如在We挖掘、空间数据挖掘、生物信息学中蛋白质结构挖掘、药物分子设计及其功能预测等领域都有广泛的应用。树是一种特殊的图,对频繁子树挖掘算法的研究有着重要的理论意义和应用价值。 本文工作主要包括以下几部分:(1)在分析当前频繁子树挖掘定义的基础上提出了基于支持度和频繁度的频繁子村挖掘定义;(2)为计算模式子树的支持度和频繁度,提出了一种基于树同构的候选子树支持度与频繁度的计数方法;(3)提出了森林的二维表表示方法,这提高了对数据库访问的速度;(4)提出了一种新的候选子树的生成方法,通过在数据库的基础上生成新的候选子树,从而减少了为了计算子树的支持度而进行的无效的树匹配问题;(5)提出了频繁子树挖掘算法FSubtreeM,它能有效地从自由树数据库中挖掘频繁的导出自由树。 实验研究表明,FSubtreeM能有效地从实验数据库carcinogen中挖掘其中的频繁导出自由子树结构,并根据频繁结构集提取有趣的关联规则,有一定的理论意义和应用价值。