论文部分内容阅读
XML是一种自描述的元标记语言,它是完全面向数据的。它的扩展性和灵活性允许其描述不同结构的Web站点的数据,从而能够使不同来源的数据容易地结合在一起,因此人们逐渐采用它作为信息表示和交换的标准。同时,由于基于XML的数据是自我描述的,数据不需要内部描述就能被交换和处理,这就为组织、软件开发者、Web站点和终端使用者提供了许多有利条件。 随着XML的在各个领域的广泛使用,从XML中抽取有价值的信息就显得越发的重要,尤其是发现隐藏其中的规则和模式。因此,XML中的频繁模式发现问题就成为了一个重要的研究领域。 本文介绍了数据挖掘、半结构化数据挖掘、XML的相关概念和研究现状,提出了一种面向XML的树型对象模型TOM。然后以TOM为数据模型,对XML中的频繁模式发现问题进行了研究,提出了一种基于XML的频繁模式发现算法XMLMINER。最后为了进一步提高算法的效率,我们使用了一种修剪策略对XMLMINER算法进行了改进。 本文所做的主要工作和创新点如下: 1.分析了半结构化数据模型和XML数据内容,针对半结构化数据模型描述XML数据存在的缺陷,提出了一种面向XML的树型对象模型TOM,作为XML数据挖掘任务使用的数据模型; 2.在TOM模型的基础上,我们提出了XMLMINER算法挖掘XML中的频繁模式。XMLMINER算法的关键问题在于候选子树的列举和支持度计算。我们改进了TreeMiner算法的前缀等价类技术以产生候选子树,并采用出现列表技术计算候选子树的支持度; 3.提出了一种修剪策略对XMLMINER算法进行改进。根据修剪策略,我们可以直接从某些已知频繁子树中产生某些未知频繁子树,因此减少了算法在候选子树的列举和支持度计算上的开销,从而提高了算法的效率。