论文部分内容阅读
频繁模式挖掘是数据挖掘领域的一个基本问题,其研究范围包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析,周期分析,最大模式,闭合模式,查询,分类,索引等等。随着网络的快速发展,频繁模式的挖掘已经推广到诸如图和树这类复杂模式的挖掘上,并广泛的应用于生物信息学、web挖掘、化合物结构分析等领域。本文对大量频繁子树挖掘算法,特别是基于模式增长的子树挖掘方法进行了深入的研究与分析,主要分析了基于模式增长策略下各种挖掘算法的实现方法与技巧,针对模式挖掘过程中侯选模式集的生成和支持度计算复杂的特点,以及重复运行挖掘算法而产生的时空消耗,提出一个简单高效的挖掘算法。本文提出了利用树的序列编码,按照模式增长方法来挖掘频繁子树的算法。算法引入基于数组结构的序列编码来表示树和森林;用最左路径扩展方法构造完整的模式增长机制;能够系统的根据树的拓扑结构,在频繁子树模式的各个增长点上构造相应扩展模式,把侯选模式生成巧妙地转化成有效扩展点的查找,这种方式不但保证了侯选模式生成完全无冗余,而且使支持度计算变得更加的简单可行,在此基础上,设计并实现了频繁子树挖掘改进算法TMG。本算法与基于Apriori的TreeMiner算法的比较,TMG算法具有更优的性能。适用范围更广,进行简单的变换后,可以对不同类型的树进行挖掘。