论文部分内容阅读
实际应用领域中产生了大量的序列数据,例如:超市顾客购买数据、信用卡交易记录、电信数据、DNA和蛋白质序列、文本数据等,这些序列数据中隐含着丰富的有价值的知识亟待挖掘。序列模式挖掘,旨在从序列数据库中挖掘频繁出现的序列模式,已成为数据挖掘领域中一项非常重要的研究任务。然而,模式的出现并不都是连续的,模式中每两个连续字符之间可能含有灵活的通配符。例如,在生物序列中,模式的相邻字符之间可能插入或删除较短的序列片段。因此,带有通配符的序列模式挖掘研究不仅具有理论上的研究价值,而且在文本挖掘、生物信息学、传感器网络等领域都有着巨大的应用价值。本文围绕带有通配符的序列模式挖掘及其在文本领域中的应用开展研究,研究内容涉及三个方面:(1)定义同时具有间隔约束和one-off条件的带有通配符的序列模式挖掘问题;(2)带有通配符的序列模式挖掘算法设计与分析;(3)将提出的带有通配符的序列模式挖掘算法应用在文本领域,利用挖掘的文本模式分析词语之间的语义关系,抽取出关键词。主要研究内容和创新之处如下:(1)带有通配符的序列模式挖掘问题定义。给定序列S,用户定义的间隔约束g,以及最小支持度阈值min_sup,从序列S中挖掘同时满足间隔约束和最小支持度的频繁序列模式,并且要求模式在序列中的出现满足one-off条件,即模式的任意两次出现都不共享序列S中同一位置的字符。针对这一问题,提出一种基于宽度优先搜索的带有通配符的序列模式挖掘算法One-off Mining,基于一遍扫描技术计算模式在序列中同时满足间隔约束和one-off条件的支持度,利用Apriori性质,由长度为k-1的频繁模式进行连接,生成长度为k的候选模式。实验结果表明,One-off Mining算法在挖掘更多的频繁序列模式情况下,时间效率得到了显著地提高。(2)提出一种基于模式扩展的带有通配符的序列模式挖掘算法MAIL,利用前缀模式的出现信息,构造扩展模式的候选出现空间,有效地降低了模式挖掘过程中产生的候选模式的规模,同时避免了每次计算模式支持度时都需要重复扫描序列。设计了两种对候选模式出现进行有效约简的剪枝策略:最左优先剪枝和最右优先剪枝,讨论了两种剪枝策略对带有通配符的序列模式挖掘算法性能的影响。实验结果表明,MAIL算法能进一步提高解的完备性和算法的时间效率。(3)在MAIL算法基础上,提出一种层次有向无环图数据结构,能在多项式时间和空间复杂度内,构造和存储指数量级的模式的候选出现,利用深度优先搜索策略对层次有向无环图进行遍历,计算模式的支持度。从理论上证明,基于层次有向无环图的带有通配符的序列模式挖掘算法,在模式扩展过程中不会丢失解,在对图进行深度遍历计算模式支持度时,能够获取模式的优化解。从实验角度验证基于层次有向无环图的序列模式挖掘算法计算出的解接近最优解的精度达到90%以上。(4)基于文本模式的关键词抽取研究,将带有通配符的序列模式挖掘算法应用在文本挖掘领域的关键词抽取任务中。针对文本序列数据库具有的长序列、大字符集等特性,将基于层次有向无环图的MAIL算法进行了改进,以提高文本序列模式挖掘的效率。从文本序列中挖掘带有通配符的词语序列模式,分析词语之间的语义关联性。利用机器学习分类算法对获取的词语模式特征进行学习,构造关键词抽取模型,讨论了不同的模式特征对关键词抽取算法性能的影响。实验结果表明,词语的模式特征能够提高抽取关键词的质量,并且不受具体语言和知识库的限制。提出一种基于词汇链的新闻网页关键词抽取方法,利用知识词典HowNet获取词语语义知识,借助词汇链模型计算词语在文档中的重要度,提高新闻网页关键词抽取的凝聚性。