论文部分内容阅读
随着数据库技术和网络技术的不断发展,人们需要面对的数据量越来越大,如何从这么庞大的数据中挖掘出人们需要的、感兴趣的信息成为了人们研究的热点和难点。数据挖掘在这个过程中凸显出来,变得越来越重要。文本挖掘是数据挖掘的一个重要组成部分,关键词抽取是文本挖掘中的一个最基本的工作。关键词抽取指的是利用计算机技术自动地从文本中抽取出能够反映主题内容的词汇,具有重要的理论和应用研究价值。关键词作为概括文本内容的最小单位,对自然语言的处理、文本自动摘要生成、文本分类、文本聚类和信息检索等,都有着很重要的实际意义。本文的主要工作是将序列模式挖掘技术应用到文本关键词抽取中,利用序列模式挖掘技术挖掘出文本中词语之间的一些语义关系,从而提高关键词的抽取质量。本文的研究内容主要有以下几个方面:(1)结合关键词抽取技术的国内外的研究现状,对现有的关键词抽取模型给出了简要的介绍,分析了各种关键词抽取方法的优点和缺点。本文对序列模式挖掘的概念给出了详细的介绍,同时介绍了典型的、常见的多种序列模式挖掘算法的执行过程和算法的优缺点。(2)重点介绍了SPAM算法,并将通配符限制条件加入到SPAM算法中,同时将SPAM算法应用于文本的序列模式挖掘中,挖掘出了文本中所有满足用户指定条件的词语模式。(3)主要研究的内容是将序列模式挖掘技术应用到文本挖掘中的关键词抽取过程中,提高关键词的抽取质量。本文提出一种基于序列模式挖掘的关键词抽取方法,利用序列模式挖掘算法从文本序列中挖掘带有通配符的词语模式,对词语模式进行分析获取反映词语之间语义联系的词语语义特征,通过机器学习算法对词语基本统计特征和语义特征进行学习,从而构造了关键词抽取模型。(4)根据本文的主要思想,构建了一个基于序列模式挖掘的关键词抽取原型系统。