论文部分内容阅读
随着网络技术的发展,信息呈爆炸式增长,如何从海量数据中快速地查找出所需信息显得尤为重要。关键词作为快速把握文章主题的一种重要方式,为用户进行快速的信息筛选提供了重要依据。关键词抽取技术已经被广泛地应用于信息检索、文本分类和内容推荐等领域。传统的关键词抽取方法,只统计词语的外部特征信息,而忽略了文章主题以及内部结构对关键词抽取性能的影响,导致抽取的关键词主题过于单一,甚至与文章的主题不相关。另外分词的错误也会导致抽取的关键词可读性不强。针对这些问题,本文提出了基于隐性主题模型与新词发现的关键词抽取方法,具体研究工作如下:提出了基于隐性主题模型的关键词抽取方法,通过结合文章主题信息和内部结构信息来进行关键词的抽取。该方法一方面通过主题模型构建文章主题,将文章中的词语都映射到主题空间中;另一方面,为了得到文章的内部结构,通过使用共现窗口的方法来创建文档图,最终结合PageRank模型与小世界网络模型来进行关键词抽取。实验证明,该方法能够有效地利用文章主题信息与结构信息,相比基于TFIDF的方法,该方法抽取出来的关键词对文章主题的相关度和覆盖度均有提高。提出了基于新词发现的关键词抽取方法,通过结合新词发现的方法来提高关键词的可读性。分词作为关键词抽取的初始环节,其性能将直接影响着关键词抽取的效果。分词系统最主要的问题就是新词识别,本文使用统计方法从语料中发现新词,避免这些新词被分词系统切错。同时也可以通过新词发现的方法对词语进行合并,将其组合为表达能力更强的短语,以此来提高抽取关键词的可读性。通过实验证明,该方法能够有效地提高系统的性能。