论文部分内容阅读
在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,每天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在以往的关键词提取算法中,人们忽略了两个重要的方面;一是词语长度;二是文本主题。本文考虑了以上两方面问题,针对中文文本主题关键短语提取算法进行了研究,主要研究内容如下:1.建立了一种新的面向中文文本的提取主题关键短语的算法。该算法具有以下新特性:(1)基于KERT的算法框架,将LDA主题模型与频繁短语发现算法相结合,提取综合文本集合中隐含主题的关键短语,有效缩小候选短语集的大小;(2)本文提出了改进的排序算法,能够剔除不完整的候选短语,避免提取结果中出现关键短语及其子短语共现问题,再将不同长度的候选完整短语进行排序选择;(3)本文的主题关键短语提取算法能够同时提取出短语级和词语级的中文关键词,井且能够同时适用于长文本集和短文本集.2.对建立的中文文本主题关键短语提取算法进行了实证研究,研究结果表明,本文算法提取关键短语的效果符合人们的理解,避免了关键短语及其子短语共现问题;提取效果在精准率和F1值评价指标上也均优于KERT算法。