论文部分内容阅读
关键词抽取是从文档中筛选出核心的词语,简要概括文档的主题。对于新闻文档来说,有效的关键词抽取可以帮助读者迅速筛选感兴趣的内容,提高用户体验。传统的关键词抽取技术主要考虑词语的统计特征,使得选出的都是出现频率较高的词语。然而有些关键词在文档中并没有很高的统计词频,这就造成文档和关键词之间较大的词汇差异。另外有些关键词语是由多个词组合而成,而这些词语并不存在于候选的关键词列表当中,这也会对关键词抽取的结果产生一定的影响。本文以新华社真实的新闻语料作为实验数据集,进行关键词抽取技术研究,通过构建"文档