新闻文档关键词抽取技术研究

来源 :科技传播 | 被引量 : 0次 | 上传用户:bad_47
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词抽取是从文档中筛选出核心的词语,简要概括文档的主题。对于新闻文档来说,有效的关键词抽取可以帮助读者迅速筛选感兴趣的内容,提高用户体验。传统的关键词抽取技术主要考虑词语的统计特征,使得选出的都是出现频率较高的词语。然而有些关键词在文档中并没有很高的统计词频,这就造成文档和关键词之间较大的词汇差异。另外有些关键词语是由多个词组合而成,而这些词语并不存在于候选的关键词列表当中,这也会对关键词抽取的结果产生一定的影响。本文以新华社真实的新闻语料作为实验数据集,进行关键词抽取技术研究,通过构建"文档
其他文献
高中压缸合缸机组中对中轴封漏汽率须采用单独的变温度试验确定,其中,中压缸排汽参数测量对中轴封漏汽率试验结果的影响很大。对不同中压缸排汽参数的测量位置下对中压缸通流
延安是新中国广播事业的发祥地,延安新华广播电台是我党创办的第一座广播电台,在中国革命史和新闻史上留下了浓墨重彩的一笔。但是,延安广播事业的发展现状令人堪忧,在当下新