论文部分内容阅读
现有的关键词抽取技术仅仅是对正文词汇的抽取,不能够抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点。众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法,可以有效抽取隐含主题。该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理。实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题。