论文部分内容阅读
随着互联网时代的发展,各类数据层出不穷,新闻数据更是呈指数爆炸式增长,通过人工对新闻文本进行分类得越发困难。自动文本分类技术作为自然语言处理的重要分支而受到学者们的广泛关注。文章首先对新闻文本进行数据预处理,随后重点研究了TF-IDF和Word2vec两种不同的文本表示方法,采用KNN算法完成新闻文本分类对比,实验结果表明Word2vec表示的特征向量在新闻文本分类中取得了较好的分类效果。