论文部分内容阅读
文本分类是解决网络信息过载的关键技术之一。传统的文本分类方法大多只考虑文本中词语的统计词频等特征,忽略了文本的语义信息,导致文本分类精度不高。针对这种问题,提出了一种基于语义距离的文本分类方法,该方法首先根据CHI方法进行文本特征选择,然后利用语义距离计算代表类别的特征向量集合,最后通过计算文本特征向量和类别特征向量之间的语义距离来确定文本类别。实验结果表明,该方法与其他方法相比,把文本的语义信息考虑在内,在进行文本分类方面具有较高的准确率。