论文部分内容阅读
随着互联网的飞速发展,我们每天面对着越来越多需要处理的文本信息。如何从海量的文本信息中提取出所需要的目标信息,从而给人们更好的服务与体验是我们面临的一项主要挑战。文本分类算法则是完成这项挑战中的一项重要技术。文本分类作为一项基础技术,已经涉及到图书馆智能化管理、新闻个性化推荐、文本情感分析、文本信息过滤等方面,这些应用使人们的生活更加便捷。本文在分析原有的文本分类技术的基础上,发现原有算法的不足,从而提出了一种新的文本特征提取框架,主要工作内容如下:(1)分析了词向量算法可以计算词语间相似度,将其引入到文本分类特征提取中有利于构建更优秀的特征,选择了性能和速度都更优秀的Word2Vec词向量计算算法。但是词向量无法解决一词多义问题,而且词向量只表示了上下文词语关系,缺少文本全局信息。本文提出了一种将主题与词向量计算结合的方法,得到了与词向量类似的主题向量。因为相同的词语可能具有不同的主题向量,并且主题向量是一种全局级别的信息。将主题向量和词向量结合的方法,在改善了一词多义问题的同时引入了全文信息。(2)一些文本特征提取方法直接使用词向量累加或者类似的低维度特征方法。这种低维的特征对表达字典维度巨大的文本特征不利,抛弃了高维向量空间模型对文本分类问题的优势。文本提出了一种保留向量空间模型的Adaptive-means聚类算法,这种自适应聚类算法将词向量与主题向量结合,使得在文本中含义相近的词语聚为一类,从而在最终文本特征表达时相似的词语对特征贡献相同。本文还利用n-gram增加上下文信息,以及对短文本特征进行扩展,得到最终的文本特征。(3)本文利用两种新闻数据集对算法进行验证,并将本文算法的结果与其它已有算法进行比较。验证了利用词向量和主题向量表示文章特征的优势,同时验证了这种高维的向量空间模型得到的特征与低维度特征相比的优势。最后对实验中参数选择进行了分析,得到了参数选取的一般性方法,最终确定了一套文本分类方案,为项目后续的新闻推荐工作提供分类结果。