论文部分内容阅读
近年来,随着互联网技术的快速发展,网络中的文本等信息、呈爆炸式增长。对互联网中的新闻文本信息进行分类可以快速提取出用户所需要的信息。因此,如何提高新闻文本分类的高效性和准确性,提供高质量和智能化的新闻文本分类服务具有重要意义。特征选择和特征提取是新闻文本降维的主要手段。常用的特征选择方法默认在均衡数据集上进行特征选择,而在偏斜数据上表现较差。除此之外,已有的文本特征选择方法往往存在一定的缺陷。例如,TF-IDF方法选取的是反映文本集合的特征,而没有考虑这些特征对类别的区分能力;互信息和卡方检验方法往往具有“低频词缺陷”的问题。在文本特征提取过程中,向量空间模型表示的特征向量具有高维性和稀疏性的特点,不能捕捉到特征之间的语义语法关联。针对已有特征选择和特征提取方法中存在的上述问题,以及文本数据普遍存在的类别样本不均衡问题,本文做了以下几个方面的工作:1.针对新闻文本数据集存在的类别样本不均衡问题,本文提出了两种新的基于方差的特征选择方法:1)基于类间概率分布方差的互信息特征选择方法;2)基于文档分布方差的TF-1DF特征选择方法。类间概率分布方差和文档分布方差是每个特征在不同类别中的词频和文档频率方差,该方差仅与类别样本特征有关,与不同类别样本数目无关。因此,本文所提方法能够有效地提取出“小”类别样本的特征,解决类别样本不均衡问题。实验结果表明,相比于已有特征选择方法,本文所提出基于方差的特征选择方法能够筛选出新闻热点词汇,提高新闻文本分类效果。2.本文在对互联网新闻热词的上下文规律进行统计分析的基础上,采用指数衰减模型改进Word2vec词向量训练框架,以提高词向量的精确度。原Word2vec训练框架认为上文对目标词预测的作用是线性衰减的,而自然语言中上下文对目标词的影响随着距离的增加快速减小,指数衰减模型更接近真实情况。实验结果表明,相比于原VWord2vec司向量训练框架,本文采用的基于指数衰减模型改进的Word2vec词向量训练框架可以训练出更加精确的词向量。3.针对经典向量空间模型在特征提取中的问题,本文采用词向量进行特征提取,将文本特征词词向量叠加所组成的向量作为新的特征向量。实验结果表明,在基于方差特征选择方法的基础上,特征词词向量叠加所得文本特征向量在文本分类中表现出良好的性能,能够进一步提高新闻文本分类效果。本文针对文本分类中已有特征选择和特征提取方法存在的问题,以及文本集中类别样本不均衡问题,以互联网新闻分类为应用背景,提出的基于方差的特征选择方法可以选出“小类别中的特征,提高非均衡新闻集的分类效果:基于指数衰减模型改进的Word2vec司向量训练框架,训练出更加精确的词向量;词向量用于特征提取时,能够在基于方差的特征选择基础上进一步提高新闻分类效果。