论文部分内容阅读
随着互联网的高速发展和移动终端的广泛使用,人们在各类社会媒体平台上自由发表评论和表达情感,随时随地分享即时新闻,由此产生了大量以短文本作为载体的信息数据。但信息资源的爆发式增长也给有效信息的筛选及利用带来更大的挑战,短文本自动分类可以在一定程度上解决这一问题,取代传统的人工管理方式,有助于用户快速定位所需信息,选择性地阅读和处理海量文本。本文主要研究内容如下:1.本文首先描述了当前短文本分类的应用背景和研究现状,并分析了其中关键的环节是要对短文本的表示模型进行深入研究。在总结短文本特点的基础上分析使用传统的表示模型---空间向量模型进行短文本表示的不足。提出了借用“词向量”这一新型表示模型对短文本进行描述的方案,试图利用词向量中丰富的上下文语义信息来提升分类效果。目前主流的神经网络分类方法中将词向量局限于文本预处理过程,对词向量的深入优化不足,因此,本文从新型文本表示模型---词向量出发,着重研究对词向量模型的改进,提高词向量表示的质量进而提高短文本分类效果。2.通过进一步的分析,针对“词向量无法很好处理中文文本中存在的一词多义,对多义词的语义特征表示有所偏差”这个具体关键问题,本文深入研究Word2vec词向量的生成机制,提出一个新的概念---“主题-词向量”,该概念不仅能刻画上下文语义信息,还包含了主题信息。通过分析发现,词向量属于细粒度的特征刻画,而主题向量对词语间关系的描述更加粗放,二者适度融合,使用多粒度特征协同表达多义词,能提高多义词表示的准确度。同时,提出一个名为“Topic-SG”的改进模型实现对主题-词向量的计算:在Word2vec模型中常用的Skip-Gram模型的基础上引入主题模型,根据上下文语境不仅训练出词向量还训练出与之对应的主题向量,利用词向量和主题向量融合得到相同多义词在不同主题下的主题-词向量,一定程度上缓解中文中高频出现的多义词对短文本表示的特殊影响。3.本文在主题-词向量的基础上研究短文本合成过程中的结合方法,探讨词语对短文本表示贡献度不同的问题,引入TF-IDF算法计算词语的权重,并对主题-词向量加权求和以表示短文本向量,最后输入分类器完成短文本的分类流程。4.通过将主题-词向量运用在搜狗新闻文本数据集上进行多义词表示及短文本分类的实验,并比较不同参数对实验的影响。实验结果表明较于参照方法,本文所提的基于Topic-SG语言模型计算出的主题-词向量能解决传统词向量混合了多种语义的问题,且主题-词向量应用于短文本分类效果更好。