论文部分内容阅读
随着网络媒体的迅速发展,网络上出现大量文本需要使用自然语言技术对其进行自动分析和处理。情感分析任务作为自然语言处理的一个重要组成部分,是让机器认知网络上语言的一个重要环节。近年来在情感分析任务中,有大量研究者使用基于统计的方法对情感分析任务进行研究。但随着情感分析任务研究的逐步深入,自然语言的非结构性、情感特征的复杂性及机器学习中的维度灾难,给情感分析任务设定了巨大挑战。词向量作为一种能够以较低的维度表现词语中深层次特征的数字表现形式,得到了自然语言处理领域国内外学者的热切关注,是该领域的研究热点。但自然语言处理中一般词向量的训练方法都针对词语的语义信息进行训练,而情感信息与语义信息之间的不同之处,使一般词向量无法直接用于情感分析任务中。针对情感分析任务提出的词向量训练方法还处于起步阶段,且仅有较少的方法用于训练含有情感信息的词向量。本文以词向量在情感分析中的应用为研究对象,通过分析词向量和情感增强概率语言模型的构建方法,将情感信息有效地融入语义信息,提出情感增强词向量模型(Emotion-enhanced wOrd Representation Model,简称为EeDOM)。其次,将模型中的情感增强词向量用于情感极性判别和情感词典构建,用以验证所提模型和算法的有效姓。本文的创新点可以归纳为:1)提出了情感增强词向量模型。首先,根据情感在文本之中的特点,提出适用于词向量训练的情感增强概率语言模型;其次,基于该概率语言模型,对词向量训练算法的输入特征、神经网络算法等多方面进行相应的改进,使其能够用于训练情感增强词向量。2)针对词向量的特点,本文提出了适用于词向量的支持向量机训练算法。该算法解决了句子中词语个数的不确定性与支持向量机需要确定维度之间的矛盾。该算法提出了基于n窗口的训练过程,是N-gram模型特征在SVM中的改进应用,能有效提高情感极性的判别效果。3)提出了基于情感增强词向量的文档情感词典构建算法。该算法基于DBSCAN聚类算法,使用情感增强词向量的余弦距离对文档中的词语进行情感距离上的分析。并以该情感距离构建基于文档的情感词典。本文基于真实数据集(“豆瓣”电影评论网站上的用户评论)做了对比实验。该数据集共包含643,242条评论组成,涉及2,737个电影。实验结果表明,本文所提出的情感增强词向量模型EeDOM能够显著提升情感极性判别任务的准确率:即EeDOM模型的情感增强词向量能够使情感极性判别的Micro-F1指标达到78.93,远远优于现有相关算法;其次,情感增强词向量在情感相似性方面也表现出良好的特性。基于该词向量相似性所构建的情感词典,在情感极性判别中获得有竞争力的效果。