论文部分内容阅读
随着微博这类社交平台不断地壮大发展,基于微博语料的分析技术也备受学术界的关注,其中,情感分析技术更是成为其热门研究领域。在情感分析任务中,基于语料库上下文信息训练的词向量并不能很好地区分语境相同但语义不同的词汇,这会导致“语义相反的词,具有相似度高的词向量”,从而降低情感分析的精度。本文主要研究中文微博的情感分析,为了缓解上述问题对情感分析任务的影响,本文重点研究了情感词向量的优化,提出了一种结合情感词典的情感词向量优化模型。此外,情感词典是自然语言处理领域至关重要的研究工具,对它构建的研究有着重要的意义。本文由于需要使用带情感强度标注的情感词典,所以对其构建方法进行了研究,提出了一种融合SO-PMI算法、HowNet词汇相似度和词向量相似度的情感词典构建方法,并将其运用到本文提出的情感词向量优化模型中。本文所做的主要工作如下:(1)考虑到本文需要用到有情感强度等级标注的情感词典,我们在现有的研究基础上,提出了一种情感词典构建方法。该方法融合了SO-PMI算法、HowNet词汇相似度和词向量相似度,弥补了以上方法的缺点,能半监督地构建带有情感强度等级划分的情感词典。通过实验证明,我们的情感词典构建方法优于传统的SO-PMI算法和同样结合HowNet的改进方法,并且,它提供的情感强度等级可以为人工的情感强度等级划分提供参考。(2)为了在一定程度上解决情感分析任务中,部分情感词向量存在的“语义相反,但词向量相似度高”的这一问题,本文首先讨论了上述问题的成因和词向量被调整后的改变和影响,然后在现有的方法上得到启发,提出了一种情感词向量的调整优化方法。该方法结合情感词典并基于词向量相似度判断,选择一个情感词向量为起点进行优化调整,通过在一定的相似度范围内,交换情感词的向量表示,让情感词被交换到更适合其存在的位置。这样,使得相反含义的情感词向量相互远离、相同含义的情感词向量按强度相互靠近。然后,通过广度优先搜索慢慢扩大优化范围,最后完成对情感词向量的优化。(3)我们将优化后的词向量用于微博评论的情感分析模型训练,分别尝试运用到基于CNN模型和基于Bi-LSTM模型的情感分析上,进行实验分析对比。实验结果表明,与采用优化前的原始词向量的情感分析模型相比,采用本文提出的优化词向量的情感分析模型,无论是整体的准确率,还是积极和消极情感极性的F1值都有一定的提升,从而验证了我们的优化词向量的有效性。