论文部分内容阅读
随着用户在互联网上交互模式的变化,微博等社交平台上均包含大量的实时信息及评论,针对这些短文本信息的情感语义挖掘对于公共事件的舆情分析、商业产品的市场营销、突发事件的公共关系处理等方面都有至关重要的作用。 在包含情感分析任务的自然语言处理框架中,由于语言文本的复杂性,将文本及其语义通过数字化表示是其他语言处理任务的基础。作为承载语义的基本单元,词的表示学习,也即词向量的学习成为自然语言处理任务中重要的前置工作。 而现有的词向量模型,往往只考虑局部上下文的信息,并不能表征词语本身的情感语义信息,不适合直接应用于情感分析领域。同时,如何更高效地利用学习得到的融合情感语义的词向量,将其应用于以情感分类为代表的文本情感分析任务中,也是本文要解决的一大问题。 针对上述问题,本文提出了多种面向情感分析的词向量学习模型,并以学习得到的包含情感语义的词向量作为输入特征,提出两种用于情感类分的卷积神经网络分类模型。本文的具体研究内容如下: (1)针对现有基于局部上下文的词向量模型不能很好地体现情感语义的问题,本文提出了基于强化语义的词向量学习模型,将文档本身作为模型的上下文,实现文档信息与局部上下文信息的整合。实验表明基于强化语义模型学习得到的词向量可以实现性能更好的情感分类,也即证明模型有效地扩充了词向量的情感语义信息。 (2)针对原始词向量模型未使用已标注的情感信息的背景,本文提出了基于外部知识的词向量学习模型,分别将情感标签作为模型的输入和预测目标,实现外部情感知识与原有模型的整合。实验表明,扩展模型学习得到的词向量可以实现更高性能的情感分类。 (3)基于前两部分研究内容,本文提出了融合强化语义与外部知识的词向量学习模型,将表征更大范围上下文的文档信息和情感标注的外部知识共同融合进模型中。实验表明,融合模型的性能优于单独使用一种策略的模型。 (4)以包含情感信息的词向量作为输入特征,本文提出了用于情感分类的单层卷积神经网络模型;同时融合词内部的字信息,提出了结合词内部信息的卷积神经网络。实验结果表明,本文提出的以融合模型的词向量作为输入特征,以结合词内部信息的卷积神经网络为分类器的情感分类处理框架相对baseline的性能有所提升,证明该分类处理框架的有效性。