论文部分内容阅读
随着社交媒体发展的重心从PC端转向移动终端,自媒体的发展也进入了新的阶段。越来越多的人成为网络内容的生产者,人们也越来越倾向于在微博等社交媒体上表达自己的观点和意见。对用户发布的这些内容进行数据挖掘或情感分析,不仅有助于企业进行决策,也可以帮助政府进行舆情管理和政策制定,具有显著的商业价值和社会意义。情感分析作为自然语言处理领域的一个重要分支,已有大量国内外学者进行了研究,除了计算机学科的研究工作人员,还吸引了大量社会学和计算机学等交叉学科的研究者。传统的情感分析方法大致可以归类为基于词典或规则的方法以及机器学习的方法。前者需要耗费大量的人力资源,同时,由于网络用语演变速度极快,给词典的维护带来了困难,故而该类方法在实际应用中存在一定局限,一般作为辅助手段。后者十分依赖人工进行的特征工程,训练出的模型泛化能力比较差,无法满足跨领域的情感分析需求。而近年来深度学习方法发展迅速,其不仅可以自动学习数据特征,而且一些网络因其结构的优越性十分适合用于文本分析。以微博和Twitter为例,当前的大部分深度学习方法往往只关注单一的文本信息,而忽略了含有重要情感线索的其他媒体信息(例:等表情符号)。而那些注意到这些信息的方法并未有效解决表情符号的情感歧义问题,也没有深入研究表情符号对文本情感表达的影响。为了改善过去研究方法的不足,本文提出了一种综合多维度信息的表情符号表示模型以及一种基于两层注意力机制网络的情感分析模型,并给出了相关理论的假设证明。本文的主要研究工作包括:(1)提出了一种综合多维度信息的表情符号表示模型,首先进行假设检验来说明对于某个用户,其使用表情符号的行为是相对固定的,即对于某个用户,其使用表情符号的情感极性是相对固定的。然后使用共现信息和词嵌入模型来得到非歧义表情符号和歧义表情符号的情感极性,至此得到表情符号的情感信息,同时,联合表情符号的位置信息、语义信息以及出现次数信息等共同构成了表情符号的表示。(2)提出了一种基于两层注意力机制网络的情感分析模型,在使用词级别注意力机制获得分句向量后,结合表情符号表示向量,再使用分句级别的注意力机制来探索表情符号对同一文档中不同分句的情感影响,进而得到文档向量,将文档向量投入分类模型得到情感二分类的结果。(3)在两个真实世界数据集上的实验表明,多维度信息的表情符号表示方法优于传统的只使用表情符号情感信息的表示方法,另外也说明加入用户身份信息确实可以在一定程度上消除表情符号的情感歧义。同时加入整合了表情符号表示的注意力机制的模型优于其他现有的深度学习模型,这验证了本文提出的表情符号表示方法的有效性,也说明了表情符号对于分句情感表达具有一定的影响,表明分句级别注意力机制的理论基础具有合理性。