基于深度学习的情感词向量及文本情感分析的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:ferer1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分析识别给定文本或其中片段(如句子、短语或词)的情感极性(正、负或中性)或情感强度(强或弱)。情感分析应用在产品评论分析可以识别用户对产品的情感,为商家和其他用户提供决策支持。以往研究多采用人工抽取特征和机器学习算法相结合构建识别系统。然而,人工抽取特征需要专家的领域知识,系统适应性差,人力成本高。近年研究者开始使用深度学习的方法来自动抽取特征。深度学习在自然语言处理中最基础的一个研究成果是词向量,即词的分布式语义表达,并在许多传统自然语言处理中得到应用。但是传统词向量根据上下文学习获得,包含语义和语法信息,缺乏情感信息,不能很好的解决情感分析任务。为了将情感信息融入到词向量中,本文第一部分工作提出了两个情感词向量学习框架,即,基于谷歌提出的Skip-gram模型的框架和基于卷积神经网络模型的框架。在每个框架中,根据情感和语义信息融合策略的不同,我们又分别提出三个具体模型。为了验证学习得到的情感词向量是否包含语义和情感信息,本文分别在不同语言、不同领域的多个数据集下进行了大量定性和定量的比较实验。这部分相关工作分别发表在2015年IALP会议和2016年IJCNN会议。为了将词的情感语义表达扩展到长文本上,本文第二部分工作提出基于深度学习的卷积神经网络对长文本进行情感语义建模,解决长文本(句子)情感分类。这部分相关工作应用在SemEval(国际标准语义评测)2015年和2016年的推文情感分析中,相关论文发表在2015和2016年SemEval会议上。更进一步,为了预测情感强度,本文第三部分工作将情感词向量与传统人工特征结合,构建有监督的排序模型预测情感强度。在2016年SemEval竞赛的英文短语情感强度预测任务中,这部分工作获得了第一名的好成绩。本文在不同文本层面(词、短语以及句子),不同语言(中文和英文)和不同领域(推文和评论)中进行了大量定性和定量的实验。实验结果表明,本文提出的情感词向量能有效包含情感和语义信息,模型具有较好的泛化性。
其他文献
幸福是一种人们希望它延续不断、长久存在下去的存在方式,是德之至善;但是在现实生活中,人们幸福感不多,或者说比较稀缺。原因之一就是缺乏一种体验和创造幸福的能力。提升幸
【正】 《菩萨蛮·大柏地》一词,是毛主席在粉碎国民党反动派对苏区的第四次大"围剿"胜利之后,于1933年夏天重游当年大柏地战场而写下的名篇.词云:赤橙黄绿青蓝紫,谁持彩
全球经济一体化促进了我国对外宣传工作的不断发展,而外宣翻译的质量直接决定着对外宣传的效果。本文从政治素质、语言基本功、跨文化交际意识、知识素养以及工作态度五个方
<正>1956年10月爆发的震动世界的波兰危机和匈牙利危机,对国际共产主义运动的发展以及社会主义阵营内部关系的变化,产生了深刻影响,对1956~1957年中国社会发展道路的突然转轨,
测绘与国土资源管理就是服务与被服务、保障与被保障的关系,因此,把测绘与国土管理紧密结合,才能更好的发挥测绘的作用。该文提出利用GIS技术的空间信息管理、存储、表达、分析
本文首先论述了现行持续督导制度要求,并在期限、内容、结束条件等方面对股权类、债权类投资银行业务与股转系统推荐业务持续督导工作进行了比较;其次,指出了股转系统推荐业
建立了锅炉二次风箱到炉膛出口的压降计算模型,基于该模型,给出锅炉二次风挡板特性冷态试验数据的处理方法:挡板在100%开度下的阻力系数作为已知常数,采用该开度状态下二次风
在高中阶段的区域地理复习过程中,大多数教师往往以某一教辅资料为载体,从大尺度区域人手复习世界地理和中国地理。例如,复习世界地理的顺序往往是从亚洲(东亚、东南亚、南亚、中
中药炮制学研究既是中药研究的重要组成部分,又是中药现代化所必须首先揭示的理论基础内容之一.目前对于中药炮制文献的研究分析却未见报道,而<中国中药杂志>经文献统计学统
中国早期的民族动画创造了中国动画的辉煌,确立中国动画在世界动画中的地位,然而中国特色传统动画在当代没有发射出它应有的光芒,原因是多方面的,有市场也有技术方面等原因。要使