面向微博文本的情绪与立场检测方法研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:ning012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,社交网络如微博上的舆情可以一定程度反映了整个社会舆情走势,而社交网络上的用户量和信息量爆炸性增长,如何对这些海量数据进行挖掘分析变得十分关键,因此近年来利用机器学习技术自动进行网络舆情分析吸引了很多企业与学者的关注。微博的整体舆情是每条微博的立场汇集而来的,本文的研究重点是分析每条微博文本的情绪与立场,有助于实时地监测掌握微博的舆情倾向。微博文本情绪检测是对微博文本表达的高兴、悲伤等多种情绪进行检测。本文首先利用了中文情感词典、英文情感词典、中英文翻译词典构建了中英情感翻译词典,将微博中的英文倾向性词语转化为中文情感词。然后结合了LSTM和CNN的特征抽取能力,充分捕捉到文本中包含的关键倾向性短语特征。与大多数已有工作为每一个情绪训练单独的模型不同,本文设计了统一模型同时预测所有情绪标签,各个情绪的表示使用自注意力机制进行关联,并利用动态损失函数来缓解正负标签不平衡的问题。在混合语言文本情绪识别的数据集上的实验表明,与多种深度学习方法与集成模型相比,本文的多标签同步预测模型与独立预测模型相比更加节省参数,并取得了较好的效果,进而提高了模型的应用性能。单话题目标立场检测是分析微博作者关于某一话题的立场是支持,反对还是中立。由于每个话题具有一定的语言特性,大多的方法都是为每一个话题训练一个模型,然而每一个话题的标注数据过少会导致模型的泛化性能较差。本文引入预训练的BERT语言模型和较为容易获得的文本情感分类数据作为辅助任务,设计跨话题的共享立场表示和私有立场表示,在微博立场检测数据集上提升了分类的效果,实验表明BERT和情感分析辅助任务的引入显著提升了建模能力。多话题目标立场检测是分析一条微博中包含的多个相关话题的立场。在选举,商品等领域中,作者经常同时比较多个相关目标对象。本文提出一种卷积注意力的模型,利用卷积注意力来关注给定话题相关的关键性情感语义部分,然后利用多任务训练的方式缓解数据缺失的泛化性困难,预训练一个通用的模型在不同的话题中,然后微调一个联合的网络提高适应性。实验结果表明,本文的方法在推特数据集上取得了最优的效果,进一步的实验分析表明注意力机制可以有效地捕捉关键信息,多任务学习方法也可以利用不同话题之间的通用语言学特征。
其他文献
50多年前温州能实现和平解放是各种因素综合作用的结果.其中,全国解放战争的胜利发展和浙南革命形势的日趋高涨起了决定性作用;而我党积极有效的统战工作和温州反对美蒋反动
2003年11月2日,宁乡县南田坪实验小学校长吴祖平收到了一封特殊的信函。函件称,为推动东西部地区教育均衡发展,中国教育学会、中国高等教育学会、中国教育报、国家教育部老干部
对17例我院出院诊断为气功所致精神障碍,经随访4 ̄5年结果进行回顾性诊断和评估,结果,病情稳定6例。再住院6例1例诊断为癔症性精神障碍,神经症1例,精神分裂症3例,病情反复发作6例,认为不能肯定气
处理好拖欠农民工工资问题,是各级劳动保障监察执法部门责无旁贷的事情,是解决农民工问题的重要保障。四川省劳动保障监察总队多年来都对此高度重视,2016年5月以来,先后多次
偏航变桨减速箱一般采用多级行星传动,由于受轴向尺寸的限制,也为了加工、装配方便,多采用单臂行星架结构,但单臂行星架存在刚性较差、受力不好等缺点。利用CAE技术对偏航变
每周6天,世界上最罕见的一份报纸都在下午3时许付印,但随后两小时拿到这份报纸的仅有50位缅甸白领人士,而编撰它的就是这一群新闻工作者。眼下,只是《仰光时报》(The Rangoon Time
一、设计游戏活动,增加英语教学的趣味性 青少年好表现,有激情,教师设计游戏活动时应把握好这一特点。要让学生寓知识于游戏之中,把枯燥乏味的单词、语法变得生动、活泼,趣味无穷
目的探讨并分析化脓性阑尾炎患者术后并发症的临床治疗情况。方法选择自2016年9月至2017年9月我院收治的60例化脓性阑尾炎患者为观察对象,并针对其术后并发症展开治疗,观察临
国家教育部关于职业教育“工学结合”的指导思想已经初见成效,2006年提出工学结合的发展思想后,职业教育学院经过几年的探索,也收获了很多经验。人才培养方案的改革与人才培养质
本文介绍了可视化对象建模技术(VMT)的基本思想,及利用VMT技术开发教学管理系统的过程.并通过对系统功能模块组成、数据库结构及逻辑关系的设计分析,论述了VMT技术的特点.经