基于主题模型的社会情感检测

来源 :东南大学 | 被引量 : 0次 | 上传用户:sunboy0214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的快速发展,越来越多的互联网用户不再局限于从网络上获取信息,而是更加乐于在网络上表达观点、交流情感。情感分析是指利用自然语言处理、文本分析、计算语言学系统地识别、提取、量化、研究情感状态和主观信息。情感分析被广泛应用于评论、调查结果、在线和社交媒体以及临床医学中。社会情感检测,作为情感分析下面的一个任务,主要任务是检测新闻触发的读者情感,大量的读者对于新闻的情感反映了公众的观点与态度,具有重要的现实意义。在现有的方法中,判别模型忽略了文章中隐含的主题信息并且只能得到一个分类结果,无法用来分析产生情感的原因。而生成模型(例如主题模型)则通常做出词袋假设,忽略了单词的顺序,认为文档中每个单词的主题和情感是相互独立的,这种过度简化有利有弊。因此,本文针对使用主题模型进行社会情感检测进行研究,并且致力于摒弃词袋假设,考虑文档中单词的关系,本文的主要工作如下:1.考虑文档中句子结构以及相邻句子间关系并引入主题模型来进行社会情感检测,我们提出了一种结合了隐马尔科夫模型和主题模型的主题-情感转移模型,即TET模型(Topic-Emotion Transition Model)。该模型考虑了句子结构和相邻句子间主题和情感的转移,可以同时用于文档级别和句子级别的情感分析并且考虑了情感间的相关性。TET模型在文档级别和句子级别上的情感分析结果在两种评价指标上都高于当前最好方法。2.引入概念(concept)到主题模型并且同时对情感、事件类别、主题建模来进行社会情感检测。我们首先提出了一种基于依存关系抽取的概念抽取方法,以及情感-事件类别发现模型,即EECD模型(Emotion and Event Category Discovery Model)。EECD模型中处理的基本单位是概念,概念包含了单词共现的信息,单词又能够联系起具有语义相关性的概念。在EECD模型的基础上,通过词向量引入泛化波利亚球罐模型,进一步提出一种考虑概念语义关联的EECD-GPU模型。EECD和EECD-GPU能够分析出文档的主题、情感和事件类别,能够分析出触发读者情感的事件类别,并且在新闻标题上的社会情感检测结果高于当前最好方法。论文共五章。第一章介绍了研究背景与意义,研究现状以及研究动机与目标。第二章介绍了用于情感分析的主题模型以及其他相关技术。第三章介绍了基于TET模型的社会情感检测方法与实验。第四章介绍了基于EECD和EECD-GPU模型的社会情感检测方法与实验。第五章是对论文工作的总结以及未来工作的展望。
其他文献
光固化三维打印技术作为增材制造与快速成型技术的结合,目前已成为制造业研究的焦点。由于现有光固化三维打印材料固化后的力学性能较低、固化收缩率大,一定程度上限制了光固
为保障食品安全,建立可追溯系统是有效的解决途径之一。本文简要介绍了农产品可追溯体系主要做法、取得成效、典型经验。
材料在建筑工程成本中占有很大的比重,如何加强与搞好材料管理工作,提高企业的经济效益,是企业管理中的一项重要任务。
在经济全球化的背景下,数据已成为了重要的社会组成部分,中国各大行业没有一行是不用数据为依据。因此,我们在时代的飞速发展的前提下,很有必要深入的了解会计、审计的发展情
近年来,我国不断加大脱贫工作力度,但贫困问题特别是农村贫困问题仍然普遍存在,其中,因病致贫、返贫比例上升成为当前脱贫攻坚工作中的最大难题。对2013年全国8962万贫困人口
翻转课堂是一种基于信息技术的全新教学模式,是对传统教学模式的颠覆,并对教学环节、教学角色、教学资源和教学环境等方面都产生了影响。文学翻译是高校俄语专业学生提高文学
捕食-食饵模型是种群动力学模型中一类非常重要的模型,一直以来受到生态学界和生物数学界的共同关注,尤其是近年来考虑到时滞因素的影响,对模型解的稳定性、渐近性和周期性以及
泥石流是山区公路的主要病害。简述了《公路泥石流防治工程设计指南》(简称《指南》)的编写背景及依据,概述了《指南》的主要技术框架以及《指南》应用过程中应注意的几个关
板桥凹陷钱圈地区沙河街组物源主要来自北部陡坡带增幅台地区和南部北大港潜山地区,在研究区北部陡坡带形成了扇三角洲沉积,在南部缓坡带形成了辫状河三角洲沉积。利用层序地