网络文本情感新词发现及情感关键句抽取判定研究

被引量 : 0次 | 上传用户:minggangju
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分析近年来已成为自然语言处理领域重要的研究方向之一,它是对信息发布者的态度、观点、情感进行分析,可以广泛应用于产品评价、舆情监测等领域。传统的新闻更多地开始在互联网上抵达大众,于此同时,网民们可以通过微博、博客等多种方式表达自己的观点,相互交流意见看法。本文基于这些网络文本进行了情感新词发现及篇章情感分析方面的研究,并在中文倾向性分析评测提供的语料上做了实验,实验结果表明了本文方法的有效性。本文的主要工作有:(1)从情感新词传播的重要媒介中文微博中抽取情感新词。本文以中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等对中文微博数据情感新词发现效果有限。为此,利用基于上下文的情感新词发现方法CNG(Context N-Gram),以N-Gram为特征,刻画情感词的用词环境和用词模式,以现有已知情感词为训练数据构造SVM分类器,对候选情感词进行分类。实验表明,该方法优于传统的基于共现的方法,同时还发现中文情感词通常会以名词词性出现,而基于共现的方法无法有效区分该类情感词,这是造成其效果有限的主要原因。(2)篇章情感关键句的抽取与判定。篇章的整体情感倾向在一定程度上依赖于其中情感极性突出的关键句,对这些情感关键句的抽取和判定直接影响了篇章的情感分析结果。本文结合使用传统的机器学习方法支持向量机SVM(Support Vector Machine)和目前广泛使用的深度学习方法递归神经网络RNN(Recursive Neural Network),在句子、篇章两个级别上进行特征抽取,在以新闻和博客为语料的基础上分别训练句子分类器和篇章分类器,综合考虑两者的分类结果之后得出最终的情感关键句。通过实验发现,新闻的客观性一定程度上影响的抽取效果,但通过抽取判定情感关键句来掌握篇章情感信息为文本情感分析提供了新思路。
其他文献
与短纤维纱线不同,变形纱的质量条干均匀度和外观条干均匀度是2个相对独立的指标。EIB检测结果表明,空气变形纱的表观条干CV值接近于短纤维纱条干CV值,异收缩空气变形纱的表
近年来,经济的迅速发展,物质生活水平得到了不断提高,推动人们更多的关注身体健康,健身俱乐部也在这样的社会环境下蓬勃发展。在改革开放的大环境下,东西方文化相互融合,中国
哈利波特系列电影自2001年上映以来,凭借其充满魔幻色彩的魔法世界和独具一格的"哈式"营销策略席卷了整个世界。哈利波特第六部——《哈利波特与混血王子》是其系列电影中从初
通过对我校培养的壮医本科毕业生进行问卷调查,建立壮医本科生培养质量与发展质量关系的结构方程模型,探讨壮医本科生培养模型各要素对发展质量的影响。研究结果表明,师资力
近年来,随着BV620-LF可控震源的推广及工区环保力度的加强,复杂的施工地形导致震源的铰接结构频繁出现故障。本文将对BV620-LF可控震源的铰接故障进行统计分析,探讨一种合适的方
如何将税收运用于环境保护,为实施可持续发展服务,是尽快适应市场经济发展要求,政府环境管理所面临的环境经济和立法的紧迫问题。本文研究环境税收基本问题,阐述环境税的概念、特
发动机是可控震源的动力来源,发动机的损坏将直接导致可控震源无法工作,因此我们必须防患于未然,加强对发动机的日常维护保养,及时解决一些小问题,以避免大问题的出现.本文对
以不同成熟阶段天津汉沽玫瑰香葡萄为原料,用不同的方法以及不同的酵母来酿造玫瑰香葡萄酒。采用固相微萃取结合气质色谱的方法对葡萄酒中的挥发性香气物质进行检测。共识别
汽车发动机压缩比是影响发动机各项性能指标的最主要因素之一。研究表明,压缩比与发动机的最大功率、峰值扭矩以及最小燃油消耗率基本呈线性关系。发动机燃烧室容积的变化,直接
自1994年中国正式加入互联网以来,我国互联网络的运用呈飞速发展之势。随着公众对互联网的运用从最初简单的信息传递逐渐发展到更加复杂的互动形式,把原本分散的意见诉求通过