多粒度融合的汉语句子主观性和情感分类方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:chengyihan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,特别是Web2.0的兴起,越来越多的人们以网络为媒介发表他们对某个事件或事物的意见和评论。意见挖掘得到了广泛地应用,并引起了自然语言处理等相关领域的极大关注,主观性识别和情感分类是意见挖掘中的两个关键问题,其主要任务就是将文本中人们所表达的意见信息从客观性的信息中识别出来,并确定其情感倾向。这两个问题的解决对意见问答系统、信息抽取、和意见文摘等自然语言处理系统都有着极其重要的意义。本文在统计方法和模糊集合论框架下研究汉语句子的主观性识别和情感分类问题。为了降低问题的复杂性,提高系统性能,本文根据汉语句子的特点分析句子中不同粒度层面的主观性及情感倾向,并以它们为基本任务线路,根据不同层次粒度的融合策略解决汉语句子层面的主观性识别和情感分类问题。具体地讲,本文从如下四个方面进行研究:1.主观性识别是意见挖掘中首先要解决的问题之一。面向大规模开放应用,本文提出了一整套汉语句子主观性识别解决方案,包括:(1)在分析汉语主观性表述的基础上,给出了一种基于Chi-square的主观性特征选择方法;(2)针对汉语主观性意见表述与客观事实表述的差异性,引入情感密度概念,提出一种基于情感密度的汉语句子主观性识别方法;(3)在汉语句子的情感密度的基础上,以句子的情感密度区间为特征,描述了一种情感密度和贝叶斯分类器相融合的汉语句子主观性分类方法。实验结果表明,本文提出的汉语句子主客观分类方法具有较强的适应性,能够有效地将文本中的主观性意见表述从客观性事实陈述中分离出来,并取得了较理想的实验结果。2.词语是构成自然语言的基本单位,其主观性是进一步进行短语和句子主观性分析的基础。针对汉语词语主观性存在的兼类问题和强度问题,本文在计算词语的主观性权重的基础上,提出一种对数线性模型和模糊集合相结合的汉语词语主观性强度学习方法。其基本思想是先采用对数线性模型对语料中的候选主观性词语进行主观性权重预测,然后再在模糊集合的框架下融合词语的主观性权重相关信息,构造词语主观性强度的模糊集合及对应的隶属函数并以此判别词语的主观性强度类别,最后应用于汉语句子的主观性识别之中。实验结果表明,由于引入词语的主观性强度类别,本文方法取得了良好的效果。3.引入汉语词语的结构信息有助于汉语词语的情感倾向预测。针对汉语词语情感倾向难于预测的问题,本文在深入分析了汉语词语结构与词语情感倾向的规律的基础上,针对其中较难分辨的未登录词极性预测问题,将词语中语素等结构特征有效结合,提出了一种统计方法框架下的基于语素的汉语词语情感倾向自动预测方法。并在讨论词汇层面极性预测的基础上,提出了一种基于规则的短语极性计算方法,最后在词语和短语的极性计算基础上,给出了基于阈值法的句子情感分类方法。实验结果表明,与其他方法相比较由于引入句子中多层面的语言信息,本文方法较好的解决了汉语句子情感分类问题。4.本文最后主要研究基于多粒度融合的汉语句子情感分类方法。在深入研究了语素、词语和短语层面的主观性及情感倾向的基础上,针对情感句子表述的隐晦性和模糊性,并结合汉语本身的特点,将上下文的多粒度信息融合并引入到整个句子的情感分类中,提出了一个基于多粒度融合与模糊集合相结合的汉语句子分类方法。实验结果表明,与传统的情感分类方法相比,本文提出的基于模糊集合的多粒度融合的汉语句子情感分类方法,从细粒度到粗粒度较精确的识别了汉语句子中各层次的情感强度及情感倾向,因此明显地提高汉语句子级别的情感分类的精确率和召回率。
其他文献
本文详细介绍了国内外温室控制技术的发展,根据国内外应用及发展现状,在对我国日光温室进行了全面调研后,认为针对日光温室设计的专家系统是日光温室控制的发展方向。这是因
多目标优化问题一直是科学研究和工程应用中非常重要的研究课题。进化算法具有解决多目标优化问题的优势,因其不存在对优化问题先验知识方面的要求,可以同时搜索到优化问题的
目标跟踪是指在一段视频序列中寻找与指定目标最相似的内容,是计算机视觉的一个重要研究方向。它在智能监控、人机交互、基于目标的图像压缩和国防工业中有着广泛的应用。在
随着计算机网络的发展,图书馆管理模式也受网络化的影响进入改革的时期。网络技术所引发的社会基础结构的变革、知识经济的兴起、信息技术的进步使信息资源的数字化存贮、处
本文关注骨架提取中的一个困难问题:低质汉字骨架的提取。由于低质汉字受到多种降质因素的影响,大部分现有的骨架提取算法并不能提取出符合人类视觉的且满足“好”骨架标准的
本文要研究的是基于维基百科的比较语义的方法,分别通过使用分类信息,页面的网络信息,以及网页的内容作为背景知识进行语义比较,最后综合比较分析。分类信息(WikiRelate,ECat
实现计算机的自动推理是人工智能领域中的一个重要课题。对于传统的常识推理,新知识可由旧知识以经典逻辑的原理推理得到。然而在实际应用中,知识往往是不确定、不一致和不完
自然界中动物群体的集体运动非常神奇壮观,引起人们想要在计算机中实现这些群体运动的兴趣。基于关键帧技术的计算机动画首先由动画师根据剧情绘制出动画中的关键画面,然后由
随着互联网的快速发展和成熟,基于Web的应用程序也越来越多,逐渐改变着互联网用户生活和工作的方式。近年来,Web2.0理念的提出及其在互联网上的完美应用,使用户对Web产品的用
随着电子信息技术的飞速发展,互联网(Internet)正飞速的改变着人们的工作、生活、学习方式,给社会的发展、个人的生活带来了前所未有的便利。近十年,数字图书馆(Digital Library