跨领域条件下词汇情感倾向判别方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:benxiaohai10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,各种网络信息正在爆炸式的增长,随之出现大量的微博、商品评论等信息,这些信息往往都带有一定的情感倾向性。因此,如何自动识别这些评论的情感倾向,在自然语言处理中显得日益重要。然而同分布的训练数据集的获取需要较大的代价,为此跨领域条件下的情感分类问题受到了普遍的关注。词汇是语句的基本组成单位,对词汇的情感倾向判别成为情感分类的研究重点。与单一领域条件下词汇情感倾向判别相比,跨领域词汇情感识别中存在情感歧义等问题,从而使得该任务面临着更大的挑战。本文针对跨领域条件下词汇情感倾向识别问题展开研究,主要工作如下:1)针对跨领域条件下评论信息中词汇的情感歧义问题,提出了基于基准词消歧的跨领域词汇情感倾向判别方法(COI)。该算法面向给定语料库自动提取基准词,并基于共现矩阵对其中具有情感歧义的基准词进行过滤,最后通过计算基准词与目标词的相似性,实现目标词汇的情感极性判别。实验结果证明了算法的有效性和可行性。2)针对跨领域情感分类中数据稀疏导致的情感词难以匹配问题,提出一种基于同义词的词汇情感倾向判别方法PCOI。该算法在COI算法基础上,通过挖掘目标词汇的同义词,利用同义词来代替语料库中无法匹配的目标词,使得基准词能够在语料库中得到很好的匹配,避免因数据稀疏而导致的匹配为空的问题,同时也可以有效利用目标领域的无标记信息,使实验效果有所提升。
其他文献
当前,大数据时代中的数据信息呈爆炸式的增长,传统的技术架构已经不能满足处理海量数据的需求。Apache基金研发的Hadoop平台迅速被应用到各个领域中,成为了许多企业的首选。H
操作系统技术历来就是计算机系统的核心技术,不管是在大型的服务器系统,还是在家用PC机系统,都可以看出操作系统在计算机领域的地位。最近几年,在大型计算机系统进入相对成熟阶段
在功能基因组学中,理解高等生物的调控机制是当前研究面临的重要挑战。转录因子是一种特殊蛋白质,通过与基因上游的顺式调控元件结合,最终调控了基因的表达。因此,识别转录因
机器人是20世纪人类的伟大发明之一。它作为人类的新型生产工具,在减轻劳动强度、提高生产率、改变生产模式,把人从危险、恶劣的环境下解放出来等方面,显示出极大的优越性。
由于导向钻井过程中所钻井身穿越地层的地质和油藏参数、工程和井眼参数等随钻信息存在着不精确性、模糊性、不确定性等,对这些信息的分析、处理与解释,需要由后方基地的多方专
论文以中科院西安网络中心网络安全嵌入式研究项目的研究和开发为背景,分析了当前系统中存在的问题,即检测速度太慢,检测技术的发展跟不上网速的快速发展,在分布性、灵活性、
随着互联网和多媒体技术的快速发展,数字媒体的版权保护成为迫切需要解决的问题,数字水印技术正是为了解决此问题而出现的一个新的研究方向。变换域数字水印因其具有抗各种信
本文研究和实现了基于轻量级框架的Portal平台,基于对JSR168门户开发规范的研究,按照分层设计思想提出了轻量级的Portal框架设计方案,并根据设计进行了Portal服务器、Portlet容
随着网络技术的发展,越来越多的数据正以数据流的形式存在于各种各样的网络系统中。数据流的特点是数据不是永久储存在传统数据库中的静态数据,而是瞬时处理的源源不断的连续数
随着高校信息门户系统受到人们越来越多的关注,门户资源统一访问控制正在成为当前访问控制研究领域的热点之一。由于传统的访问控制方法已难以满足日益复杂的门户应用需求,而