面向中文微博的情感信息抽取方法研究

来源 :北京信息科技大学 | 被引量 : 2次 | 上传用户:xf6088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的广泛普及,网络已经成为人们获取信息、共享信息的主要途径。微博作为一种新兴的互动交流平台,也逐渐成为人们网络生活的一部分,面向微博文本的相关研究受到越来越多学者的关注。面向微博的情感分析是微博相关文本分析中的一个重要的课题,而中文微博的情感信息抽取作为中文微博情感分析的基础任务,受到研究者的广泛关注,逐渐成为一个热门的研究方向。中文微博的情感信息抽取的目的在于将无结构的情感文本转换成有结构的文本——情感信息单元,不但可以直接应用于用户评论分析与决策等方面,而且可以服务于其它情感分析任务,如文本情感分类。其中情感信息单元包括评价对象、评价词语、极性及观点持有者四个元素。然而,由于微博文本语言表达随意,大多数微博文本的句法结构都是不完整的,且具有大量的冗余信息和网络词汇,采用原有文本意见挖掘方法进行抽取信息的效果并不理想。因此需要结合微博自身特点,对现有技术进行改进以便抽取微博情感信息,主要研究内容包括以下几个方面:(1)中文微博评价对象候选集的构建。结合中文微博文本的特点,对微博文本进行预处理,利用句法分析获取名词短语,对名词短语进行后处理,再构建包括名词、名词短语以及微博话题在内的评价对象候选集,并对该步骤的实验结果进行分析。(2)中文微博候选评价对象的筛选。采用3种策略实现候选评价对象的筛选:首先,采用SVM模型筛选候选评价对象,通过采用语义角色信息、最小距离和词频三个特征,实现SVM模型分类器对候选评价对象进行筛选;其次,采用加权模型筛选候选评价对象,根据不同特征,计算候选评价对象的权重分数,从而判别其是否为正确的评价对象。最后,基于CRF模型善于解决序列标注问题的特点,引入常用的情感信息抽取特征,以及情感词、语义角色标注等特征,采用CRF模型对候选评价对象进行筛选。(3)评价对象的极性判别。若评价对象附近存在情感词,则寻找距离评价对象最近的情感词,根据情感词表,判断评价对象的情感极性;若评价对象附近不存在情感词,则用微博句子的情感极性代替评价对象的情感极性,其中微博句子的情感极性通过朴素贝叶斯分类器得到。(4)综上研究内容,设计并实现了中文微博情感信息抽取系统。该系统可用于对评价对象候选集的构建方法、候选评价对象的筛选方法以及极性判别方法进行实验结果分析,也可实际用于情感信息的抽取任务。
其他文献
近年来,随着社会的发展,网络的普及,网上的多媒体信息也急剧增加,这些多媒体信息主要以图像为主。面对浩瀚的信息海洋,人们迫切希望能够快速高效地获取所需要的多媒体信息,如何有效
目的 分析将医养护一体化管理方式运用到社区老年慢性病患者管理中的应用效果.方法 从我区三平和第二社区卫生服务中心选取2018年4月至2019年4月管理的社区老年慢性病患者110
随着空间数据获取手段的快速发展,从大量的空间数据中自动、快速、有效地发现知识显得越来越重要。本文简要地介绍了空间数据挖掘的概念、特点、发现的知识类型,空间数据挖掘的
本文从护理实习生自主学习准备度的定义、测量工具、影响因素以及研究现状等进行分析,为进一步有关护生自主学习准备度相关研究提供参考.
基于视频的交通事件检测技术已经是全球研究的一个热点,它主要是用来检测道路上的一些异常事件,例如车辆逆行、车辆连续跨道行驶、停车、抛落物、行人等。该系统的应用使得交通
目的 探讨基层家庭签约辖区内糖尿病患者对糖尿病健康知识、治疗以及心理健康的需求情况.方法 采用自行设计的表格对基层家庭签约辖区内确诊糖尿病患者68例进行糖尿病健康知
序列模式发现是当前数据挖掘领域中有着广泛应用的重要研究课题。概念格是一种擅长描述层次关系的有效工具。以概念格为工具来实现序列模式发现,是当前数据挖掘领域的一个新
目的 研究探讨健康教育在布鲁氏杆菌病(以下简称布病)防治中的应用效果.方法 选取我中心2011年1月至2012年1月收治的布病患者210例作为研究对象,随机分为两组后展开回顾性调
目的 探讨签订《保护性约束知情同意书》在神经外科住院患者中的应用效果.方法 选择我科2019年1月至2020年1月需使用约束带的患者100人;将2019年1~6月需用约束带的50例患者分
目的评价胶体金技术检测甲型/乙型流感病毒的有效性。方法选取我院231例儿童患者的口咽拭子采集物,应用荧光PCR技术进行甲型/乙型流感病毒核酸的定性检测,同时用胶体金技术进行甲型/乙型流感病毒的抗原定性检测。评价胶体金技术与荧光PCR技术比较的一致性、灵敏度、特异度。结果与荧光PCR技术比较,胶体金技术检测甲型/乙型流感病毒的一致性较好,Kappa值分别为0.895、0.925、0.900。通过荧光