基于混合语言模型的新浪微博情感分析

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ys331223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体网站的发展,微博成了用户自由表达观点和情感的聚集地。如何从海量微博中分析用户情感成为一项十分有意义的研究工作。在微博情感分析中,微博情感分类和微博新词发现是两个典型且重要的研究方向。新浪微博属于短文本,传统基于情感词典的情感分类很依赖情感词典的完整性;监督/半监督学习的情感分类很大程度上依赖特征选择和组合的好坏;基于深度学习的情感分类需要结合很详细的语法和句法信息,且训练耗时、缺乏可解释性。此外,传统规则与统计相融合的新词发现方法需要很准确的语言学资源来获取候选词,需要很精细的语言学组合规则过滤无用词,规则复杂且精度不高。本文针对以上问题分别对微博情感分类和微博新词发现提出了改进方法,本文主要研究内容如下:首先,本文提出了一种新颖的基于混合语言模型的新浪微博情感分类方法。该方法从语言模型的角度出发,通过训练正/负向混合语言模型来构造二分类器,通过比较同条测试微博在正/负向混合语言模型下的出现概率进行分类。该方法仅采用unigram特征且语言模型训练快速。实验结果表明,本文所提出的情感分类方法相对于传统监督学习方法和深度学习联合传统监督学习方法的分类效果更好且更稳定。其次,本文提出了一种基于似然比检验的新浪微博新词发现方法。该方法利用网络情感新词的语言学特征,结合似然比检验和字符串成词统计量挖掘网络情感新词。该方法不需要精细化语言学规则(仅仅只用了词性标注)且无监督。实验结果表明,该方法不仅可以发现更多的网络情感新词,而且新词的排序位置也更靠前。所提取的网络情感新词对情感分类性能有一定提升。
其他文献
非常感谢董老师的邀请,从前面各位嘉宾的演讲中,我也学到了很多东西。我想今天我主要的分享内容还是我们的主题,受托人责任。第一个话题是英美法系的资本市场为什么更发达?第
会议
我国工业系统发展迅速,高精度的机械零部件逐渐有越来越大的缺口,螺纹工件是一种机械行业中常见的连接零件,在工业产品中有着广泛应用。由于对螺纹质量要求提高使得外螺纹检测系统发展迅速,融合视觉的外螺纹检测系统因为检测速度快,测量精度高等优点,在螺纹检测系统中占据越来越重要的地位。本文通过研究其他文章提出的外螺纹检测方式,创造性提出了一种新型的考虑轴线倾斜情况下的圆柱外螺纹轴线倾斜牙型修正算法,并根据算法
高中思想政治课课后作业设计作为教学设计中的一个环节,这一环节的设计与实施好坏影响着作业的有效性,优化课后作业设计就是提高作业质量,将课后作业的巩固、监督、检测和调节功能发挥得更好。从课后作业设计自身的角度出发,在新课程改革的背景下,新课程标准不仅对课程提出了新要求,也对教学设计提出了新方向。那么,课后作业设计自然也需要及时更新,适应时代的发展和新课程的要求。从外部因素出发,近几年来社会各界、家长和
党的十九大报告提出,“提高社会治理社会化、法治化、智能化、专业化水平”。司法作为社会治理的重要组成部分,将人工智能技术应用于司法实践是司法智能化的必然要求。面对各领域对人工智能技术的深入探讨,司法领域也不应落于人后。本文综合运用了数据分析、文献归纳、跨学科分析等研究方法,从人工智能的概念出发,了解了人工智能的发展现状。从当前社会中人工智能的具体应用分类方面对人工智能进行了梳理。从节约司法资源、强化
攀爬机器人在高难度、高强度和高危险的作业任务中具有广泛的应用前景。当前,制约攀爬机器人落地的重要原因是其自主定位导航技术尚不成熟。本文主要研究攀爬机器人自主定位导航中的构图模块和定位模块。其中,构图模块包括两部分研究内容:基于同步定位与建图技术构建三维壁面环境地图,以及三维壁面环境的结构化表达方法。定位模块研究实时追踪攀爬机器人位姿的算法。主要内容如下:(1)研究多传感信息融合的攀爬机器人构图算法
对于移动机器人来说,一个基本的场景重建过程包括了环境感知、移动机器人的定位与位姿优化、地图的生成与拼接、重定位等步骤。本文着重研究了其中的环境感知、位姿优化、重定位三个部分,并以此构建了一个完整的移动机器人场景实时重建系统。本文研究了一种基于三目相机信息融合的高精度深度感知算法。传统的基于被动测距的立体视觉算法,常常对环境中的纹理有强依赖性;而深度相机不依赖于纹理,但输出的分辨率较低,且易受环境光
在当今这个大数据的时代,越来越多的生产和活动被数据化到网络和数据库上。这些大数据记录了人们生活的方方面面,研究这些数据会发现许多有价值的信息。诸如沃尔玛超市将尿布
随着石化能源的日益减少,人们对环境、能源的问题逐渐重视,可持续的、环境友好的新能源越来越受人们重视,其中,丙酮丁醇梭菌发酵法生产丁醇、丙酮、乙醇具有极大的发展前景。
基于内容的图像检索能够克服单纯基于文本的图像检索在主观性和歧义性方面的缺点,而对图像内容的描述和特征提取是决定基于内容的图像检索性能的最关键因素。随着视觉显著性
耐溶剂纳滤(SRNF)是一种具有无限潜能的绿色、高效、低能耗并且操作简单的膜分离技术。如何开发出一种高性能低成本的SRNF膜已经成为近年来膜分离技术领域的热点课题。借助于