中文微博情感词典的构建研究与应用

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:lx90
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着互联网技术的快速发展,包括微博、即时通讯工具在内的新型社交媒体已从根本上改变了人们的生活方式。以微博为主的带有个人情感色彩的言论信息正迅速发展,深入了解和挖掘微博情感信息,为政府、商家等机构进行微博营销、品牌调查、网络舆情监控提供支撑,具有重要的社会意义和商业价值。情感分析在信息科学中,是指利用自然语言处理、机器学习等技术对作者主观情感倾向的分析研究。微博情感分析是其中的热点问题,主要有两种方法:基于情感词典和基于机器学习。但中文微博在文本长度、表达方式、语言风格等方面与传统文本有着较大区别,传统的机器学习方法无法保留情感特征之间的关系;而基于情感词典的方法,目前又找不到覆盖面较好的可用中文情感词典。针对传统研究中存在的不足,本文主要利用了改进后SO-PMI算法和主题-情感混合模型来构建适合中文微博情感分析的中文微博情感词典,涉及的主要工作有以下几个方面:(1)针对现有情感词典在微博情感词覆盖度低的问题,整合现有情感词典资源,构建了一个基础情感词典;同时提出了利用距离互信息和拉普拉斯平滑技术来改进SO-PMI算法对微博领域情感词典进行构建。并通过实验验证了本文提出的算法在微博情感词语的倾向性判断上,相比于传统方法在准确率上有了较大的提升。(2)研究文本情感分析中基础情感词情感倾向与描述主题的关系,提出主题-情感混合模型。该模型假设微博语料库中的每条微博文本都只符合一种主题-情感分布,利用模型生成文档的过程中输出主题-情感词,从而解决了同一情感词搭配不同主题表现出不同情感倾向的问题。将主题-情感词整理添加到中文微博情感词典中。(3)利用实验验证了利用本文构建的中文微博情感词典在进行微博文本情感分类上的效果要明显好于现有的情感词典,从而验证了本文提出的构建中文微博情感词典的方法的有效性。
其他文献
随着计算机技术日新月异的发展,嵌入式设备各方面的性能都有了很大程度的提高,这为虚拟化技术在嵌入式领域的应用提供了良好的基础。由于嵌入式虚拟化技术在嵌入式软件开发及嵌
μC/OS-Ⅱ是面向中小型系统应用的、基于优先级的可剥夺的嵌入式实时操作系统,其特点是简单高效、性能稳定、可免费获得源代码,但是它仅仅是一个内核,只提供了任务管理、任务
公共交通安全一直是大家关注的问题,车载监控是实现公共交通安全、有效运行的重要手段。近年来,随着移动通信技术和多媒体技术的迅速发展,融合手机、网络、多媒体技术为一体的视
随着计算机软硬件技术和互联网技术的飞速发展,人们工作、生活所使用的信息已经由单纯的文本向图文并茂、视听并重的多媒体信息转变,并且开始从二维向三维过渡。尤其在虚拟现实
敦煌壁画是世界历史上优秀的文化宝库,具有极高的科学研究和艺术鉴赏价值。但是由于人为和自然的双重因素,敦煌壁画损坏严重。壁画数字化是通过数字化的手段记录壁画信息,由
进化算法作为一类元启发式搜索算法,已被成功应用于多目标优化领域,发展成为一个相对较热的研究方向—进化多目标优化。近年来,人工免疫系统、分布估计算法、协同进化算法在
近年来,随着人们对软件产品需求的不断增长,赋予了软件产品新的特性,即多样化、个性化和易变化。这种情况下,传统软件方法己无法适应现代企业所面临的业务比较复杂、需求频繁发生
碰撞检测是物理仿真、路径规划、虚拟装配及触觉渲染等诸多计算机科学领域内的一类基础问题,至今已有许多解决该问题的算法被提出,然而这些算法各有优劣。例如V-Clip算法、Li
随着计算机网络技术的迅速发展,社交网络以它的实时性和高覆盖率受到了网民的高度关注和喜爱,其中所包含的信息量也在飞速增长。为了有效的利用这些海量信息,越来越多的研究开始
图像哈希算法是数字媒体内容安全研究领域的一个前沿课题。它可以将任意尺寸的图像映射成一串短小的字符或者数字序列,现已广泛应用于图像检索、水印嵌入、图像篡改检测和图