微博多领域情感分析系统研究与实现

来源 :东华大学 | 被引量 : 0次 | 上传用户:jinhao03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博作为一种新的信息发布平台和社交平台越来越受到人们的关注,蕴含着巨大的政治和商业价值。通过对博文大数据展开情感倾向性分析,可以实现微博营销、品牌宣传、客户关系管理、舆情监控等有价值的应用。  目前已有的研究主要针对专业网站的评论数据展开分析,取得了较好的结果。不同于专业网站的用户评论,微博数据具有数据量大、话题分散、垃圾信息多等特点,很难直接将要素级情感分析的方法用于大规模的日常微博数据进行分析应用,研究更多针对博文的情感极性判别,没有考虑评价对象的识别。  本文提出了基于领域自动分拣的情感要素分析模型,通过实验获取有价值的博文特征表示,训练评价对象抽取模型和情感倾向性判别模型。本文设计实现的MSAS(Microblog Sentiment Analysis System)系统能够自动地完成微博数据预处理、情感要素分析和统计分析功能,为相关的应用提供有价值的分析工具。主要工作如下:  (1)深入研究两个核心任务(评价对象抽取和评价对象倾向性分析)的理论方法,针对多个领域,通过选用不同的特征组合来训练评价对象抽取模型以及情感倾向分类模型,最后通过实验比较多个领域下不同特征组合对模型应用效果的影响,最终筛选出各领域中较优的模型。  (2)针对微博文本的口语化、网络化的语言特点提出数据预处理的方案,结合词频统计以及贝叶斯分类对微博语料进行数据清洗,结构化数据,以便存储及处理。为了高效地从海量微博数据中得到多领域有价值的微博数据,本文通过研究选取了与多个领域相关的特性,基于支持向量机的分类方法设计并实现微博数据的自动分拣。  (3)设计并实现了微博情感分析系统MSAS,该系统包括训练系统MSAST和应用系统MSASA,训练系统主要负责训练评价对象抽取模型以及情感倾向性判别模型,应用系统负责利用模型来进行微博情感分析。应用该系统从微博中选取了3个领域来训练模型,以电脑领域为例得到了热门的评价对象以及它们的情感极性分布。  实验结果表明,MSAS系统能够有效地面向微博用户兴趣领域挖掘出评价对象以及情感倾向,为人文或商业研究领域提供价值导向分析和辅助决策。
其他文献
随着互联网的普及与广泛应用,越来越多的人在互联网上发表自己的主观言论,使得带观点的文本呈爆炸式增长。观点信息(也称情感信息)的收集与分析对个人、商业组织、国家政府等都有
目标定位与身份识别技术广泛应用于各个领域,由于目标种类多样,背景复杂多变,需要设计不同的目标定位与身份识别算法以适应不同的应用场合。基于视频流的目标定位与身份识别
无线传感器网络(Wireless Sensor Networks, WSNs)是由大量具有可通信、可传感、可控制、可数据处理的无线传感器节点,以自组织、自装配的方式所构建的网络。WSNs被广泛应用
软件项目估算包括项目工作量、开发时间和成本等内容。在软件项目开发过程中,项目估算一直是一个非常困难却极其重要的问题。一个准确的估算结果,有利于开发团队制定一个合理有
空间离群检测能够帮助人们发现潜在的、有趣的空间数据模式,并把它用于未来演变趋势的分析研究。在许多实际情况下,这些不寻常的空间离群事件往往具有出乎意料的研究价值,因此空
随着计算机科学的高速发展,系统攻击与入侵行为正对国家安全、社会生活造成越来越大的威胁与隐患。为对系统进行安全防御,有效地解决入侵检测,结合数据挖掘的系统日志分析由
在军事或者医疗等需要精密无误图像信息的领域往往需要在图像中加入认证信息,如果用传统的数字水印方法,会永久地破坏掉一部分图像信息。然而在这些领域,往往一点点的差错都会导
物流公共信息服务系统是现代物流信息系统的重要组成部分,主要负责物流信息的采集、传输、存储、处理、发布,以及企业物流信息资源的整合。  本课题围绕物流公共信息服务系统
伴随网络规模扩大及新技术应用,IPv6协议得到了广泛发展。现阶段网络正处于IPv4与IPv6共存时期,新的网络环境要求网管技术在传统IPv4网管的基础上解决过渡技术、IPv6网络的管理
随着时代的发展,GUI (Graphical User Interface,图形用户接口)已经发展成为了软件领域必不可少的技术,大部分的软件都使用了GUI,这也使得基于GUI软件的测——GUI测试变的必