面向微博话题的情感计算和舆情分析

来源 :郑州大学 | 被引量 : 0次 | 上传用户:shigaomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,人们更习惯通过社交网络来了解时事,发表观点。随着微博的逐渐普及,越来越多的用户开始关注并使用微博,微博成为目前最流行的网络平台。微博话题为人们讨论热门事件提供了极好的平台。微博话题可以为目前的情感分析和舆情分析等研究提供大量有效的数据,因此针对微博话题的研究也是目前的研究热点。本文主要利用微博话题数据实现对民众的情感计算和舆情分析。传统的情感计算方法是借助情感词典、规则和利用机器学习完成。本文则将情感词典和机器学习相结合完成对微博话题情感的分析。针对传统微博情感分析仅仅考虑微博文本内容的不足,本文将表情符号考虑在内,对微博话题的情感计算从微博文本情感分析和微博表情符号情感分析两个方面进行。首先选择中文情感词汇本体库作为文本情感词库,利用朴素贝叶斯算法完成微博文本部分的情感计算。然后基于FP增长算法和检索距离建立表情符号聚类算法,由此建立表情符号库作为表情符号情感库,同样利用朴素贝叶斯算法计算微博中表情符号部分的情感,最终将两者融合获得微博话题情感。实验结果表明本文将表情符号考虑在内的微博话题情感倾向计算方法对微博情感倾向分析更加准确。本文微博话题舆情演化分析思想是将计算出的微博情感倾向与微博话题的扩散度结合得到微博话题的舆情值,再进一步完成微博话题舆情的演化分析。微博话题的扩散度是根据微博话题的转发量、点赞量和评论量计算的,其中微博的转发量是通过基于逻辑回归模型的微博转发预测得到的,将通过转发预测模型计算出的结果高于50%的用户数作为微博话题的转发量。微博话题舆情演化分析是将时间考虑在内,对微博话题进行时间片划分,并通过改进传统主题模型LDA模型建立微博主题模型MTLDA,根据MTLDA计算每个时间片主题。最后基于KL距离计算相邻时间片主题关系,并分析出随着时间推移微博话题舆情的演化情况。通过对多个话题进行实验,结果表明本文对于微博话题舆情分析的方法更加准确,更具有时效性。
其他文献
随着软件系统规模的不断增长,如何为软件开发过程提供高质量的软件需求规格说明日益受到业内人士的重视。业内研究人员不断探寻合理评价软件需求文档质量的模型和方法,期望能
随着我国经济与科学技术的发展,业主对住宅质量、生活质量的要求也越来越高。业主逐渐开始关心居住周边环境、安全卫生、信息流通、物业管理等方面。可见在不久的将来,新的由计
随着科学的进步,信息技术得到了快速发展及广泛应用,高维数据应运而生,如医学图像处理、计算生物学、全球气候模型等,高维数据难以被现有的机器学习和数据挖掘算法进行有效地
随着Web应用不断发展,作为Web应用系统的核心的数据库系统的性能问题受到很大的关注。如何能够利用数据库自适应技术,从商业价值的角度考虑数据库资源的利用,更有效分配数据库资
现今,分类技术作为数据挖掘领域中一项重要技术,不仅应用在机器学习、模式识别等科学研究中,也广泛应用在实际生活中的各个方面。一个分类器可以被付诸应用的前提是此分类器性能
随着Web服务的广泛应用与推广,Web服务技术已成为下一代面向服务计算的有效解决方案。但是网络上存在大量具有相似功能而非功能属性不同的服务,这样如何从这些海量的服务中快
随着数码采集设备的普及和多媒体技术的发展,互联网上的视频数据急剧增长。面对海量视频数据,如何进行视频的存储、组织、管理和分析,已经成为视频领域最主要的方向。目前处
随着经济全球化,社会消费结构、消费水平、消费市场随之发生了深刻的变革。为了增强竞争力,企业扩大规模、改变经营模式和生产结构,在生产管理中信息量成倍的增长。高效的仓
由于网络的异构性和接收者需求的多样性,源点需要根据实际情况为不同接收点进行多速率组播。分层组播将原始数据分层,根据不同接收者的情况进行多速率传输,被认为是解决网络
随着大数据时代的到来,互联网每天都会产生大量的文本信息,词语作为文本的基本组成单位,对词语语义的理解是文本处理的基础工作之一。词语相似度计算,是用一个具体的数值表示