针对微博舆情的采集与分析系统的设计与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:greatspy_52
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,微博成为了国内分享网络信息的主要途径,微博给人们的生活带来了方便。但由于缺乏对信息的有效监控和管理,为社会带来了虚假信息和造谣信息,破坏了良好的网络舆论,可能危害公众的生活。因此,我们需要一个针对微博舆情的采集与分析系统,来对微博的舆论进行实时有效的监控,能够及时发现热点舆情和计算该主题的情感强度,并可对负面消息进行适当的引导舆论。本文对微博舆情系统的采集技术和舆情分析技术进行研究和分析,并对该系统进行了设计与实现,主要工作有:(1)在Scrapy爬虫的基础上,本文基于ZeroMq设计了一个高效的分布式爬虫系统。该系统结合了微博的特点,提出了使用位图法和Hash索引相结合的方法解决海量的URL冲突问题;同时针对微博对网络爬虫的反爬虫限制,利用了代理节点采集和定时采集相结合的策略来提高爬取数据的效率;为提高数据量,还结合了微博提供的开放平台服务接口来爬取微博数据,扩大数据量。(2)本文提出了优化主题微博情感强度计算的方法。该方法构建了情感词典,然后对主题的评论进行预处理;同时基于主题微博的评论的情感来计算其情感强度;最后提出了使用微博的认证类型来优化情感强度的方法。实验结果表明该方法能使主题微博情感强度的准确度提高0.05~0.1。(3)本文实现了微博舆情分析系统并进行了界面展示,通过对微博数据进行了微博发布行为的时间分布、微博转发延迟的时间分布以及微博舆情热点等实验分析。实验结果表明该系统结合代理采集系统可以实时的监控微博舆情并使用优化主题微博情感强度计算的方法能有效的分析出热点舆情的情感倾向。
其他文献
文章运用引文分析法对2005-2010年间发表的目录学论文进行统计,从引文量、引文学科种类、高被引作者和高被引论文数量及被引次数、共被引次数四个方面分析目录学发展现状,最
本文介绍了首都图书馆所藏“绥中吴氏藏书”的概况 ,并通过对吴氏赠书内容的分析 ,进一步论述了吴氏赠书的特点和文献价值。
2004年美国Kahle v.Ashcroft案件及Google数字图书馆计划的启动,引起了美国、欧洲联盟等对孤儿作品利用困境的关注。美国《2008孤儿作品法案》试图利用"有限赔偿"制度来弱化
在英汉两种语言广泛使用的今天,Grice的"合作原则",作为规范语言交际的基本准则,对翻译起着指导性的作用。本文以语用学中"合作原则"的四大准则为基础,通过具体的案例,分析了
目的:探讨三子养亲汤加减治疗咳嗽的临床疗效。方法:将2013年1~12月兰州市城关区沙洼河社区卫生中心和甘肃中医学院附属医院门诊治疗的68例患者,随机分为对照组32例和治疗组3
目的探讨Crigler-Najjar综合征的临床特征及诊断。方法分析1例经基因检测确诊为Crigler-Najjar综合征患儿的临床特征及其基因突变位点结果。结果患儿于出生后5天发现黄疸,治
<正>颈性眩晕属中医"眩晕"范畴,中医认为是经络不通、气血运行不畅,精血不能上注于头部而发生眩晕。西医学认为,颈性眩晕是椎动脉直接受压和梗阻,或椎动脉交感神经丛刺激引起
德国在多年的实践中形成了独具特色的"双元制"职业教育制度与行动导向教学法,培养出了大批世界一流的旅游服务人才,其先进的教育理念与教育模式对我国高等旅游教育启示颇多。
介绍炼油项目环境影响评价中硫平衡的计算方法,并举例说明计算结果的应用.
近年来,国内接连发生了多起由瓦斯引起的严重矿井安全事故。因此,迅速提升瓦斯抽放和治理技术以及安全设备已成为提高矿井安全性的重中之重。介绍了国内瓦斯治理现状,包括对