基于Node爬虫的微博舆情采集系统分析与设计

来源 :江西农业大学 | 被引量 : 4次 | 上传用户:xushuai880620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,网络已经成为人们日常信息交流的重要平台。舆论的主要载体也从以前的传统平台转战到了网络。而web3.0时代的到来,网络舆论的主要传播地点从原来的各大新闻网站,变成了以论坛,微博,博客,贴吧为主的社交型网络。这一类网络具有很强的互动性,隐蔽性,人们通过这些平台能够随性所欲地发表见闻,观点,很受广大网民的欢迎。其中微博具有信息传播迅速,用户数量巨大等特点,已经成为信息获取,发布的重要平台。微博的用户可以就政治经济教育等领域的问题匿名发表自己的观点,并与微博上的其他网友一起讨论,在信息传播、交流的过程中,微博舆情孕育而生。由于网络上的信息可以匿名发表观点,传播迅速等原因,网络舆情往往具有偏差性,突发性等特征,如果不进行网络舆情的引导,控制,可能会造成不良影响,因此,对网络舆情的监控管理很有必要。本文以用户数量大,信息量大的新浪微博作为信息采集对象,研究设计了针对微博的舆情采集系统。根据微博网页需要验证用户登录信息,网页动态加载等特征,专门设计了一个网络爬虫用作信息采集,并且通过信息抽取,特征词提取,文本切分,聚类等技术对抓取到的数据进行分析,得到最终的结果通过网页的形式展示给用户。研究工作如下:根据网络舆情特点推测监测系统使用者往往更关注于某一领域的舆情特点,设计信息采集模块是使用了主题爬虫,可以根据用户感兴趣的领域进行数据抓取分析。针对微博网站需要验证用户登录,评论信息异步加载难以获取等特点,基于node异步加载,对浏览器操作友好等特点,设计了一款可以模拟用户操作,异步获取页面信息的爬虫程序,对新浪微博信息进行抓取。把爬取到的网页进行信息抽取,并利用中文分词技术,特征提取算法TFIDF,聚类算法BIRCH处理、分析信息,得到热点话题及评论。通过web页面把采集结果和分析结果展示给终端用户,辅助用户进行微博舆情监测。
其他文献
时代在不断地向前发展,所以教育也应该向着多元化的方向发展,这样才能够适应时代的需求,这也是近些年教育改革力度不断加大的一个重要原因.个性是我国素质教育的一个非常重要
目的评价眼眶冰试验、休息试验对重症肌无力(myasthenia gravis,MG)性上睑下垂的诊断价值。方法对228例出现上睑下垂症状的患者相继进行疲劳、冰、休息及新斯的明试验,比较各项试
《商鞅》一剧引起轰动,笔者为此走访了著名话剧导演陈明正教授,他从该剧的编、导、舞美、演等各方面谈了这出戏的艺术得失,下面是他的谈话录。 先谈导演的成功所在。我觉得导
目的 分析集束化护理在血液净化导管相关性血流感染(CRBSI)中的应用效果.方法 选定2016年8月—2018年8月本院收治的连续血液净化患者100例作为研究对象,采用随机化原则,将其
背景:利用脱细胞血管基质作为血管支架具有以下优点:脱细胞血管基质保留了自然血管的复杂三维结构;脱细胞基质表面的生长因子和结构域有利于细胞的黏附和浸润。目的:制备脱细胞
掌握学习与差生教育张迎娟智力正常,甚至优秀,但学业不良的学习差生在世界各国的基础教育阶段普遍存在,成为大面积提高教学质量的一大障碍。学校教育中产生差生的原因是广泛而复
1问题呈现(2012年中考福建省莆田卷·题16)点A,B均在由面积为1的相同小矩形组成的网格的格点上,建立平面直角坐标系如图所示.若P是x轴上使得|PA?PB|的值最大的点,Q是y轴上使
文章将结合杨立民等人主编的《现代大学英语.精读》,分析交际教学法在英语精读课堂中的运用,从而初步探索此教学法在英语精读教学中的可行性与重要性。
基于Profibus-DP现场总线通信设计了分布式监控系统结构,在PRODAVE软件的基础上,利用VC++6.0开发了监控系统的上位机软件,实现了PC通过MPI网络与PLC的通信以及实时数据处理与控制,对