论文部分内容阅读
随着网络的迅速发展,网络已经成为人们日常信息交流的重要平台。舆论的主要载体也从以前的传统平台转战到了网络。而web3.0时代的到来,网络舆论的主要传播地点从原来的各大新闻网站,变成了以论坛,微博,博客,贴吧为主的社交型网络。这一类网络具有很强的互动性,隐蔽性,人们通过这些平台能够随性所欲地发表见闻,观点,很受广大网民的欢迎。其中微博具有信息传播迅速,用户数量巨大等特点,已经成为信息获取,发布的重要平台。微博的用户可以就政治经济教育等领域的问题匿名发表自己的观点,并与微博上的其他网友一起讨论,在信息传播、交流的过程中,微博舆情孕育而生。由于网络上的信息可以匿名发表观点,传播迅速等原因,网络舆情往往具有偏差性,突发性等特征,如果不进行网络舆情的引导,控制,可能会造成不良影响,因此,对网络舆情的监控管理很有必要。本文以用户数量大,信息量大的新浪微博作为信息采集对象,研究设计了针对微博的舆情采集系统。根据微博网页需要验证用户登录信息,网页动态加载等特征,专门设计了一个网络爬虫用作信息采集,并且通过信息抽取,特征词提取,文本切分,聚类等技术对抓取到的数据进行分析,得到最终的结果通过网页的形式展示给用户。研究工作如下:根据网络舆情特点推测监测系统使用者往往更关注于某一领域的舆情特点,设计信息采集模块是使用了主题爬虫,可以根据用户感兴趣的领域进行数据抓取分析。针对微博网站需要验证用户登录,评论信息异步加载难以获取等特点,基于node异步加载,对浏览器操作友好等特点,设计了一款可以模拟用户操作,异步获取页面信息的爬虫程序,对新浪微博信息进行抓取。把爬取到的网页进行信息抽取,并利用中文分词技术,特征提取算法TFIDF,聚类算法BIRCH处理、分析信息,得到热点话题及评论。通过web页面把采集结果和分析结果展示给终端用户,辅助用户进行微博舆情监测。