论文部分内容阅读
随着移动通讯网络环境的不断完善以及智能手机的进一步普及,我国互联网已全面进入Web2.0时代。作为Web2.0的典型代表,微博拥有大量的活跃用户,内容覆盖领域广泛,社会影响力巨大。微博已经成为了人们获取信息、分享观点的重要渠道,海量数据背后蕴藏着巨大的学术研究价值。因此,本文以微博为研究对象,围绕微博数据的采集、挖掘、情感分析和可视化进行研究,设计并实现基于微博的数据挖掘可视化系统。本文的主要工作包括:(1)在数据采集方面,设计并实现了微博爬虫系统。该系统采用模拟登录解决身份认证问题,参考广度优先搜索的思想,利用热门微博监测模块实现高质量用户的自动发现,并结合网络爬虫、BeautifulSoup、正则表达式、多线程并发和数据库等技术实现多种用户信息和微博信息的采集。该爬虫系统解决了信息采集不全面、请求微博服务器过于频繁的问题,实现了微博数据全面高效的获取。(2)在数据挖掘方面,设计并实现了微博数据挖掘的用户分析模块和微博分析模块,提供了微博分析的基本功能,并基于机器学习算法重点研究了微博文本的情感分析,设计并实现了分类器的训练实验。本文分别采用“单词”、“双词”和“单词双词结合”三种特征抽取模型,利用卡方统计算法进行特征选择,并采用朴素贝叶斯、逻辑回归和支持向量机等六种分类算法进行对比实验。通过反复实验比较,获得了最优的分类模型。该模型无论对微博文本还是更短小的评论文本均得到了较好的分类效果。(3)在数据可视化方面,本文采用柱状图、折线图、地图、标签云、饼图、仪表盘等多种可视化图表展示数据分析结果,并通过浏览器呈现。本系统采用B/S结构,前端采用浏览器展示分析结果,后台由微博爬虫、MySQL关系型数据库、数据挖掘模块组合实现数据的采集、处理和分析功能。最终,实现微博的数据挖掘与可视化分析。本文的主要贡献和创新点包括:(1)设计并实现了包括微博数据采集、数据挖掘和数据可视化的微博分析系统。搭建的系统实现了用户分析和微博分析等功能,为后续研究提供了基础平台。(2)系统实现了微博文本的情感分析功能,本文采用机器学习算法训练情感分析模型,该模型的正确率达到85%,AUC值达到0.94。系统可以直接调用该分类器实现微博文本的情感分析。