微博数据挖掘可视化系统的设计与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:woyao515151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动通讯网络环境的不断完善以及智能手机的进一步普及,我国互联网已全面进入Web2.0时代。作为Web2.0的典型代表,微博拥有大量的活跃用户,内容覆盖领域广泛,社会影响力巨大。微博已经成为了人们获取信息、分享观点的重要渠道,海量数据背后蕴藏着巨大的学术研究价值。因此,本文以微博为研究对象,围绕微博数据的采集、挖掘、情感分析和可视化进行研究,设计并实现基于微博的数据挖掘可视化系统。本文的主要工作包括:(1)在数据采集方面,设计并实现了微博爬虫系统。该系统采用模拟登录解决身份认证问题,参考广度优先搜索的思想,利用热门微博监测模块实现高质量用户的自动发现,并结合网络爬虫、BeautifulSoup、正则表达式、多线程并发和数据库等技术实现多种用户信息和微博信息的采集。该爬虫系统解决了信息采集不全面、请求微博服务器过于频繁的问题,实现了微博数据全面高效的获取。(2)在数据挖掘方面,设计并实现了微博数据挖掘的用户分析模块和微博分析模块,提供了微博分析的基本功能,并基于机器学习算法重点研究了微博文本的情感分析,设计并实现了分类器的训练实验。本文分别采用“单词”、“双词”和“单词双词结合”三种特征抽取模型,利用卡方统计算法进行特征选择,并采用朴素贝叶斯、逻辑回归和支持向量机等六种分类算法进行对比实验。通过反复实验比较,获得了最优的分类模型。该模型无论对微博文本还是更短小的评论文本均得到了较好的分类效果。(3)在数据可视化方面,本文采用柱状图、折线图、地图、标签云、饼图、仪表盘等多种可视化图表展示数据分析结果,并通过浏览器呈现。本系统采用B/S结构,前端采用浏览器展示分析结果,后台由微博爬虫、MySQL关系型数据库、数据挖掘模块组合实现数据的采集、处理和分析功能。最终,实现微博的数据挖掘与可视化分析。本文的主要贡献和创新点包括:(1)设计并实现了包括微博数据采集、数据挖掘和数据可视化的微博分析系统。搭建的系统实现了用户分析和微博分析等功能,为后续研究提供了基础平台。(2)系统实现了微博文本的情感分析功能,本文采用机器学习算法训练情感分析模型,该模型的正确率达到85%,AUC值达到0.94。系统可以直接调用该分类器实现微博文本的情感分析。
其他文献
创造力的培育是银行支行的根本目标。目标激励下的知识转移网络对创造力具有内在的驱动力。实证性的检验发现,提高目标的合理性和明确性可以促进员工之间的知识转移,进而增强
背景与目的肿瘤的多药耐药性(multidrug resistance,MDR)是导致肺癌化疗失败的主要原因,长春瑞滨(Vinorelbine,诺维本,NVB)是治疗非小细胞肺癌最有效的化疗药物之一,本研究旨
为了研究EBZ132型悬臂式掘进机截割部减速机的振动与噪声问题,对该减速机的二级行星齿轮传动系统进行了运动学和动力学参数的理论计算,并应用虚拟样机分析软件ADAMS对该齿轮
鉴真是唐朝著名的佛教高僧和思想家,鉴真东渡与玄奘西行可视为唐朝中外文化交流史上"西行东渐"的双璧。鉴真游学、东渡于盛唐武则天至唐玄宗期间,其时亦属儒佛道三教文化的长
原则基准金融监管是域外金融监管领域的新模式,相对于传统的规则基准监管模式,有助于促进金融创新和提高金融自由度。目前我国存在着对原则基准监管的倾向性偏好,有必要冷静
背景与目的在实验动物存活条件下,通过活体成像技术能探测到标记有萤火虫荧光素酶(luc)基因的肿瘤细胞在体内的分布情况。本研究旨在稳定表达nm23-H1 shRNA的人肺腺癌细胞株A
本文考察了ST类上市公司在被特别处理当年至09年年底这一期间的摘帽、脱困情况,同时对ST公司在面临暂停上市的情况下所进行的重组的有效性进行了研究。最后,本文分析出对ST公
货币资金作为流动性最强的资产,对企业的发展发挥着至关重要的作用。本文通过对L公司银行存款失踪案进行分析,提出企业货币资金内部控制存在的问题,并根据这些问题对企业货币
首先给出三相功率因数校正变换器dq同步坐标系下的数学模型和电流解耦控制方法。为了降低开关损耗,使用一种改进的空间矢量脉宽调制方法,此方法使得开关管的开关次数减少为传
近些年来,我国旅游业的发展速度不断加快,旅游已经逐渐成为人们生活中的中亚添加剂,也是节假日的休闲选择,经济发展的环境中,人们生活水平的提升使得旅游逐渐成为我国国民的