基于热点事件的微博数据文本挖掘及其可视化

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:tmdjapanese
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网Web2.0时代的到来,新浪微博已成为我国社交平台的领军者,是人们获取消息和提出想法的重要平台,博文数量呈爆炸式增长且覆盖领域广泛,由于用户数量众多,可以在热点事件发生初期迅速聚拢用户意见,甚至因为用户的高度讨论而产生热点事件,海量数据背后包含了用户的情感、看法,是政府部门进行舆情监控、企业制定用户行为策略等功能的重要数据来源。本文以用户对热点事件发表的博文数据和用户信息为研究对象,对数据的获取、文本挖掘、以及信息可视化进行了研究。在数据获取部分,实现了基于模拟登录的网络爬虫,达到了以热点事件的关键字和数据产生的时间节点为筛选条件的高效率数据采集的目的,为后续研究提供了全面且充足的数据。在文本挖掘部分,主要研究将传统的文本分类方法应用于微博的文本情感分类。分析不同的特征抽取方法、特征选择以及不同的分类算法对文本情感分类效果的影响。本文选择N-gram算法的unigram和bigram两种模型进行特征抽取,采用信息增益算法进行特征选择,选择支持向量机算法和朴素贝叶斯算法等共五种分类算法进行情感分类。在实验过程中,对比了不同特征抽取模型以及进行特征选择前后的效果,在不同的特征维度下对比了五种分类算法的效果。实验结果表明,在一定特征维度下,采用unigram模型、信息增益算法和伯努利朴素贝叶斯算法的组合对微博文本情感分类的效果最好,正确率达到了 86%,AUC值达到了 0.93。在信息可视化部分,结合ECharts框架,实现了文本情感分析结果、用户信息以及微博基础信息在Web浏览器上的展示,可视化形式有柱状图、饼图、地图等。
其他文献
目的:比较支气管动脉灌注丹参联合动脉化学栓塞术、支气管动脉化学栓塞术和单纯支气管动脉化学药物灌注术的近期疗效。 方法:将204例经病理学确诊的原发性中心型肺癌分为3组
单功能烷化剂N-甲基-N-硝基-N-亚硝基胍(MNNG)是一种在实验室中广泛使用的模式致癌物,常被用于研究在环境中广泛存在的N-亚硝胺类化学诱变剂和致癌剂作用机制,它能和DNA及蛋
近年来,我国高等教育取得了巨大的发展,其直观表现为高校规模不断扩大,高效教育经费不断增长。以北京市为例,2012、2014年高等教育经费分别达到776亿元、829亿元,教育经费的
<正>部编教材《小学语文》是一套全新教材,于2016年秋季开始使用,其中一年级上册是新教材的起始内容,无论是教材编写的理念,还是课堂教学的实施都要重新加以审视。本文是对一
目的:肺癌是人类最常见的恶性肿瘤之一,其发生、发展与多种基因异常有关,同时吸烟与肺癌关系密切。本研究选择了tob基因,为目前肺癌基因研究新的热点。通过对tob基因及其蛋白在肺
随着经济的发展,商业银行个人理财业务逐年增长。截止2017年,我国银行共发布了9.35万只理财产品,资金规模达到了29.54万亿元。这说明我们理财产品市场规模很大,竞争压力也很大。B银行作为城市商业银行,理财产品是其主要收入来源之一。面对四大行及其他商业银行理财产品,如何赢得市场份额是B银行必须思考的问题。本文以B银行为例,运用定量和定性分析、归纳分析、层次分析法、问卷调查分析等方法,对B银行个人
少数者博弈模型(MinorityGame)源于经济学家阿瑟(W.B.Arthur)提出的“ElFarolBar”问题,是一个用来描述经纪人处在有限资源的复杂性系统中博弈的基础模型,它由张翼成教授和他的学
在城市化发展进程中,民用建筑的使用功能和用途不断增加,给建筑结构也提出较高要求。建筑高度的不断增加,导致建筑的使用功能、主要用途也发生较大改变,需要为建筑结构设计要
针对电梯运行过程中状态异常情况的不确定性问题,研究并实现了一种基于嵌入式系统的电梯运行状态监测方案。通过使用内部已集成了卡尔曼滤波的九轴加速度传感器来获取实时加
解决"备学生难"的教学设计问题,是美术教师编写教案的难题,也是落实新课程教学观的具体体现.对南疆中小学美术教学现状的分析得出,"备学生难"的问题主要表现为:结果测评统一难;过