基于微博的网络舆情分析系统的设计与实现

来源 :电子科技大学 | 被引量 : 9次 | 上传用户：robotech

【摘要】

：

在互联网+时代,借助各种各样的社交媒体,人与人之间的交流越来越便捷,成本也越来越低。无论是国家大事、社情民意还是明星八卦,这些信息都在网民的积极讨论与交流中迅速地传

【作者】

：

李新盼

【出处】

：

电子科技大学

【发表日期】

：

2017年01期

【关键词】

：

网络舆情分析 word2vec Single-pass&HAC 文本聚类话题检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在互联网+时代,借助各种各样的社交媒体,人与人之间的交流越来越便捷,成本也越来越低。无论是国家大事、社情民意还是明星八卦,这些信息都在网民的积极讨论与交流中迅速地传播,庞大的社交媒体用户群产生了数量巨大的网络数据,如何在这些非结构化、动态、海量的数据中及时发现有价值的热点话题、捕捉网络舆论的发展动向,是当今自然语言处理领域的研究热点之一。近年来微博的用户数量持续增长,其影响力也越来越不可小觑,故本论文选用微博作为研究对象,利用网络爬虫技术获取微博数据。微博文本虽然包含了丰富的社会话题但其数据较为特殊,采用传统的方法对其进行话题检测效果往往差强人意。本文的重点研究内容为:话题检测处理流程中的文本表示模型以及文本聚类算法。针对微博文本的特殊性,本文改进了word2vec更新词向量的方法,并将改进的word2vec与TF-IDF(Term Frequency-Inverse Document Frequency,TF-IDF)相结合,设计并实现了基于Improved-word2vec&TF-IDF的文本表示模型。利用此文本表示方法可将微博数据映射为固定维度的文本向量,有效地解决了传统文本表示模型映射出的向量高维稀疏性、忽略语义相似度的问题。实验证明,利用该文本表示方法进行话题聚类,聚类准确度比VSM相比提高了19.62%。本文针对经典Single-pass算法的两个缺陷进行了改进,并将改进的Single-pass聚类算法与凝聚式层次聚类(Hierarchical Agglomerative Clustering,HAC)算法相结合,设计并实现了基于Improved-SP&HAC的微博话题检测聚类算法。ImprovedSP&HAC算法分两个步骤,首先利用改进的Single-pass算法对微博数据快速聚类,提高话题检测的时间效率;其次利用凝聚式层次聚类算法对初次结果进行再聚类,提高话题检测的准确性。通过对比实验证明,Improved-SP&HAC算法兼顾了效率与质量,将其运用到舆情分析中比传统的聚类算法更具优势。本文还详细设计并利用Python Django框架实现了微博网络舆情分析原型系统,测试证明该系统性能稳定,可以辅助用户进行微博舆情分析。

其他文献

新菜三例

奇妙银鱼排原料：太湖大银鱼400克哈密瓜250克猕猴桃1个西生菜200克色拉酱、鸡蛋、生粉、面包糠、料酒、葱姜汁、盐、鸡粉、白胡椒粉、色拉油各适量

期刊

太湖大银鱼色拉酱猕猴桃哈密瓜面包糠胡椒粉色拉油鸡蛋

辩证法概念探源

随着哲学的发展，辩证法的概念一直在丰富着自己的内容，从一种辩论的方术到作为理性的逻辑，又从理性的逻辑经过唯物化扩充到自然、社会、历史等领域成为了整个世界的规律或逻辑。

期刊

辩证法概念探源

对加强能源统计工作的思考

在社会主义建设的实践中，能源在国民经济发展中的重要地位日趋突出。我国“十一五”规划的一个重要目标是单位GDP能耗降低20％。近两年，又提出并实施节能减排综合性工作方案，建立

期刊

能源管理统计工作“十一五”规划社会主义建设国民经济发展目标责任制指标体系监测体系

名人与菘

菘,其实就是白菜的另一个名字。齐白石曾赞叹,＂牡丹为花王,荔枝为果王,菘乃菜王也。＂在我国民间,也有这么一种说法：＂百菜不如白菜香。＂人有气质品位的高下之分,不知道蔬菜水果这些

期刊

名人蔬菜水果白菜气质

含裂口损伤复合材料层合板拉伸试验及数值模拟分析

通过对无损、含损（不同长度的裂口损伤）的碳纤维复合材料层合板进行拉伸试验,研究了裂口损伤形式对碳纤维复合材料层合板拉伸性能的影响。经试验研究,碳纤维复合材料无损层合板

期刊

含损复合材料层合板损伤失效准则

谈谈影响饲料营养物质的因素

饲料的营养价值在不同条件的影响下会发生各种变化。其影响因素很多，笔者简述于下。

期刊

饲料营养物质营养价值青贮品种营养成分

典型行业废水对蚤类及鱼类的毒性效应研究

目前,我国关于行业废水的水质安全评价还主要以物理化学指标为主,但是在欧美等发达国家己经逐步在废水的评价中引入毒性指标,原因是传统的理化指标无法反映水体中污染物间的

学位

蚤类鱼类受试生物敏感性典型行业废水生物毒性评价

自由体位分娩配合自发性用力对初产妇分娩结局的影响

[目的]探讨自由体位分娩配合自发性用力对初产妇分娩结局的影响。[方法]采用便利抽样法,选择郑州大学第三附属医院产房宫口开全的初产妇90例,随机分为对照组和观察组各45例,

期刊

初产妇自由体位分娩自发性用力分娩结局

新型分娩体位在第二产程的应用研究

近年来,大量研究表明产妇在第二产程中采用垂直位、卧位、手膝位、自由体位等新型不同分娩体位与传统分娩体位相比,更符合产妇生理及心理需求,可缩短产程,降低剖宫产率,提高

期刊

分娩体位第二产程研究

甘肃礼县食记

礼县不仅是秦始皇的故里．而且还是明朝初年山西移民和清代中期四川移民的聚居地．当地民间沉淀了丰厚的历史文化．同时也保留了一些带有古老痕迹的特色风味小吃。

期刊

甘肃礼县风味小吃历史文化清代中期明朝初年聚居地秦始皇移民

基于微博的网络舆情分析系统的设计与实现

与本文相关的学术论文