基于微博的网络舆情分析系统的设计与实现

来源 :电子科技大学 | 被引量 : 9次 | 上传用户:robotech
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网+时代,借助各种各样的社交媒体,人与人之间的交流越来越便捷,成本也越来越低。无论是国家大事、社情民意还是明星八卦,这些信息都在网民的积极讨论与交流中迅速地传播,庞大的社交媒体用户群产生了数量巨大的网络数据,如何在这些非结构化、动态、海量的数据中及时发现有价值的热点话题、捕捉网络舆论的发展动向,是当今自然语言处理领域的研究热点之一。近年来微博的用户数量持续增长,其影响力也越来越不可小觑,故本论文选用微博作为研究对象,利用网络爬虫技术获取微博数据。微博文本虽然包含了丰富的社会话题但其数据较为特殊,采用传统的方法对其进行话题检测效果往往差强人意。本文的重点研究内容为:话题检测处理流程中的文本表示模型以及文本聚类算法。针对微博文本的特殊性,本文改进了word2vec更新词向量的方法,并将改进的word2vec与TF-IDF(Term Frequency-Inverse Document Frequency,TF-IDF)相结合,设计并实现了基于Improved-word2vec&TF-IDF的文本表示模型。利用此文本表示方法可将微博数据映射为固定维度的文本向量,有效地解决了传统文本表示模型映射出的向量高维稀疏性、忽略语义相似度的问题。实验证明,利用该文本表示方法进行话题聚类,聚类准确度比VSM相比提高了19.62%。本文针对经典Single-pass算法的两个缺陷进行了改进,并将改进的Single-pass聚类算法与凝聚式层次聚类(Hierarchical Agglomerative Clustering,HAC)算法相结合,设计并实现了基于Improved-SP&HAC的微博话题检测聚类算法。ImprovedSP&HAC算法分两个步骤,首先利用改进的Single-pass算法对微博数据快速聚类,提高话题检测的时间效率;其次利用凝聚式层次聚类算法对初次结果进行再聚类,提高话题检测的准确性。通过对比实验证明,Improved-SP&HAC算法兼顾了效率与质量,将其运用到舆情分析中比传统的聚类算法更具优势。本文还详细设计并利用Python Django框架实现了微博网络舆情分析原型系统,测试证明该系统性能稳定,可以辅助用户进行微博舆情分析。
其他文献
奇妙银鱼排原料:太湖大银鱼400克哈密瓜250克猕猴桃1个西生菜200克色拉酱、鸡蛋、生粉、面包糠、料酒、葱姜汁、盐、鸡粉、白胡椒粉、色拉油各适量
随着哲学的发展,辩证法的概念一直在丰富着自己的内容,从一种辩论的方术到作为理性的逻辑,又从理性的逻辑经过唯物化扩充到自然、社会、历史等领域成为了整个世界的规律或逻辑。
在社会主义建设的实践中,能源在国民经济发展中的重要地位日趋突出。我国“十一五”规划的一个重要目标是单位GDP能耗降低20%。近两年,又提出并实施节能减排综合性工作方案,建立
菘,其实就是白菜的另一个名字。齐白石曾赞叹,"牡丹为花王,荔枝为果王,菘乃菜王也。"在我国民间,也有这么一种说法:"百菜不如白菜香。"人有气质品位的高下之分,不知道蔬菜水果这些
通过对无损、含损(不同长度的裂口损伤)的碳纤维复合材料层合板进行拉伸试验,研究了裂口损伤形式对碳纤维复合材料层合板拉伸性能的影响。经试验研究,碳纤维复合材料无损层合板
饲料的营养价值在不同条件的影响下会发生各种变化。其影响因素很多,笔者简述于下。
目前,我国关于行业废水的水质安全评价还主要以物理化学指标为主,但是在欧美等发达国家己经逐步在废水的评价中引入毒性指标,原因是传统的理化指标无法反映水体中污染物间的
[目的]探讨自由体位分娩配合自发性用力对初产妇分娩结局的影响。[方法]采用便利抽样法,选择郑州大学第三附属医院产房宫口开全的初产妇90例,随机分为对照组和观察组各45例,
近年来,大量研究表明产妇在第二产程中采用垂直位、卧位、手膝位、自由体位等新型不同分娩体位与传统分娩体位相比,更符合产妇生理及心理需求,可缩短产程,降低剖宫产率,提高
礼县不仅是秦始皇的故里.而且还是明朝初年山西移民和清代中期四川移民的聚居地.当地民间沉淀了丰厚的历史文化.同时也保留了一些带有古老痕迹的特色风味小吃。