基于Spark的政务网络舆情分析系统设计与实现

来源 :南京师范大学 | 被引量 : 1次 | 上传用户:lihaiyun718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,每天在互联网中都会产生大量的网络信息,网络媒体作为重要的信息传播平台,人们可以快速地浏览网页信息和共享信息资源,实现广泛的沟通交流。通过对网络事件进行实时分析,可以指导政务部门采取相应的决策。但随着网络数据的爆炸式增长,传统的舆情分析技术的计算能力难以满足大规模数据的处理需求,为了提高舆情分析的计算性能需求,本论文将利用Spark计算平台处理大规模舆情数据,并结合现有的自然语言处理和数据挖掘技术,提高对网络数据的处理效果,为相关政务职能部门及时准确地提供网络舆情信息。本文的主要工作内容如下:(1)论文首先分析了传统舆情分析系统在计算能力上的不足。互联网上每天都会产生大量的舆情数据,在分析这些数据之前,首先需要将这些数据转变为计算机可处理的形式,而传统的空间向量模型在进行文本表示时需要消耗大量的时间和空间,这严重阻碍了实时话题检测。本文将传统空间向量模型表示进行文本并行向量化,并使用稀疏向量的方式来减少存储空间和计算开销。(2)为了解决传统舆情分析在计算能力上的不足,提高文本分析的处理效率,本文通过对比传统舆情分析算法选用适当有效的舆情分析算法进行文本分析,并将这些算法进行并行化实现,以达到提高计算效率的目的。Spark技术基于内存运算,而且Spark MLlib提供了海量数据机器学习方法的分布式实现,所以非常适合需要迭代运算的机器学习,可以实现大规模数据的机器学习过程。(3)针对于大规模文本数据的分析处理需求,通过技术方案对比,选择满足本文的系统需求的技术,设计实现以Spark为计算平台的网络舆情分析系统,以此提高系统的性能。具体从舆情数据的处理和舆情数据的分析两方面考虑进行设计,同时给出了本文面向政务网络舆情分析系统详细的设计实现方案,最后展示了部分系统界面。
其他文献
市委十一届十次全会是一次发展新理念再强化、发展新蓝图再描绘的大会,是一次非常政治责任再强化、重大政治任务再落实的大会,是一次对群众美好生活向往再回应、对凝聚合力谋发
国家基础地理信息系统是我国国家空间数据基础设施的重要组成部分。NFGIS的全国1:25数据库已于1998年建成。它是我国目前最大基础地理信息空间型数据库。迄今,已在许多领域应用,取得十分显著
农村电子商务作为一种新兴业态,已经渗透到农业全产业链,在降低农村流通成本、提高农产品商品化率等方面成效显著。在解析当前浙江省农产品网络营销发展现状及问题的基础上,
随着《中国制造2025》行动纲领的颁布,我国由制造业大国向制造业强国迈出了坚实的一步,也进一步凸显了制造业在国民经济发展中的重要作用。同时,随着经济全球化竞争的加剧,制造业领域的竞争也日益激烈,如何在激烈竞争的市场中获得一席之地,成为企业探索发展的重要内容。随着我国人口红利优势的消失以及世界资源消耗的加剧,单纯依靠降低原材料消耗成本和人力资源成本已无法满足企业提高竞争优势的需求。因此,企业在着力降
<正>航空枢纽具有中转、组织、整合全球资源的功能,是21世纪扩大对外交流的重要门户和发展临空经济的根本依托,也是聚合全球高端资源的重要平台。美国、英国、法国、德国、日
构式语法是伴随认知语言学的发展,是在对传统的转换生成语法反思的基础上产生的,是一个比较新的语法体系,为我们提供了语言研究的崭新视角。构式语法的研究特点使得构式语法
本文针对我校计算机专业在微机原理与接口技术实验教学中存在的问题,提出了一系列具体改革措施,包括对教学形式、实验项目、成绩评定标准的改进和对学生实践技能、科研项目的
<正> 政府采购在市场经济国家已有200多年的历史。目前,市场经济发达国家的政府采购进一步向规范化、国际化的方向发展,法律制度日益完善,采购规模也越来越大,一些国家每年用
同情民众、关怀民生以揭露社会的罪恶是十九世纪俄罗斯文学的主要内容。六十年以来,宗教文化对人论思想产生消积影响。高尔基从自己的民主思想出发,强调对人的肯定与尊重,超越了