基于Spark的网络舆情分析方法的研究与应用

来源 :中国科学院大学(中国科学院沈阳计算技术研究所) | 被引量 : 1次 | 上传用户:mc76759
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,人们日常生活中使用网络的时刻也越来越多,越来越多的人习惯于在网上针对于社会热点、时事新闻发表自己的看法,而互联网作为这样一个自由的虚拟平台,并不意味着它不需要任何管理,及时发现话题热点,遏制不实谣言的传播,引导舆论向正确的方向发展,保证一个良好的互联网环境,是互联网时代政府相关工作人员的新职责。然而面对如此海量的文本数据,如何从中提炼出话题,及时地为之后的管理、引导工作指明方向,正是该项研究工作的第一大难点。本文结合了自然语言处理、机器学习、大数据处理这几种相关技术,致力于解决这一难点问题。本文针对网络舆情分析中的话题检测部分,提出了一种基于多特征融合的Single-Pass-SOM组合模型的话题检测方法。该话题检测方法分为了两部分,一部分为文本表示,一部分为话题聚类。针对文本表示部分,本文提出了基于时间衰减因子的LDA&&word2vec文本表示模型,利用LDA模型提取主题特征,利用word2vec模型提取语义特征,将文本的这两种特征融合在一起,并设计了时间衰减因子,将时间特征也加入其中,从而获取更加全面的文本信息,提高话题检测的精度。针对话题聚类部分,本文提出了Single-Pass-SOM组合聚类模型,结合了Single-Pass聚类算法和SOM神经网络的优点,使用Single-Pass聚类算法作为粗聚类的模型,使用SOM神经网络作为细聚类的模型,提高了话题聚类的准确率和召回率。本文也通过设计一系列对比实验,证明了该话题检测方法的有效性。并且,本文还在提出的话题检测方法中应用了Spark分布式计算框架,采用并行化计算的方式,提高了算法的运行效率。
其他文献
摘要: 我国高等教育体制改革与发展过程就是政府职能逐渐转变、市场因素不断增加,以及市场配置资源机制渐趋形成的过程。当前,无论是“应然”还是“实然”状态而言,高等教育市场不是完全市场,高等教育市场竞争也并非完全竞争。实践中,由于行政控制体制的“惯性”以及市场机制不健全等方面的体制性约束,高等教育市场竞争呈现出诸多无序和混乱状态,偏离了高等教育的本质属性。改革实践中的关键问题是,要通过政府审慎的战略干
我所自1998年春季从台湾引种高朗1号青枣,现改接为台湾脆蜜大王枣,其果实营养丰富,可溶性固形物含量15%~18%,蛋白质0.7%,含有7种以上人体必需氨基酸,维生素C的含量是苹果的2倍、香蕉的3~4
我国社会治理正在从“治理”向“善治”转变,作为国家治理体系中的重要组成部分,社会组织治理已经形成了颇具中国特色的治理模式与创新发展路径。然而,社会组织快速发展势必衍生出诸多的治理问题:如治理结构的空间限制、制度规则的过度刚性、组织资源的非均衡配置、社会需求多样性、社会组织自身能力不足等方面限制。为了有效应对复杂多元的公共治理需求和破解社会组织治理难题,我国社会组织普遍历经了一个复杂多样的政策转化与
目的:初步观察泻黄类方治疗过敏性紫癜(皮肤型)的临床疗效及安全性。方法:采用随机对照的方法,研究泻黄类方治疗过敏性紫癜(皮肤型)的诊疗方案。以180例符合过敏性紫癜(皮肤型)诊断标准的2-18岁患儿作为研究对象进行临床观察,采用数字表法随机编号分组的方法,按照2:1将其分为治疗组和对照组,治疗组120例,对照组60例;治疗组采用导师经验泻黄类方(根据具体辨证选用相应方剂),对照组服用西药(西咪替丁
目的:对新疆医科大学第一附属医院门诊随访的主动脉夹层腔内隔绝术后患者行认知功能评估,分析及探讨其认知功能表现及可能的原因。方法:采用病例对照的方式,对2019年1月至2020年1月来我院门诊随访的B型主动脉夹层腔内隔绝术后患者和高血压患者进行筛选,平衡年龄、性别、教育程度、危险因素及吸烟史等因素,最终2组筛选各28名患者完成了RBANS评估。使用SPSS26.0进行统计分析,统计显著性设为P<
日前,中国医科大学附属第一医院与爱克发(Agfa)医疗系统设备(上海)有限公司启动医院二期PACS系统合作建设工程。据了解.该项目将在一期PACS系统的基础上向全院范围扩展,从而推进该院
本研究以引种的11种竹子为对象,测定了自然低温状态下各竹种的生理指标,并采用隶属函数法对各抗寒性指标进行综合评价。结果表明:淡竹、桂竹、金明竹,黄纹竹、金镶玉竹这5个
近日,北京协和医院完成一次大规模的东西大搬迁,风湿免疫科等6个强势特色科室整体搬迁新址,以突破制约医院发展和改善服务环境的空间瓶颈。据赵玉沛院长介绍,北京协和医院与原邮
本文针对高校微积分教学的对象主要为高校低年级学生的特点,探讨情景模拟法在高校微积分教学中的应用。本文重点选取物理中的运动过程作为基本情景对微积分的基本概念进行分