基于大数据的网络舆情分析系统模型研究

被引量 : 0次 | 上传用户:fragishsss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速普及,使网络成为社会舆论发布和传播的主要渠道之一。同时,由于各类网络服务的使用和发展,舆情信息的载体和内容形式也呈现出多样化的特点,不仅包括传统的电子邮件、门户网站、博客、贴吧、论坛还有新兴产生的微博、微信等,舆情的内容也不仅仅承载于新闻、评论、意见转发等,还包括各种多媒体舆情,表现出极大的不可控性。作为政府机关和相关研究机构了解民情民意的直接平台和政府必须坚守的舆论阵地,如果网络舆论被图谋不轨者引导和控制,则很有可能会危及社会的安全和稳定。然而在大数据时代,互联网产生的各种数据每天以PB规模增加,对舆情信息的挖掘和分析提出了新的挑战,因此,如何高效的从大数据时代的海量数据中挖掘和辨别出舆情信息,有很大的现实意义。本文针对这一问题,通过分析舆情分析系统的整体流程,结合大数据技术,构建了大数据环境下网络舆情分析系统模型,并对系统组成模块的工作流程和实现方式做了详细设计。主要工作及研究成果如下:1.研究了网络舆情分析的关键技术,深入分析了信息采集、信息预处理、文本聚类的各个步骤以及其涉及的关键技术和解决方法,分析了Hadoop的两大核心组成部分,HDFS分布式文件系统和MapReduce分布式并行计算模型的架构和工作流程。2.完成了大数据环境下网络舆情分析系统模型的整体设计,设计模型图,详细分析舆情信息采集、舆情信息预处理、舆情信息分析、舆情报告四个组成模块在大数据环境下的具体功能和实现流程。3.分析了信息采集、信息预处理、文本聚类三个阶段的可并行性,将上述过程进行优化。使用HDFS将文本分块存储在集群的不同节点上,利用MapReduce分布式并行计算模型和TFIDF权重计算方法和K-means聚类方法将处理过程分成map和reduce两个步骤进行分布式并行计算,提高了处理大批量数据的效率。4.利用普通PC机构造Hadoop集群,搭建实验所需的软硬件环境,对各项实验参数进行设置,对设计的基于MapReduce的分布式并行信息采集、文本预处理、特征选择、文本向量化、文本聚类过程进行实验验证,通过与常用处理方式对比,证明优化后系统的可扩展性和高效性。
其他文献
本文介绍了钛材在换热器中的应用,并详细阐述了钛材换热器的结构设计方法。
为提高异构系统下网络通信的实时性,提出一种跨平台的实时TCP/IP协议栈(RTTCP/IP)实现方法。运用操作系统适配技术屏蔽底层数据处理的差异性,增强协议栈的可移植性和可扩展性;
以猪肉价格波动的特征为切入点,运用蛛网模型分析供求曲线的弹性关系,发现近年来我国猪肉价格波动具有发散性特征,不能自发达到均衡。为进一步解释猪肉价格波动的原因,运用向
<正>目的既往研究报道抗谷氨酸脱羧酶抗体(GAD65)是副肿瘤相关的边缘叶脑炎重要诊断指标之一。本研究探讨抗GAD65抗体在临床诊断为"新发难治性癫痫持续状态(NORSE)"患者不同
会议
基于SUSAN原则提出了一种新的快速自适应角点检测算法,在几个方面进行了改进:以局部自适应阈值代替整个图像的固定阈值,提高了算法的自动处理能力;改进了响应函数,仅通过扫描
I/O的性能是许多从事虚拟化研究的学者致力于解决的难题之一。单根I/O虚拟化SR-IOV(Single Root I/O Virtualization)技术规范的提出,使得I/O虚拟化的性能得到了较大改善。但
10年前,举世瞩目的联合国第四次世界妇女大会在北京成功召开,制定并通过了《北京宣言》和《行动纲领》,进一步明确了全球性别平等事业发展的战略目标以及为实现这些目标应采
当前影响大学生思想政治教育接受的因素主要包括三方面,接受目的、接受前见以及教育者的主观诠释问题。大学生接受目的与教育目的存在的间距较大,接受前见较为复杂且消极前见
Ajax技术很好地解决了当前Web开发中存在用户等待时间较长的问题。给出一种在使用ASP.NET平台进行Web应用开发下加入Ajax技术的新的Web应用模型。并结合网上订餐系统具体说明
国有控股公司董事会建设是国有资产管理体制改革的重点之一。文章基于我国国有上市公司的大股东非执行董事这一视角,对国有上市公司董事会治理效率进行检验。研究发现:随着国