网络舆情系统的分析与设计

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:caiwei39602250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着网络的广泛使用,网络媒体已被认为是继报纸、广播、电视三大新闻媒介之后的“第四媒体”,它有许多传统媒体无法比拟的优点,如它有表达快捷、信息多元、方式互动等特点。网络已经成为了折射社会舆论导向的主要载体之一,它在舆论信息的传播中扮演着十分重要的角色。在网络环境下,舆情的主要来源有:QQ空间、新浪微博、论坛、博客等。这几种典型媒介都有着各自的特点,据统计QQ空间是所有网络信息中,网民关注度最高,信息量最大的;以新浪微博为代表的微博类社交媒体是继Email、BBS、ICQ、Blog之后出现的第五种网络交流形式,是网络化信息化时代的“信息宝藏”,里面的信息量是巨大的。为了能够及时发现网络舆情,本文我提出了一种设计网络舆情系统的架构,并对其进行了深入分析。
  关键词:网络舆情;系统架构;功能模块
  中图分类号:TP391.1
  1 项目背景
  网络舆情可以看做是认识、态度、情感、政治与行为倾向的集合,它是由敏感事件的刺激而产生并经由互联网广泛传播的。世界上没有完美的事物,所以网络也是这样,网络舆论是一把“双刃剑”,它提供了一个开放平台来表达普通民众的观点。同时,也构成了对我国政治和文化的严重威胁,具体体现在:第一,传统的政治斗争,通过网络可以更高效的实现,利用网络散播谣言比现实更容易。第二,西方国家利用网络对我国进行“西化”,网络舆论处于越来越激烈的战斗位置。
  高速发展的互联网已使网络媒体成为一种新的信息传播方式,对人们的日常生活产生了巨大的影响。网民经由网络表达看法、思想,继而产生的舆论压力,是任何部门与组织机构都不敢忽视的。因此,为了能够让国家机关、企业、公众人物等能够及时的掌握最实时的舆论导向,掌握第一手资料,本文分析了如何设计网络舆情分析系统,提出了一种全新的设计架构,为舆情系统的设计提供了一种全新的解决方案。
  2 网络舆情的介绍
  2.1 网络舆情产生的要素
  通过对2010年1月-2014年3月,网民在各大社交平台讨论热烈的事件进行分类汇总,得出了以下七大导致网络舆情产生的因素:(1)重大刑事案件;(2)涉外突发公共事件;(3)恐怖袭击事件;(4)经济安全事件;(5)较大规模群体性事件;(6)公共卫生事件;(7)突发自然灾害。
  2.2 网络舆情活跃的媒介
  根据中国新媒体经济(互联网、移动互联网、广电网、物联网等)的商业信息服务平台――易观智库发布的《2013年Q3中国移动互联网SNS类APP活跃用户排行榜》。
  图1 各大社交平台2013第三季度用户活跃度
  可以看出QQ空间、新浪微博、百度贴吧等社交媒体的用户活跃度都是非常之高的,就拿QQ空间来说,月度活跃用户数达2.8亿,以中国14亿人口计算,占了将近20%的人口比例。
  根据2014年3月15日,新浪微博向SEC递交的IPO文件, 新浪微博宣称活跃用户增长。截止2013年12月,新浪微博月度活跃用户数达到1.291亿,同比增长34%;日活跃用户为6140万,同比增长36%。2013年12月,用户在新浪微博上发表的帖子超过28亿。根据上述的一些数据,可以见识这类社交平台的威力,以及可以想象对舆论可能造成的影响会有多大。
  2.3 网络舆情的特点
  以下介绍的是网络舆情的一些特点:(1)直接性。通过微博,BBS,新闻点评,网民可以及时发表个人意见,下情直接上达,使得民意表达更为通畅;(2)突发性。网络舆情的形成常常非常迅速,一个热点事件加上一种情绪化的意见,就可能成为引起巨大舆论的导火索;(3)偏差性。在网络中发言者的身份往往比较隐蔽,而且我国网络仍缺少有效监管措施,网络就很可能成为网民发泄情绪的地方。一些网民在现实中经受挫折,片面理解社会问题,利用网络来发泄,因此在网络上更容易产生不真实的评论。
  3 网络舆情系统的设计
  3.1 架构设计
  (1)系统架构分析。第一层:操作系统层,采用Windows;第二层:分布式数据存储层与数据处理层,我们采用的是Apache的Hadoop,Hbase以及Mysql;第三层:数据分析引擎与数据采集引擎层:首先,数据采集引擎通过web services从外部系统获取数据,将数据交付下一层的Hadoop与Hbase;随后,数据分析引擎从第二层提出经过分类的数据,对其深加工;第四层:后台WEB系统层,主要功能是:管理项目,管理任务,提取分析报告等等;第五层:网站前台显示层:创建查看项目,创建查看任务,查看分析报告等等;第六层:系统安全体系层:为整套系统安全提供有效保障。
  图2 舆情网络系统系统架构
  3.2 系统架构的测试
  (1)系统架构测试。第一步:用户创建项目,在项目中创建任务,将任务内容提交给下一层;第二步:后台对上层提交的任务进行分类管理,对内容传递给下一层的数据采集系统;第三步:采集系统对任务进行分解,调用采集中间件,从外部系统中获取关联数据,对元数据进行打包封装,交付下一层的Hbase;第四步:分析系统充分利用Hadoop分布式框架集群的威力,进行高速运算,得出相关统计数据,交付上一层;第五步:网站后台从分析系统获取统计数据,生成有关报告,交付上一层;第六步:网站前台获取报告结论,将其显示在前台中;(2)以上就是整套系统的一个使用流程,对其进行初步测试,得出以下结论:1)多维度,多层次的设计将有效均衡负载;2)整个系统的设计层层递进,从用户发出请求,到向用户显示报告,其是一个环回的过程,可以有效地进行监控;3)采集中间件的使用可以降低我们的采集系统的开发成本;4)功能强悍的Hadoop与Hbase是我们整套系统底层的核心支持,保证了我们系统的安全,高速,正确,同时也降低了开发成本。   3.3 系统功能模块的划分
  (1)搭建Hahoop与Hbase分布式框架:主要实现分布式框架的设计,实现数据的高速存储;(2)研发数据分析引擎:对采集的数据进行词语分解,语义分析,进行分类汇总;(3)研发数据采集引擎:从指定的网络平台上自动采集数据;(4)Web前台与后台:有好的用户界面,对得出数据报告进行展示;(5)实现采集中间件与外部系统的对接:能够数据采集任务托管给采集中间件,从而节约研发成本,实现数据的高效采集;(6)系统安全管理体系的搭建:为整套系统的安全提供保证,维护系统的正确性,稳定性,抗压性。
  4 未来展望与总结
  通过对系统的架构进行分析与设计,对功能模块进行划分后,系统的雏形就基本上出来了。文章首先介绍了项目背景,接下来介绍了什么是网络舆情,网络舆情的产生要素以及网络舆情的特点。随后提出了一种网络舆情系统设计的架构,并且对架构进行了分析与测试,对系统功能模块的划分做了简要介绍。
  虽然通过不断的研究,使得舆情监控技术日趋成熟,但是由于舆情监控技术本身的局限性,特别是不能对其像对普通文本那样处理。舆情信息和文本信息的主要区是,它的扩散性和不可控性,它是一种动态的信息。我们仍然面临着两项关键技术亟待解决:
  4.1 及时获取动态信息的能力
  快速及时地获取最新的信息,对于信息趋势分析非常重要。对于舆情这种传播性很强的信息来说,越快发现就越能更好地进行预警。这样就对动态选择性抓取网页的技术提出了更高的要求。
  4.2 语义分析的能力
  汉语这种自然语言具有丰富性和复杂性的特点,也是制约各种文本分析技术进步的主要问题。很多自动分类、聚类方法对外文支持得很好,但对中文解析的效果却不理想。本人在对网络舆情的研究中,发现在热点新闻或论坛的留言中,总会存在大量的带有强烈感情色彩的句子,这也是汉语语言的特点。如果能完全解析将这些句子或词语的语义,对于舆情趋势分析和敏感事件的引导发挥着重要的作用。
  设想如果数据分析技术达到一个新的高度,那么未来将会诞生更多更实用的信息化应用,如:智慧决策,搜索引擎++(在搜索引擎的基础上附加数据分析功能)等。为此,我们需要更加努力地进行更深入的研究。
  参考文献:
  [1]祝华新.2010年中国互联网舆情分析报告[R].2010年社会蓝皮书,2010.
  [2]刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007(24):10.
  [3]熊允发,吴绍忠.基于互联网的公安情报收集技术研究[J].警察技术,2007(06):14-16.
  [4]胡运发.中国现代语法[M].北京:商务印书馆,1985(01):131-132.
  [5]徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007(01).
  [6]刘永丹,曾海泉,李荣陆.基于语义分析的倾向性文本过滤[J].通信学报,2004(07).
  [7]张志刚,陈静,李晓明.一种 HTML 网页净化方法[J].情报学,2004(04):4.
  [8]郑军.网络舆情监控的热点发现算法研究[J].哈尔滨工程大学,2006(12):9-12.
  [9]王煜,王正欧.基于模式聚合和决策树的文本分类规则抽取[J].情报科学,2006(01):96-99.
  [10]杨学名.Web中文文本聚类研究及实现[J].现代图书情报技术,2006(12):13-16.
  作者简介:喻思远(1994.02-),男,湖北赤壁人,本科,研究方向:网络舆情研究与数据挖掘。
  作者单位:石河子大学信息科学与技术学院,新疆石河子 832000
其他文献
摘 要:中国职业教育事业经过多少年的风风雨雨发展到了今天,但目前看来,其水平并不高。新的社会环境要求学生们在保证基本能力的基础上必须具备动手能力和创新能力,为了适应社会发展的需求,我们作为培养高职高专的院校,对计算机基础课程进行改革是非常必要的。本文分析了计算机基础教学的现状和其中存在的问题,并对计算思维式的计算机教学改革进行了探讨。  关键词:高职高专;职业教育;计算思维;教学改革  中图分类号
期刊
摘 要:小微企业是国民经济和社会发展不可或缺的力量,对保持国民经济健康可持续发展,改善民生、促进就业和维护社会和谐稳定具有重要的作用。它的经济贡献和社会贡献逐年都在提高。本文主要研究中等职业教育如何满足小微企业群对技能型人才需求及解决中职学校面向小微企业实施的教学对策问题。本文将小微企业集群化,实行中等职业学校与小微企业进行校企合作,搭建满足小微企业人才需求的三个有效平台,实施有效的教学对策,使中
期刊
摘 要:毕业生就业跟踪服务系统由毕业生信息库平台、实习基地和用人单位信息库平台、服务跟踪信息系统等几个子系统组成,采用目前比较流行的MVC框架+SQL数据库,应用Myeclipse和Eclipse平台,用JAVA语言编写程序代码,实现系统功能。使高校就业机构能够动态掌握学生的实习就业信息。  关键词:移动;实习就业;跟踪系统  中图分类号:TP311.52  1 背景和意义  随着社会的高速发展,
期刊
摘 要:高职的许多课程都需要理论和实验相结合,但并非每门课程都具备完善的实验环境和条件,针对某些课程既有实验要求,又不具备条件的情况,笔者提出了就地取材去完成相关的实验并达到良好的教学效果的一些建议。  关键词:高职实验教学;实验环节设置;就地取材  中图分类号:TP317.1-4  高职教学中,许多课程都需要结合实验来进行讲授,讲练结合,以达到最佳的学习效果。在现代教育环境下,高职的专业核心课程
期刊
摘 要:数字图书馆拥有超容量、丰富多彩的媒体介质的数字化信息资源,它也是社会信息基础结构中储存、管理以及传输信息资源的基本形式。随着网络技术、计算机技术以及通信技术和数字资源管理技术的巨大进步与发展,数字图书馆也面临着数字图书馆资源的整合问题。然而,从当前来看,在整合数字图书馆的资源方面面临着以下难题,如何集成与整合互联网上分散无序的海量信息,从而解决好“数字信息超载”难题。再就是如何集成以及重组
期刊
摘 要:通过分析IaaS虚拟化平台的IO传输缺陷,结合中药图谱研究中大量以文件形式存在的图谱数据传输需求,研究中药图谱文件系统向虚拟化平台迁移中的局限,并对比现有解决方案,提出通过业务分层的方法将文件IO负载从应用系统中剥离的文件PaaS模型,该模型将文件式IO密集型应用分解为:UI服务层、业务逻辑层、数据传输层和数据存储层,UI服务和业务逻辑可方便的部署于IaaS虚拟化平台中,数据传输层和数据存
期刊
摘 要:基于翻转课堂的项目驱动式教学是一种新的教学模式,能够使教学效果最大化。本文在《数据库原理与应用》课程的项目驱动式教学中采用了翻转课堂教学法,以《学生信息管理系统的设计》项目为导向,以任务为驱动完成教学要求,基于翻转课堂教学法对该课程的教学过程进行了设计。结果表明使用该教学模式后教学效果明显,增强了学生学习积极性,提高了学生动手操作能力、分析问题和解决问题能力。  关键词:翻转课堂;项目驱动
期刊
摘 要:随着数字化媒体的涌现,非法复制多媒体数据越来越便捷,面对着盗版行业的猖獗,保护数字版权显得刻不容缓。本文以数字媒体中的图像版权的保护为例,探讨了目前数字保护协议存在的不足,结合数字水印技术以及加密技术,提出了构建科学安全的数字版权保护协议的办法,并对协议的思想、模型以及运作方式进行了介绍,对协议的安全性进行了分析,希望能够对数字版权的保护工作有所帮助。  关键词:数字版权;安全协议保护;水
期刊
摘 要:信息化给测绘领域注入了新的生机,以往需要依靠人工才能够完成的测绘项目如今只需要依靠计算机技术即可高效的完成,目前,数字化工作方式开始成为测绘领域的主流,某些新技术与新设备的应用不仅可以有效提升测绘工作的准确度,也可以有效扩大测绘范围。本文主要分析计算机数字化测绘技术的应用与发展趋势。  关键词:计算机数字化测绘技术;应用;发展  中图分类号:P209  进入了新技术之后,世界范围内的信息技
期刊
摘 要:为了丰富解决车辆路径优化问题的方式,提出一种融入了局部搜索的离散型细菌菌落优化算法。首先设计了算法的个体编码方式和进化模式;然后融入局部搜索方式来加速算法寻优的效率;最后将该算法应用于带时间窗的车辆路径问题,并采用solomon数据验证,通过与其他算法进行比较,验证算法的可行性。  关键词:细菌菌落算法;车辆路径问题;离散型优化;局部搜索  中图分类号:TP312  随着物流业在现代经济中
期刊