论文部分内容阅读
摘 要:随着网络的广泛使用,网络媒体已被认为是继报纸、广播、电视三大新闻媒介之后的“第四媒体”,它有许多传统媒体无法比拟的优点,如它有表达快捷、信息多元、方式互动等特点。网络已经成为了折射社会舆论导向的主要载体之一,它在舆论信息的传播中扮演着十分重要的角色。在网络环境下,舆情的主要来源有:QQ空间、新浪微博、论坛、博客等。这几种典型媒介都有着各自的特点,据统计QQ空间是所有网络信息中,网民关注度最高,信息量最大的;以新浪微博为代表的微博类社交媒体是继Email、BBS、ICQ、Blog之后出现的第五种网络交流形式,是网络化信息化时代的“信息宝藏”,里面的信息量是巨大的。为了能够及时发现网络舆情,本文我提出了一种设计网络舆情系统的架构,并对其进行了深入分析。
关键词:网络舆情;系统架构;功能模块
中图分类号:TP391.1
1 项目背景
网络舆情可以看做是认识、态度、情感、政治与行为倾向的集合,它是由敏感事件的刺激而产生并经由互联网广泛传播的。世界上没有完美的事物,所以网络也是这样,网络舆论是一把“双刃剑”,它提供了一个开放平台来表达普通民众的观点。同时,也构成了对我国政治和文化的严重威胁,具体体现在:第一,传统的政治斗争,通过网络可以更高效的实现,利用网络散播谣言比现实更容易。第二,西方国家利用网络对我国进行“西化”,网络舆论处于越来越激烈的战斗位置。
高速发展的互联网已使网络媒体成为一种新的信息传播方式,对人们的日常生活产生了巨大的影响。网民经由网络表达看法、思想,继而产生的舆论压力,是任何部门与组织机构都不敢忽视的。因此,为了能够让国家机关、企业、公众人物等能够及时的掌握最实时的舆论导向,掌握第一手资料,本文分析了如何设计网络舆情分析系统,提出了一种全新的设计架构,为舆情系统的设计提供了一种全新的解决方案。
2 网络舆情的介绍
2.1 网络舆情产生的要素
通过对2010年1月-2014年3月,网民在各大社交平台讨论热烈的事件进行分类汇总,得出了以下七大导致网络舆情产生的因素:(1)重大刑事案件;(2)涉外突发公共事件;(3)恐怖袭击事件;(4)经济安全事件;(5)较大规模群体性事件;(6)公共卫生事件;(7)突发自然灾害。
2.2 网络舆情活跃的媒介
根据中国新媒体经济(互联网、移动互联网、广电网、物联网等)的商业信息服务平台――易观智库发布的《2013年Q3中国移动互联网SNS类APP活跃用户排行榜》。
图1 各大社交平台2013第三季度用户活跃度
可以看出QQ空间、新浪微博、百度贴吧等社交媒体的用户活跃度都是非常之高的,就拿QQ空间来说,月度活跃用户数达2.8亿,以中国14亿人口计算,占了将近20%的人口比例。
根据2014年3月15日,新浪微博向SEC递交的IPO文件, 新浪微博宣称活跃用户增长。截止2013年12月,新浪微博月度活跃用户数达到1.291亿,同比增长34%;日活跃用户为6140万,同比增长36%。2013年12月,用户在新浪微博上发表的帖子超过28亿。根据上述的一些数据,可以见识这类社交平台的威力,以及可以想象对舆论可能造成的影响会有多大。
2.3 网络舆情的特点
以下介绍的是网络舆情的一些特点:(1)直接性。通过微博,BBS,新闻点评,网民可以及时发表个人意见,下情直接上达,使得民意表达更为通畅;(2)突发性。网络舆情的形成常常非常迅速,一个热点事件加上一种情绪化的意见,就可能成为引起巨大舆论的导火索;(3)偏差性。在网络中发言者的身份往往比较隐蔽,而且我国网络仍缺少有效监管措施,网络就很可能成为网民发泄情绪的地方。一些网民在现实中经受挫折,片面理解社会问题,利用网络来发泄,因此在网络上更容易产生不真实的评论。
3 网络舆情系统的设计
3.1 架构设计
(1)系统架构分析。第一层:操作系统层,采用Windows;第二层:分布式数据存储层与数据处理层,我们采用的是Apache的Hadoop,Hbase以及Mysql;第三层:数据分析引擎与数据采集引擎层:首先,数据采集引擎通过web services从外部系统获取数据,将数据交付下一层的Hadoop与Hbase;随后,数据分析引擎从第二层提出经过分类的数据,对其深加工;第四层:后台WEB系统层,主要功能是:管理项目,管理任务,提取分析报告等等;第五层:网站前台显示层:创建查看项目,创建查看任务,查看分析报告等等;第六层:系统安全体系层:为整套系统安全提供有效保障。
图2 舆情网络系统系统架构
3.2 系统架构的测试
(1)系统架构测试。第一步:用户创建项目,在项目中创建任务,将任务内容提交给下一层;第二步:后台对上层提交的任务进行分类管理,对内容传递给下一层的数据采集系统;第三步:采集系统对任务进行分解,调用采集中间件,从外部系统中获取关联数据,对元数据进行打包封装,交付下一层的Hbase;第四步:分析系统充分利用Hadoop分布式框架集群的威力,进行高速运算,得出相关统计数据,交付上一层;第五步:网站后台从分析系统获取统计数据,生成有关报告,交付上一层;第六步:网站前台获取报告结论,将其显示在前台中;(2)以上就是整套系统的一个使用流程,对其进行初步测试,得出以下结论:1)多维度,多层次的设计将有效均衡负载;2)整个系统的设计层层递进,从用户发出请求,到向用户显示报告,其是一个环回的过程,可以有效地进行监控;3)采集中间件的使用可以降低我们的采集系统的开发成本;4)功能强悍的Hadoop与Hbase是我们整套系统底层的核心支持,保证了我们系统的安全,高速,正确,同时也降低了开发成本。 3.3 系统功能模块的划分
(1)搭建Hahoop与Hbase分布式框架:主要实现分布式框架的设计,实现数据的高速存储;(2)研发数据分析引擎:对采集的数据进行词语分解,语义分析,进行分类汇总;(3)研发数据采集引擎:从指定的网络平台上自动采集数据;(4)Web前台与后台:有好的用户界面,对得出数据报告进行展示;(5)实现采集中间件与外部系统的对接:能够数据采集任务托管给采集中间件,从而节约研发成本,实现数据的高效采集;(6)系统安全管理体系的搭建:为整套系统的安全提供保证,维护系统的正确性,稳定性,抗压性。
4 未来展望与总结
通过对系统的架构进行分析与设计,对功能模块进行划分后,系统的雏形就基本上出来了。文章首先介绍了项目背景,接下来介绍了什么是网络舆情,网络舆情的产生要素以及网络舆情的特点。随后提出了一种网络舆情系统设计的架构,并且对架构进行了分析与测试,对系统功能模块的划分做了简要介绍。
虽然通过不断的研究,使得舆情监控技术日趋成熟,但是由于舆情监控技术本身的局限性,特别是不能对其像对普通文本那样处理。舆情信息和文本信息的主要区是,它的扩散性和不可控性,它是一种动态的信息。我们仍然面临着两项关键技术亟待解决:
4.1 及时获取动态信息的能力
快速及时地获取最新的信息,对于信息趋势分析非常重要。对于舆情这种传播性很强的信息来说,越快发现就越能更好地进行预警。这样就对动态选择性抓取网页的技术提出了更高的要求。
4.2 语义分析的能力
汉语这种自然语言具有丰富性和复杂性的特点,也是制约各种文本分析技术进步的主要问题。很多自动分类、聚类方法对外文支持得很好,但对中文解析的效果却不理想。本人在对网络舆情的研究中,发现在热点新闻或论坛的留言中,总会存在大量的带有强烈感情色彩的句子,这也是汉语语言的特点。如果能完全解析将这些句子或词语的语义,对于舆情趋势分析和敏感事件的引导发挥着重要的作用。
设想如果数据分析技术达到一个新的高度,那么未来将会诞生更多更实用的信息化应用,如:智慧决策,搜索引擎++(在搜索引擎的基础上附加数据分析功能)等。为此,我们需要更加努力地进行更深入的研究。
参考文献:
[1]祝华新.2010年中国互联网舆情分析报告[R].2010年社会蓝皮书,2010.
[2]刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007(24):10.
[3]熊允发,吴绍忠.基于互联网的公安情报收集技术研究[J].警察技术,2007(06):14-16.
[4]胡运发.中国现代语法[M].北京:商务印书馆,1985(01):131-132.
[5]徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007(01).
[6]刘永丹,曾海泉,李荣陆.基于语义分析的倾向性文本过滤[J].通信学报,2004(07).
[7]张志刚,陈静,李晓明.一种 HTML 网页净化方法[J].情报学,2004(04):4.
[8]郑军.网络舆情监控的热点发现算法研究[J].哈尔滨工程大学,2006(12):9-12.
[9]王煜,王正欧.基于模式聚合和决策树的文本分类规则抽取[J].情报科学,2006(01):96-99.
[10]杨学名.Web中文文本聚类研究及实现[J].现代图书情报技术,2006(12):13-16.
作者简介:喻思远(1994.02-),男,湖北赤壁人,本科,研究方向:网络舆情研究与数据挖掘。
作者单位:石河子大学信息科学与技术学院,新疆石河子 832000
关键词:网络舆情;系统架构;功能模块
中图分类号:TP391.1
1 项目背景
网络舆情可以看做是认识、态度、情感、政治与行为倾向的集合,它是由敏感事件的刺激而产生并经由互联网广泛传播的。世界上没有完美的事物,所以网络也是这样,网络舆论是一把“双刃剑”,它提供了一个开放平台来表达普通民众的观点。同时,也构成了对我国政治和文化的严重威胁,具体体现在:第一,传统的政治斗争,通过网络可以更高效的实现,利用网络散播谣言比现实更容易。第二,西方国家利用网络对我国进行“西化”,网络舆论处于越来越激烈的战斗位置。
高速发展的互联网已使网络媒体成为一种新的信息传播方式,对人们的日常生活产生了巨大的影响。网民经由网络表达看法、思想,继而产生的舆论压力,是任何部门与组织机构都不敢忽视的。因此,为了能够让国家机关、企业、公众人物等能够及时的掌握最实时的舆论导向,掌握第一手资料,本文分析了如何设计网络舆情分析系统,提出了一种全新的设计架构,为舆情系统的设计提供了一种全新的解决方案。
2 网络舆情的介绍
2.1 网络舆情产生的要素
通过对2010年1月-2014年3月,网民在各大社交平台讨论热烈的事件进行分类汇总,得出了以下七大导致网络舆情产生的因素:(1)重大刑事案件;(2)涉外突发公共事件;(3)恐怖袭击事件;(4)经济安全事件;(5)较大规模群体性事件;(6)公共卫生事件;(7)突发自然灾害。
2.2 网络舆情活跃的媒介
根据中国新媒体经济(互联网、移动互联网、广电网、物联网等)的商业信息服务平台――易观智库发布的《2013年Q3中国移动互联网SNS类APP活跃用户排行榜》。
图1 各大社交平台2013第三季度用户活跃度
可以看出QQ空间、新浪微博、百度贴吧等社交媒体的用户活跃度都是非常之高的,就拿QQ空间来说,月度活跃用户数达2.8亿,以中国14亿人口计算,占了将近20%的人口比例。
根据2014年3月15日,新浪微博向SEC递交的IPO文件, 新浪微博宣称活跃用户增长。截止2013年12月,新浪微博月度活跃用户数达到1.291亿,同比增长34%;日活跃用户为6140万,同比增长36%。2013年12月,用户在新浪微博上发表的帖子超过28亿。根据上述的一些数据,可以见识这类社交平台的威力,以及可以想象对舆论可能造成的影响会有多大。
2.3 网络舆情的特点
以下介绍的是网络舆情的一些特点:(1)直接性。通过微博,BBS,新闻点评,网民可以及时发表个人意见,下情直接上达,使得民意表达更为通畅;(2)突发性。网络舆情的形成常常非常迅速,一个热点事件加上一种情绪化的意见,就可能成为引起巨大舆论的导火索;(3)偏差性。在网络中发言者的身份往往比较隐蔽,而且我国网络仍缺少有效监管措施,网络就很可能成为网民发泄情绪的地方。一些网民在现实中经受挫折,片面理解社会问题,利用网络来发泄,因此在网络上更容易产生不真实的评论。
3 网络舆情系统的设计
3.1 架构设计
(1)系统架构分析。第一层:操作系统层,采用Windows;第二层:分布式数据存储层与数据处理层,我们采用的是Apache的Hadoop,Hbase以及Mysql;第三层:数据分析引擎与数据采集引擎层:首先,数据采集引擎通过web services从外部系统获取数据,将数据交付下一层的Hadoop与Hbase;随后,数据分析引擎从第二层提出经过分类的数据,对其深加工;第四层:后台WEB系统层,主要功能是:管理项目,管理任务,提取分析报告等等;第五层:网站前台显示层:创建查看项目,创建查看任务,查看分析报告等等;第六层:系统安全体系层:为整套系统安全提供有效保障。
图2 舆情网络系统系统架构
3.2 系统架构的测试
(1)系统架构测试。第一步:用户创建项目,在项目中创建任务,将任务内容提交给下一层;第二步:后台对上层提交的任务进行分类管理,对内容传递给下一层的数据采集系统;第三步:采集系统对任务进行分解,调用采集中间件,从外部系统中获取关联数据,对元数据进行打包封装,交付下一层的Hbase;第四步:分析系统充分利用Hadoop分布式框架集群的威力,进行高速运算,得出相关统计数据,交付上一层;第五步:网站后台从分析系统获取统计数据,生成有关报告,交付上一层;第六步:网站前台获取报告结论,将其显示在前台中;(2)以上就是整套系统的一个使用流程,对其进行初步测试,得出以下结论:1)多维度,多层次的设计将有效均衡负载;2)整个系统的设计层层递进,从用户发出请求,到向用户显示报告,其是一个环回的过程,可以有效地进行监控;3)采集中间件的使用可以降低我们的采集系统的开发成本;4)功能强悍的Hadoop与Hbase是我们整套系统底层的核心支持,保证了我们系统的安全,高速,正确,同时也降低了开发成本。 3.3 系统功能模块的划分
(1)搭建Hahoop与Hbase分布式框架:主要实现分布式框架的设计,实现数据的高速存储;(2)研发数据分析引擎:对采集的数据进行词语分解,语义分析,进行分类汇总;(3)研发数据采集引擎:从指定的网络平台上自动采集数据;(4)Web前台与后台:有好的用户界面,对得出数据报告进行展示;(5)实现采集中间件与外部系统的对接:能够数据采集任务托管给采集中间件,从而节约研发成本,实现数据的高效采集;(6)系统安全管理体系的搭建:为整套系统的安全提供保证,维护系统的正确性,稳定性,抗压性。
4 未来展望与总结
通过对系统的架构进行分析与设计,对功能模块进行划分后,系统的雏形就基本上出来了。文章首先介绍了项目背景,接下来介绍了什么是网络舆情,网络舆情的产生要素以及网络舆情的特点。随后提出了一种网络舆情系统设计的架构,并且对架构进行了分析与测试,对系统功能模块的划分做了简要介绍。
虽然通过不断的研究,使得舆情监控技术日趋成熟,但是由于舆情监控技术本身的局限性,特别是不能对其像对普通文本那样处理。舆情信息和文本信息的主要区是,它的扩散性和不可控性,它是一种动态的信息。我们仍然面临着两项关键技术亟待解决:
4.1 及时获取动态信息的能力
快速及时地获取最新的信息,对于信息趋势分析非常重要。对于舆情这种传播性很强的信息来说,越快发现就越能更好地进行预警。这样就对动态选择性抓取网页的技术提出了更高的要求。
4.2 语义分析的能力
汉语这种自然语言具有丰富性和复杂性的特点,也是制约各种文本分析技术进步的主要问题。很多自动分类、聚类方法对外文支持得很好,但对中文解析的效果却不理想。本人在对网络舆情的研究中,发现在热点新闻或论坛的留言中,总会存在大量的带有强烈感情色彩的句子,这也是汉语语言的特点。如果能完全解析将这些句子或词语的语义,对于舆情趋势分析和敏感事件的引导发挥着重要的作用。
设想如果数据分析技术达到一个新的高度,那么未来将会诞生更多更实用的信息化应用,如:智慧决策,搜索引擎++(在搜索引擎的基础上附加数据分析功能)等。为此,我们需要更加努力地进行更深入的研究。
参考文献:
[1]祝华新.2010年中国互联网舆情分析报告[R].2010年社会蓝皮书,2010.
[2]刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007(24):10.
[3]熊允发,吴绍忠.基于互联网的公安情报收集技术研究[J].警察技术,2007(06):14-16.
[4]胡运发.中国现代语法[M].北京:商务印书馆,1985(01):131-132.
[5]徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007(01).
[6]刘永丹,曾海泉,李荣陆.基于语义分析的倾向性文本过滤[J].通信学报,2004(07).
[7]张志刚,陈静,李晓明.一种 HTML 网页净化方法[J].情报学,2004(04):4.
[8]郑军.网络舆情监控的热点发现算法研究[J].哈尔滨工程大学,2006(12):9-12.
[9]王煜,王正欧.基于模式聚合和决策树的文本分类规则抽取[J].情报科学,2006(01):96-99.
[10]杨学名.Web中文文本聚类研究及实现[J].现代图书情报技术,2006(12):13-16.
作者简介:喻思远(1994.02-),男,湖北赤壁人,本科,研究方向:网络舆情研究与数据挖掘。
作者单位:石河子大学信息科学与技术学院,新疆石河子 832000