基于“互联网 ”的网络舆情监控系统的设计与实现

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:zzdlily_6000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:针对目前网民普遍关注的由互联网技术快速发展而带来海量网络热点话题和焦点很容易因误导或传播方式不当导致网络群体事件或突发事件问题,以“互联网 ”与网络舆情监控分析深度融合发展为切入点,将互联网、物联网、大数据以及云计算等新一代信息技术应用到网络舆情监控与分析上,设计实现了基于“互联网 ”的网络舆情监控系统。该系统主要由舆情数据信息采集子系统、舆情数据信息预处理子系统、舆情监控分析子系统和舆情应用子系统构成,通过各个子系统的协同工作共同完成对网络海量舆情数据和信息进行实时数据采集、舆情识别、舆情预警及引导治理等,稳定社会秩序,为构建和谐社会提供支持手段。
  关键词:互联网 ;舆情监控与分析;舆情识别
  中图分类号:TP393 文献标识码:A
  文章编号:1009-3044(2019)31-0037-04
  1背景
  在这个“人人都是通讯社”的时代,许多社会舆论事件都是始于网络,以BBS,论坛社区,博客,微博为网络舆情信息的主要来源,并产生巨大的社会影响。面对不断发展的互联网、网络舆情传播快、渠道多,网络舆情数据的异构性与复杂性等特点,也导致了难以控制舆情信息的正确性和传播范围,面对热点话题和焦点的大量关注很容易导致网络群体事件或突发事件,要实现高效及时的网络舆情监控变得尤为困难。如何从海量网络舆情中快速、准确发现有价值的信息,协助政府管理部门及时发现网络盥.情、引导舆论方向、稳定社会情绪,成为建设和谐社会亟待解决的课题。
  随着我国城市“互联网 ”等信息技术的快速发展,已经成为推动网络舆情监控与分析向智能化方向发展的重要动力。在目前网络舆情的监控与分析应对面临诸多困境的背景下,“互联网 ”与网络舆情监控与分析的融合发展将会为这些难题的解决提供新的工具和思路。以“互联网 ”与网络舆情监控与分析深度融合发展为切入点,将互联网、物联网、大数据以及云计算等新一代信息技术应用到网络舆情监控与分析上,使舆情数据的海量存储与高效并发处理成为可能嘲。因此提出基于“互联网 ”的网络舆情监控系统的设计与实现,具有重要的理论和实践意义。
  2网络舆情监控相关技术介绍
  网络舆情监控系统相关的最关键的技术包括网络信息的分类、分析、识别、跟踪等计算机文本信息处理技术。这里主要对网络爬虫技术和网络信息提取与识别技术进行介绍。
  2.1网络爬虫
  随着“互联网 ”技术的发展,人们可以快速地通过网络来获取大量所需要的信息。但随着互联网信息量的不断增加和扩大,每时每刻都有上千万的网络信息增长量,要从这么复杂的网络信息量中找到自己想要的数据信息几乎变得不现实,而网络爬虫技术的应用正是为了解决这一难题。
  在本舆情监控系统中,网络爬虫技术主要进行的是从网络上大量的不断更新的信息数据抓取下来,为舆情监控提供最原始的网络信息,进而用于下一步的分析研究,以压缩的形式将数据存在磁盘上。图1是常见网络爬虫的架构图。目前所有从互联网上快速自动的获取数据信息都用到了网络爬虫技术。其中应用最多的便是各搜索引擎公司的网络蜘蛛程序,此外,爬虫技术还可以用来检测网站链接是否有效等。
  2.2舆情信息的提取与识别
  舆情信息的提取与识别技术主要对前期搜集来的信息做有效信息的分析,如果提取的是网络新闻数据,则主要从中找出新闻主题的正文信息(标题,内容,时间等),如果提取的是网络论坛数据,则主要从中找出用户的信息(用户ID、权威值,回复用户ID,回复数等),然后将找出的这些关键信息存人设定的信息数据库中。
  舆情信息的提取分析采用的是一种基于模板與自动机器识别相结合的信息提取方法。该方法先根据制定好的启发式规则,然后去自动识别网络文本中不同属性舆论信息之间的分隔符,再把它们配置到相应模板中,然后根据模板去识别分析出同一类型的舆论网页信息,最终以话题线索的方式存下来。话题线索是指对一个网络舆论相关数据信息的描述,主要有网页的点击率,回复数,标题与评论等。与传统的信息提取相比,本技术能够快速对多种结构类型的网络舆论网页数据信息进行处理;同时在很大程度上能更好地提高舆论信息的准确率和效率;并且不用修改算法就可以根据用户不同的需求,然后自动的动态提取网络舆论相关数据信息,以便更好地满足研究的需要。具体提取过程如图2所示。
  舆情信息的分析识别主要是对提取到的舆论数据信息数据库中的数据信息做内容上和行为上的识别,并比较判断是否为所需要的舆情信息,为后续的更有针对性的舆情数据信息分析提供相应的参考依据。
  舆情信息内容上的识别:主要根据舆隋数据信息的文本属性特征,首先进行信息的分类和聚类操作,从内容上去比较识别该数据信息是否属于所需要的舆情数据信息。
  舆情信息行为上的识别:根据舆情数据信息的社会传播属性,即网络舆情数据信息的传播会符合社会网络中的很多属性特征,因此可以使用社会网络中的模型来建立舆情数据信息网络,及时的分析显示出舆情网络信息的形成和进一步的发展趋势,同时可以更好地反映相互出网络用户之间的数据信息相互交流等。对于那些经内容上识别后不属于舆情数据信息将会进一步采用行为属性特征进行识别,如果这些网络舆论数据信息符合行为上的属性特征,就可以把这些数据信息也归为所需要的舆情数据信息。
  3网络舆情监控系统的功能框架设计
  网络舆情信息的监控功能主要有舆论数据信息的采集、数据信息的预处理和分析处理。系统功能应具备判断舆隋数据信息正负面发展的倾向性和趋势、传播方式和途径、能进行人工设置重点监控特定的舆情信息事件的能力,具有所需舆论话题的自动识别跟踪、分析和提取以及统计报告等。根据目前该行业内现行的解决技术手段和方法方案,对舆论监控系统进行更好的更有针对性的整理和归纳,并设计出更好的方案,获取“互联网 ”舆情监控分析系统的功能框架设计的需求。   系统可以分为四个主要模块:舆情数据信息的采集子系统、舆情数据信息预处理子系统、舆情监控分析系统和舆情应用系统。如图3所示。
  1)舆情信息采集子系统:能够自动抓取和存储网络上相关的舆情数据等信息。
  2)舆情信息预处理子系统:主要对所抓取到的舆隋数据信息进行去重、关键词筛选与分析等。
  3)舆情监控分析子系统:主要对舆情数据信息进行文本的表示、对存储在数据库里的数
  据进行识别分析等,并将识别分析的结果传递到分析库中。
  4)舆情web应用系统:实现用户交互功能。
  4网络舆情监控系统功能模块的详细设计
  舆情监控系统的工作流即数据流主要经历4个环节的处理:首先是根据舆情数据采集子功能模块将采集到的舆情数据抓取到本地;接着对抓取回来的原始数据进行分析识别加工,即删除多余的垃圾数据,并根据指定的相应数据格式对抓取到的舆情数据信息建立索引;然后根据舆情监控系统设置的特定需求对舆情数据进行分析处理等,最后将得到的舆情数据实时地呈现在客户端。如图4所示:
  4.1信息采集功能模块设计
  舆情数据主要来源于网站、微博、论坛等国内外著名网站,采用API与网页抽取相结合的方法,进行关键词采集、话题语义采集,通过关键词管理、URL管理、过滤词典及分类管理等系统管理配置,实现分类归一管理。将数据存于HBase数据库中,其采集过程如图5所示。通过网络爬虫技术抓取网络舆情数据信息,并根据Dom解析html和提取相应的数据信息;其中在n个slaver机器上分别运行n个获取器和爬虫器,在master机器上运行调度器。
  4.2信息预处理功能模块设计
  在已抓取的网络舆情数据信息中,除了有效的舆情数据信息外,还掺杂着大量的其他无效数据信息,如:菜单导航、网站版权、友情链接等。与结构化的数据信息相比,不同的是网络舆情数据信息中大多数为非结构化的数据信息,并且数据形式复杂,所以,对这些舆情数据信息不能直接进行分析和加工处理,需要在数据加工处理前先进行信息的清洗除噪预处理,并对数据信息内容以及主要属性特征等进行分析提取,这就是信息预处理子功能模块的主要工作。如图6所示,即为舆情信息预处理子功能模块的工作流程。
  4.3舆情分析功能子模块设计
  舆情分析功能子模块是舆情监控系统中最主要的一个功能模块,主要采用网络信息文本的分类和聚类等技术,对前期进行过预处理的网络舆情数据进行深入分析和识别挖掘,并以此提供“话题发现”和“热点跟踪”。舆情分析功能子模块的工作流程如图7所示。
  舆情监控分析功能子模块作为系统的主要功能模块,主要有最新热点信息话题的发现与分析、热点信息话题的追踪以及社会网络分析等。下面只对主要功能进行描述。
  4.3.1热点信息话题的发现与分析
  热点话题发现与分析功能是指将舆情数据信息内容划分到不同的话题,并在有需求时产生新的与之对应的话题;热点信息话题的追踪主要对网络用户所感兴趣话题的后续发展进行追踪分析。在此主要使用的是文本聚类分析方法。
  4.3.2社会网络分析
  社会网络是复杂网络的一种,是复杂网络研究领域中一种特殊的网络,和复杂网络之间的关系是被包容与包容的关系。以微博为例,舆情监控系统所使用的社会网络分析方法是对网络博主发布的数据信息中粉丝数以及关注数的出入度和聚类系数进行计算,分别采用n个Map阶段和一个Reduce阶段,并在分析库存储计算的结果,供客户端进行可視化调用。聚类系数的大小是社会网络分析方法中的一个关键参考指标,它体现的是网络的集团化程度,是一种网络内聚的反映,它是指社会网络中实际存在的边数和可能有的边数之比嘲。对于社会网络分析来说,集团化是一个关键属性特征,它代表网络中的朋友或熟人的凝聚程度,而聚类系数就是反映这集团化属性。
  4.4舆情展示预警功能模块设计
  该功能模块主要实现系统和管理者之间的各种实时交互操作,将经过系统分析后的结果最终反馈给管理者。该模块所包含的功能有:敏感话题趋势、热点话题排序等。系统交信息互展示,能使管理者对舆情数据信息进行及时分析并掌握舆情信息趋势变化。更重要的是,监控系统还能进行舆情信息的自动警示触发。该警示的目的在于及时进行舆情信息的反馈和采取防患于未然的措施,舆情预警主要包括舆情预警通知和舆情引导。
  4.4.1舆情预警通知
  通过网络舆情预警机制的动态模型确定不同舆情信息的权重系数,然后依据权重系数大小确定等级高低。根据舆情数据信息等级的高低不同启动相应的处理机制(见图8),预警方式可设置为短信通知、邮件通知、启动报警(播放报警声音)及页面窗口弹出提示,确保舆情信息的发生立即被发现,第一时间做出响应,预防舆隋的扩散传播,有效实施主动性。
  4.4.2舆情引导
  根据网络舆情数据信息的属性和传播方式判断出舆情数据信息对社会生活产生不利影响时,利用舆情的引导策略和技术,在短期内快速生成应对不利影响的有效解决合力,使得网络舆情信息的发展朝着期望的方向变化,并以此为目的让广大网络民众更快的获知最真实的数据信息,进而寻的社会的稳定发展。舆情引导流程如图9所示。
  5结束语
  将“互联网 ”技术应用于舆隋监控系统实现了云端硬件资源的共享,使得客户不必购买大量硬件设备就可进行数据挖掘,节约了设备的采购及维护费用;同时利用云计算的集群处理能力,完成对云端数据的实时高效挖掘。从系统试运行应用效果来看,既节约了管理成本,又提高了工作效率,实现了网络舆情监控系统的实时性、高效性和全面性,可为维护信息时代社会的稳定性提供技术保障。
其他文献
我国现阶段对于对于高等教育领域的人才重视达到了前所未有的程度,所以各个高校对于人才的培养也变得越来越严格且都采取了新的教学方法的改革。电子信息专业作为一门极具现
随着当前信息化时代的到来,公文管理工作的开展过程中,要注重采用信息化的方式,提升公文管理的质量和效率。本文先就公文管理中OA系统应用价值进行阐述,然后就系统设计和应用
摘要:现代通信技术,计算机网络技术的飞速发展,数字化、信息化与人们的生活息息相关。智能新技术的广泛应用,使各个行业都在朝信息化方向发展。尤其是高校图书馆的管理,在使用了图书管理系统智能技术之后,更加促进了高校图书馆的信息化发展。图书馆管理系统合运用了管理科学、系统科学、运筹学、统计学、计算机科学等学科的知识。  关键词:智能图书馆;Internet;系统分析;数据库;关系模式;数据设计  中图分类
摘要:目前,各种应用程序与应用工具不断被开发出来,并在数据库访问系统当中得到了应用。这其中VB编程开发技术可以为数据库的应用提供强大的支持,同时还可以对外来的数据库进行操作,适用性比较强。数据库最大的特点在于高效与合理,而在设计和使用数据库访问技术的时候,需要借助于VB编程开发,这是使用计算机语言进行编程的重要环节。基于此,本文从数据库访问技术在VB编程开发应用的主要技术出发,探究了数据库访问技术
摘要:在计算机普及的现在,仍有着一定数量的人们不懂如何使用计算机,且现今计算机操作的步骤繁多,暂时找不到一种人机交互的简单方式,现市场上也出现了用于提高人机交互效果的软件,但是,均存在功能不完善、设计不够人性化等问题,该文将介绍计算机云端助理的研究与设计,帮助更多的用户轻松愉快的使用计算机。  关键词:精简操作;人机交互;语音操作  中图分类号:TP311 文献标识码:A  文章编号:1009-3
摘要:该文以MOODLE平台为例,对教学资源平台进行性能优化及本地化实践研究,目的是为了搭建一个典型的LNMP应用,为智慧校园实践项目,提供一个实用和完善的测试环境,同时了解系统的测试和优化的全过程。形成相对成熟的配置方法,为类似项目提供参考,提升理论研究水平、共享平台建设经验。  關键词:Linux;服务器;高并发;性能优化  中图分类号:TP311 文献标识码:A  文章编号:1009-304
摘要:现有的电力载波通信分为宽带电力载波、窄带电力载波两种通信方式,宽带电力载波通信距离短,频谱范围大,应用于短距离小范围内的、数据量大的通信领域,其成本高昂,难以推广应用。目前市场主体为窄带电力载波通信模块,窄带通信模块通信距离长,传输数据量能够满足电力通信数据量要求,因此得到大量推广,但是目前市场存在的国外窄带电力通信模块在通信载波频率、通信速率、路由协议等方面不能满足国内国际的通信标准,从而
摘要:该文通过对国内外医疗绩效的研究,设计出了基于信息系统的医疗绩效平台的基本框架及实现的具体指标,经过指标的复杂计算后得出个人绩效,达到按劳分配,多劳多得的目的,让有限的医疗资源发挥最大效能,以更优质的医疗服务解除患者的病痛。  关键词:信息系统;医疗;绩效  中图分类号:R-058 文献标识码:A  文章编号:1009-3044(2019)31-0033-02  1基本框架  随着生活水平的日
该文论述了设计开发一个在线日程管理的web小程序设计和开发的过程,以及用javascript实现点击更改指定位置颜色的两种方法。
摘要:该文从高校毕业生就业信息管理系统的建设中存在的问题出发,寻找解决这些问题的方案,探讨高校就业联动信息管理系统的设计与实现方法。在高校就业联动信息管理系统的设计上要关注网络扩展、体系多元、信息引导、系统强化、素质建设等五个方面的问题,以保障整个系统的有效实现和利用。  关键词:高校就业;信息管理系统;设计与实现  中图分类号:TP311 文献标识码:A  文章编号:1009-3044(2019