基于若干技术的舆情监控系统的设计与实现

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:zjqhdh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]通过有针对性地对互联网信息进行过滤、整理、分析,及时发现危害国家安全、扰乱社会秩序、图谋实施犯罪等有价值的信息,从而及时预防、制止不法活动的发生,有效打击犯罪,为人民生活创造良好的社会环境。本文着重对舆情系统中相关技术进行细致的研究,实现网络舆情的系统监控,及时准确地有针对性的获取相关信息,从而发现、掌握特定的动态信息,为国家决策部署提供有力的依据。
  [关键词]爬虫;中文分词;信息指纹;信息抽取
  中图分类号:TP311.52 文献标识码:A 文章编号:1009-914X(2015)05-0128-01
  引言
  随着网络技术的推陈出新,除了网络新闻、网络论坛等传统应用外,又出现了博客(含微博)、维基、聚合新闻、等新形态的信息交互模式。范围广、交互性强、更新速度快的互联网传播从根本上改变了传播者与受传者之间的关系,是对传统新闻媒介的传播模式的解构和颠覆。互联网信息内容庞杂多样,既有大量进步、健康、有益的信息,也有不少反动、迷信、黄色的内容。互联网作为一块正在加速膨胀的思想阵地,加上其虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的人们愿意通过这类渠道表达自己的个人想法,因此网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。有关如何控制、规范互联网信息,成为技术难点。
  1.舆情监控系统架构设计
  1.1舆情监控系统工作流程
  1、给爬虫配置爬取网站的地址、爬虫参数,如:要爬取的网站入口、轮循间隔、爬取线程、爬取深度等参数。
  2、爬虫根据地址爬取数据,这时的数据缓存在爬虫服务器中,成为待处理数据。
  3、中文分词
  4、信息抽取
  5、提取信息指纹去重
  6、语意指纹提取
  7、摘要生成
  8、索引入库
  9、聚类、趋势分析
  10、提供WEB、提供客户检索服务
  1.2舆情监控系统架构
  信息层:分布在境内外的互联网信息。如:QQ群、动态网、新闻、博客、论坛。
  采集层:爬虫通过分布式并发采集、多线程采集快速采集互联网舆情信息。
  加工层:分词、信息抽取、提取信息指纹去重、语意指纹提取、摘要生成。
  数据存储中心:海量信息分布式存储和并发存取。
  用户层:提供模糊检索、高级检索等多种特征检索、智能检索方式、聚类和趋势分析。
  2.关键技术实现
  2.1爬虫策略的革新
  本系统采用多种机制革新爬虫工作方法,要求舆情能在网络舆情产生之后第一时间采集下来。同时采取多种机制保证爬虫爬取数据的完整性,保证采集数据的完整性,做到不漏采集、不重复采集、避免死链采集,从而保证及时采集。
  1、广度优先采集
  爬虫支持任意数量和深度的抓取,采用广度优先策略。广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。
  2、快速爬取
  爬虫根据网页链接爬取数据,通过精确配置爬虫抓取模板参数,只采集指定層级的网站链接,实现爬虫资源的最大优化。
  爬虫在数据爬取的过程当中,可以自定义针对特定站点的爬取多少及爬取的速度进行合理调配,这样,可以最大限度地使资源最大化。
  3、按照模板爬取
  要求爬虫针对常见的网站论坛使用不同的爬去模板进行爬取数据,有针对性的优化爬虫效率。
  为了更加合理地使爬虫爬取数据,针对各不同的站点,定义了不同级别的爬虫模板,可以根据站点的优先级,通过不同的模板设置更新频率,
  4、分布式爬取
  针对不同的类型的网站使用多个爬虫分别爬取数据,录入更多带宽和硬件资源,分配给更新比较快的负责爬取论坛的爬虫。
  5、优先级爬取
  不同类别的网站使用不同的优先级进行爬取数据。
  根据不同的站点设置紧急、较急、一般等级别,可以设置不同的站点抓取站点的导数,针对易发站点可以实时做到分钟级的更新。
  2.2中分分词
  现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法。
  1、基于字符串匹配的分词方法
  基于字符串匹配的分词方法,又叫做机械分词方法,它是按照一定的策略将待切分的汉字串与分词词厍中的词条进行匹配,若在词厍中找到相应的词条,则匹配成功。按照扫描的方向不同,基于字符串匹配的分词方法可分为正向匹配分词方法和逆向匹配分词方法;按照不同长度优先匹配的情况,又可分为最大匹配和最小匹配。
  2、基于统计的分词方法
  基于统计的分词方法的基本原理:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。
  3、基于理解的分词方法
  基于理解的分词方法是通过计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。
  (1)信息抽取
  在互联网中,信息的数量很多,但是这些信息的数据质量相对较低,一般只能用于浏览或者搜索。我们需要把这些信息提取出来,构成结构化的信息,把他们变成高质量的信息数据。将信息按照无结构到有结构来分,大致可以分为Free text->新闻组中的发帖(如寻友信息)或者是旅游记录->手工编写的HTML->CGI生成的HTML->XML->数据库。现有的针对Web进行信息抽取的方法进行分类,则大致可以分成四类:手工编写的IE系统,需要指导的IE系统、半指导的IE系统以及全自动的IE系统。
  (2)通过提取信息指纹去重
  信息指纹:就是提取全体文字信息内容,定义其关键字部分做为重点信息,通常是一组词或者是一组词加上一组词出现的频率做为特征码,然后根据这组词调用特别的算法,进行二次处理,得到相关结果,并将其定义成特征信息,做为信息指纹,信息指纹的历史很悠久,但真正的广泛应用是在有了互联网以后,这几年才渐渐热门起来。
  (3)语义指纹处理相似信息
  系统为了实现相似信息内容检索功能,通过语义指纹来处理相似信息的所有内容,语义指纹来检测相似网页的任何一段信息文字,都可以随机抽取一个不太长的随机数,作为区别它和其它信息的特征,定义为指纹信息。只要算法设计的好,任何两段信息的指纹都很难重复,主要取决于随机抽取的随机数的设计问题,就如同人类的指纹一样。只要产生随机数的算法足够好,可以保证几乎不可能有两个字符串的指纹相同,就如同不可能有两个人的指纹相同一样。由于指纹是固定的128位整数,因此查找的计算量比字符串小得多。
  (4)基于Lucene的倒排索引
  本系统为了快速提高检索效率,采用基于Lucene的倒排索引技术。正常的索引结构建立的是“文档到单词”的映射关系,在使用倒排索引技术后,建立的是“单词到文档”映射关系,即关键词对应所有拥有这个关键词的文档编号列表。其实可以这样理解,倒排索引就是描述一个词项集合(Terms)元素和一个文档集合(Docs)对应关系的数据结构,通常仅记录关键词在哪些文章中出现还不够,同时还需要记录关键词在文章中出现次数和出现的位置,这样做可以方便快速获取查询记录的数目和对查询结果进行排序。
  (5)采用Carrot2聚类
  本系统为了监控敏感网站上都有哪些热点信息,采用聚类技术,技术实现上采用基于Carrot2的聚类算法。
其他文献
[摘要]近些年来,我们在从事可燃及有毒有害气体报警器的现场检定过程中,必须使用甲烷、异丁烷、一氧化碳、硫化氢等标准气体,因为报警器的安装位置遍布油田各个角落,而标准气瓶在运输过程中容易互相发生碰撞,在检定工作过程中容易碰倒在地或碰撞设备管件的情况时有发生,经常导致标准气瓶嘴、仪表盘、减压阀碰坏,标准气体从钢瓶内泄漏出来,造成环境的污染。所以每次检定工作中不得不投入相当多的精力对其进行保护,造成资源
期刊
[摘要]我国的可开发风能资源位居世界第一,截止到2014年底我国的并网风力发电装机容量已达到9000万千瓦,相当于五个三峡水电站的装机容量,也是目前世界上开发风能资源最多的国家。随着风力发电比例的不断提升,为改善我国能源结构提供了很大的帮组,但大规模风力发电机组的并网发电,对电网也产生了前所未有的挑战,电网稳定性、大规模脱网事故、甚至有可能发生局部电力系统瓦解。因此风力发电机组大规模并网产生的问题
期刊
[摘要]负载均衡技术是建立在现有的网络结构之上,提供一种有效的方法扩展服务器带宽和增加吞吐量,加强网络数据处理能力,提高网络的灵活性和可用性。为用户提供更好的访问质量,提高服务器响应速度,避免网络关键部位出现单点失效。  [关键词]负载均衡;吞吐量;网络数据  中图分类号:D631 文献标识码:A 文章编号:1009-914X(2015)05-0124-01  一、负载均衡的工作模式  假设在同一
期刊
[摘要]目前,全世界的军事、经济、社会、文化各个方面都越来越依赖于计算机网络,人类社会对计算机的依赖程度达到了空前的记录。由于计算机网络的脆弱性,这种高度的依赖性使国家的经济和国防安全变得十分脆弱,一旦计算机网络受到攻击而不能正常工作,整个社会就会陷入危机。故此,网络的安全措施应是能全方位地针对各种不同的威胁和脆弱性,这样才能确保网络信息的保密性、完整性和可用性。  [关键词]网络安全;数据加密;
期刊
[摘要]介绍了R语言在数据可视化方面的应用,并结合R语言自带的几个数据集,通过R语言的ggplot绘图函数,实现了通过R语言绘制散点图、线图、直方图、箱线图以及条形图的实例。  [关键词]R语言;数据可视化;gg3310t;统计分析  中图分类号:TP391.41 文献标识码:A 文章编号:1009-914X(2015)05-0127-01  1引言  近年来,随着社会的不断进步以及信息技术的不断
期刊
[摘要]电力行业,不仅与人们的日常生活密切相关,还与各行各业有着特殊的联系。可见,它是一种特殊的行业,在经济的飞速发展中也起着不可替代的作用。在智能变电站继电保护配置中,智能变电站已经成为一种新的发展趋势,而传统的变电站终将被取代。本文作者从机电保护的特点出发,来分析智能变电站继电保护装置的情况,从而对它的展望进行探讨,让广大读者更好地去了解这种新设备的诞生。  [关键词]探讨智能变电站继电保护配
期刊
[摘要]地震沉积学是一门主要运用地震资料研究沉积岩和沉积相的学科。其研究要依据沉积学的规律并且以地质研究为基础。此门学科的运用的主要技术有地层切片、90°相位转换和分频解释等。  [关键词]地震沉积学;研究方法和技术;白云深水区  中图分类号:P315 文献标识码:A 文章编号:1009-914X(2015)05-0115-01  一、地震沉积学的概念  曾洪流提出,地震沉积学是主要应用地震储层预
期刊
[摘要]百度应用引擎(BAE)是百度推出的网络应用开发平台。基于BAE架构,使开发者不需要维护任何服务器,只需简单上传应用程序,就可以为用户提供服务。BAE支持PHP、Java、Python应用的开发、编译、发布、调试。Django是Python的一个优秀的开源Web开发框架,在Web开发方面具有简洁、清晰、高效、安全的优点,特别适合快速构建各类Web应用。本文通过使用BAE和Django搭建系统
期刊
[摘要]本文先对多重加密网络设计的需求和原则进行了分析,互联网应用与人们的生活已经密不可分,随着近些年层出不穷的隐私信息泄露事件的发生,网络服务的安全问题越来越受到人们的重视。VPN技术作为网络安全的利器,得到了非常广泛的应用。VPN系统的进一步完善和发展,也是网络安全领域中一项较为重要的议题。本文针对传统的VPN系统的不足人手,提出了一种将云计算和VPN系统融合的实现方式。  [关键词]网络安全
期刊
[摘要]智慧警务是指在新一代信息技术快速发展背景下,以互联网、云计算、物联网、智能引擎、视频技术、数据挖掘等为技术支撑,通过互联化、物联化、智能化等方式,以公安信息化为核心,掌控“屋、车、路、网、场、组织”等周边要素,高度智能化的的一种新型警务运作模式。其要旨是汇聚人的智慧,赋予物以智能,使汇集智慧的人与具备智能的物互存互动、互补互促,以实现公安效益最优化。本文从智慧警务的内涵和要素分析人手,从共
期刊