论文部分内容阅读
摘要:网络舆情作为社会舆论发展的新形式越来越受到社会的关注,对网络舆情的收集、分析和研判也是今后掌控的社会舆情的重要途径。网络舆情巡查系统是网络舆情采集分析和报送的重要工具。文章探讨了网络舆情巡查系统的设计思路和系统功能,给出了系统的框架,同时对系统实现中的关键技术进行了阐述。
关键词:网络舆情;巡查;采集;任务优先
中图分类号:TP393.09
文献标志码:A
文章编号:1006-8228(2011)08-56-03
引言
互联网的发展,极大地拓宽了社会舆论空间。网络媒体已经被公认为是继报纸、电视、广播之后的“第四媒体”,且其信息量和受关注度均远超过传统的三大媒体。网络舆情是指在互联网背景之下,众多网民关于社会(现实社会、虚拟社会)各种现象、问题所表达的信念、态度、意见和情绪的总和,或简而言之为网络舆论和民情。网络具有掩蔽性、互动性、多元性,使得网络舆情能真实、快速反应社会舆情。特别是当前互联网上新闻、论坛、博客的普及更是推动了网络舆情的发展,倍受政府、企业和各类社会机构的关注。今后网络空间将承载更多的社会舆论,网络舆情将成为反映社情民意的重要形式。
作为维护互联网安全重要力量的网络警察,对网络舆情巡查是其主要职责之一。网警通过对互联网舆情巡查及时发现和处置各类信息,为行政决策提供参考,同时为公安机关打击违法犯罪提供重要案件来源。传统网警巡查的方式主要依靠人工巡查和基于搜索引擎模式的采集一查询巡查方式,两者的最大不足是实时性不强,容易错失舆情危机的“黄金4小时媒体”宝贵时间。因此舆情巡查系统应具备响应快速、信息准确和覆盖范围广泛的特点。
1、系统设计思路
1.1 增量式巡查提高响应速度
互联网巡查主要任务是采集、发现和处置各大网站出现的最新的、有价值的网络舆情信息,已巡查过的非敏感网络信息不是巡查重点,而这部分信息内容却占据了网络巡查处理数据的绝大部分资源。如巡警在日常巡逻中接触到的绝大部分是守法公民,发现的违法犯罪人员只有极少数且都隐藏于大众中。为加快响应速度,提高巡查效率,避免系统陷入非新增的海量信息处理,必须保证系统资源有效用于对新增信息的巡查上。据此,系统设计的主要思路是:巡查各大网站新闻、博客、论坛内容中的最近一个时段内更新的信息内容。有针对性地巡查不仅可以减少对同一个网站信息反复采集、处理的工作量,而且节约了时间,提高了巡查效率。在日常的互联网巡查中我们发现,所有的新闻、论坛、博客等信息的更新都在特定的网页页面以标题列表的形式列出来,若从此类包含内容列表的网页入手,则可以很方便地获取最新更新的信息。在巡查频度方面,由于当前各大网站的网页都是由脚本动态生成的,随着内容的新增,已有信息不断向后刷新,为防止对新增的内容漏巡,必须保证在新增信息的内容列表离开该页面之前进行一次巡查。
巡查系统和传统的搜索引擎不同。传统的搜索引擎是对网站的内容进行采集,通过分词、建立索引等处理后向用户提供检索服务。这能最大限度地采集该网站大部分信息并保存本地用于检索,该方法是以牺牲时间和空间为代价来实现的。而巡查系统不需要采集网站的整站信息,只要采集该网站的过去某一时刻至现在的一个时段内所有更新的信息即可(增量信息);同时为快速响应,系统爬虫程序对网页进行采集的同时负责网页处理和关键字比对,这和搜索引擎中网络爬虫单一的网页采集任务也有所区别。
1.2 设置巡查级别优化资源分配
互联网上不同的网站信息更新速度是不同的,在现有软、硬件的条件下要发挥系统的最大功用,必须保证最大限度地覆盖巡查范围、减少漏巡与巡查盲区。对于不同的新闻、博客、论坛网站,根据人气和信息量的不同,我们在系统中设置了不同的巡查优先权。对于信息量大、更新速度快的网站加大巡查频度,设置高优先级别的巡查模式,反之则减少巡查频度,设置低优先级别的巡查模式。传统平均分时巡查中假设一个巡查系统有n个任务,执行完任务的总时间为T巡l+T巡2+…+T巡n,假设某一任务对应的网页信息更新速度最快,每次更新时间为T更新。为保证系统在该网页信息更新前对其进行巡查必须满足T巡1+T巡2+……+T巡n<T更新。由此可知系统每次巡查周期须小于该网页的更新周期,否则将造成漏巡。据此平均分时巡查的缺点凸显出来:一是当总巡查时间达到一定值后不能增加新的巡查内容;二是某些信息更新周期慢的网页易重复巡查造成资源浪费。采用加权优先级式分配巡查任务根据权值大小按不同频度对网页进行巡查,可以很好地解决上述问题,大大提高巡查范围和巡查响应速度。
1.3 分类报送
通过增量式巡查筛选出来的网络舆情包含了各种各样的信息,这些信息中有急需处置并马上向用户报告的,有可暂缓处置稍后报告的,也有不需处理不报告的。系统需对这部分信息建立一套合理的分级研判制度和报告制度,其中关键字是分级的重要依据。系统根据关键字的紧急程度不同依次为分为五个级别。
在关键字设置上系统根据网站地域性和网站针对网民群体的不同而设置不同的关键字。对于地域性广、网民来源分散的,要设置相对具体的关键字以求捕获信息的准确性;对于地域性窄、网民来源集中的,可以设置相对模糊关键字,以求获取最大限度的信息量。对于特定行业、特定网民群体相关的网站,多设置特定关键字而少设置通用关键字,这样可以提高信息筛选的效率。
2、系统框架
舆情巡查系统主要有任务调度模块、信息采集处理分析比对和结果处理三个模块组成,如图1所示。
任务调度模块负责巡查任务的分配,它通过任务调度策略从任务池中选择一个或多个优先级别相同的任务进入就绪队列等待执行;信息采集处理分析比对模块是系统核心所在,它利用多线程技术对所要巡查的网页信息进行采集分析研判,获取与预设关键字相关的内容,该模块是系统资源的主要使用单元;结果处理模块对巡查结果予以显示、存储并根据关键字中包含的不同分类信息采取不同的报送方式向用户报送。
3、 系统的实现
3.1 任务调度
系统对一个网站(专题、版块)的巡查对应一个任务,并有一套机制保证任务的合理执行。任务调度主要的功能是对巡查优先级进行调度,对信息量大、更新频繁的网站增加巡查次数以求及时获取最新舆情动态,达到资源的优化配置目的。
任务的数据结构如图2所示,url是待采集网页标题列表的所在网页的链接地址,通常是一个新闻专题入口、论坛的版块、博客目录;domain是URL中包含的域名,该标识不仅用于在提取网页URL过程中过滤非本网站域名的链接达到爬虫汇聚的目的,还用于将相对链接地址组合成绝对链接地址;权值是任务调度的核心,权值大小反映了任务被执行的频度,它由用户根据某一待巡查内容的信息量和信息更新速度以及人气等综 合因素而设定。网页信息更新速度快应设置较小权值。反之设置较大权值。任务每执行一次,其次数标识加1,累计值=权值×次数,累计值的大小作为任务调度时决定哪个任务选中执行的依据。任务调度时任务管理器首先在任务列表中查找累计值最小的任务,找到后将其加入到就绪任务列表中等待执行。某一时刻有多个相同最小累计值时按照先后顺序依次加入到就绪任务列表。当任务执行完成后,该任务的累计值和执行次数标识值都会增加,任务从就绪任务列表中移除,待执行完所有就绪任务列表中的任务后,任务管理器再次查找执行累计值最小的任务,如此循环。
3.2 舆情信息采集
(1)网页抓取系统爬虫采用广度优先的方式对网页进行抓取。当一个任务(网页URL)被调度进入执行状态时,系统利用HTTP协议访问该网页URL(新闻专题、论坛版块等)并将该页面下载到本地,网络爬虫首先提取该网页包含的一条URL,然后对提取的URL按事先设置好的策略进行过滤,过滤的策略是基于该网页所在的网站域名符合一定规则,即提取的URL包含所对应的域名时予以保留,反之予以丢弃,系统通过查询确认队列中未收录该URL,否则予以丢弃,最后对过滤后的URL加入待下载全连接队列并重复前面的步骤直到提取完该网页内所有URL。系统采用正则表达式提取网页所包含的所有URL,不同网站的网页中包含的URL格式有所不同,有绝对超级链接和相对超级链接之分,对于后者必须添加网站的域名使之成为一个绝对超级链接以方便后续网页采集。待该网页内所有的URL提取完并按唯一性加入到待下载队列后,爬虫程序采用多线程方式对队列中的URL进行网页内容抓取。
(2)网页处理 在抓取网页后,要经过网页预处理这一步骤。该步骤的主要功能是去除与舆情处理无关的内容,包括网页中重复的内容和其他与舆情无关的信息。经过处理后就可以对网页的标题和文本内容进行提取。不同的网站生成的网页结构不同,要提取不同网站内的网页不能通过单一的模板。系统采用正则表达式对网页的标题和内容进行提取。如在标题提取时根据HTML语法使用正则表达式提取和</title>之间的字符,同样正文内容的抽取可以提取 和</body>之间的字符实现。
(3)关键字比对系统是基于关键字预设的巡查系统,不同的任务(巡查内容)对应不同关键字列表。当准备运行的任务被加载后,任务管理器根据当前任务从关键字库中查找并加载与之对应的关键字列表,关键字列表中不同关键字包含不同的分类级别、报送等级信息。网页经过预处理后就与关键字列表中的关键字逐一进行碰撞比对。当比对成功时,关键字和网页中特定部分信息被加入到报告队列中的待系统依据关键字包含的信息作相应的处理。
3.3 巡查结果的显示、报送与存储
对于巡查中发现的有价值的网络舆情信息,系统要及时向用户显示报告。舆情显示内容包括信息级别、URL、主题、内容摘要以及涉及的敏感词汇等。通过这些内容,用户就能对当前所巡查的网站舆情信息有全面的掌握这有利于下一步分析研判。在所有采集到的网络舆情中,部分信息级别较高、包含敏感话题关键字的舆情要第一时间向用户报告的,系统采用短信报警的方式对这部分重要的信息实现报送。此外,系统采用XML格式对巡查结果予以存储,将巡查结果存储的目的是防止相同内容舆情的重复采集报送,使间隔性的巡查在信息获取方面整体上保持连续性。
4、结束语
网络舆情越来越受到社会的关注,及时准确的网络舆情不仅是今后各类机构决策的重要参考,也是各类机构判断决策施行的效果的依据,这对网络舆情监测提出了更高的要求,将促进网络巡查手段的发展。我们在舆情巡查系统实现的过程中遇到了一些难点,包括:网页结构复杂,特别是包含大量Frame和采用JavaScript生成的网页在网页信息采集上有所限制;还有系统是基于关键字巡查的,虽然对关键字组合出现的各种可能作了预测,但是在表达式设定捕获范围上难以掌控,容易造成捕获范围过大和过小的问题。本文针对网络舆情巡查系统的功能和设计过程作了研究,具体的算法和实现方式还有待进一步优化和深入研究。
参考文献:
[1]周靖.VisualC#2010从入门到精通[M].清华大学出版社,2010.
[2]潘正高.基于主题关键词的网络舆情分析研究[J].宿州学院学报,2010.5.
[3]何佳,周长胜,石显锋,等.网络舆情监控系统的实现方法[J].郑州大学学报(理学版),2010.3.
关键词:网络舆情;巡查;采集;任务优先
中图分类号:TP393.09
文献标志码:A
文章编号:1006-8228(2011)08-56-03
引言
互联网的发展,极大地拓宽了社会舆论空间。网络媒体已经被公认为是继报纸、电视、广播之后的“第四媒体”,且其信息量和受关注度均远超过传统的三大媒体。网络舆情是指在互联网背景之下,众多网民关于社会(现实社会、虚拟社会)各种现象、问题所表达的信念、态度、意见和情绪的总和,或简而言之为网络舆论和民情。网络具有掩蔽性、互动性、多元性,使得网络舆情能真实、快速反应社会舆情。特别是当前互联网上新闻、论坛、博客的普及更是推动了网络舆情的发展,倍受政府、企业和各类社会机构的关注。今后网络空间将承载更多的社会舆论,网络舆情将成为反映社情民意的重要形式。
作为维护互联网安全重要力量的网络警察,对网络舆情巡查是其主要职责之一。网警通过对互联网舆情巡查及时发现和处置各类信息,为行政决策提供参考,同时为公安机关打击违法犯罪提供重要案件来源。传统网警巡查的方式主要依靠人工巡查和基于搜索引擎模式的采集一查询巡查方式,两者的最大不足是实时性不强,容易错失舆情危机的“黄金4小时媒体”宝贵时间。因此舆情巡查系统应具备响应快速、信息准确和覆盖范围广泛的特点。
1、系统设计思路
1.1 增量式巡查提高响应速度
互联网巡查主要任务是采集、发现和处置各大网站出现的最新的、有价值的网络舆情信息,已巡查过的非敏感网络信息不是巡查重点,而这部分信息内容却占据了网络巡查处理数据的绝大部分资源。如巡警在日常巡逻中接触到的绝大部分是守法公民,发现的违法犯罪人员只有极少数且都隐藏于大众中。为加快响应速度,提高巡查效率,避免系统陷入非新增的海量信息处理,必须保证系统资源有效用于对新增信息的巡查上。据此,系统设计的主要思路是:巡查各大网站新闻、博客、论坛内容中的最近一个时段内更新的信息内容。有针对性地巡查不仅可以减少对同一个网站信息反复采集、处理的工作量,而且节约了时间,提高了巡查效率。在日常的互联网巡查中我们发现,所有的新闻、论坛、博客等信息的更新都在特定的网页页面以标题列表的形式列出来,若从此类包含内容列表的网页入手,则可以很方便地获取最新更新的信息。在巡查频度方面,由于当前各大网站的网页都是由脚本动态生成的,随着内容的新增,已有信息不断向后刷新,为防止对新增的内容漏巡,必须保证在新增信息的内容列表离开该页面之前进行一次巡查。
巡查系统和传统的搜索引擎不同。传统的搜索引擎是对网站的内容进行采集,通过分词、建立索引等处理后向用户提供检索服务。这能最大限度地采集该网站大部分信息并保存本地用于检索,该方法是以牺牲时间和空间为代价来实现的。而巡查系统不需要采集网站的整站信息,只要采集该网站的过去某一时刻至现在的一个时段内所有更新的信息即可(增量信息);同时为快速响应,系统爬虫程序对网页进行采集的同时负责网页处理和关键字比对,这和搜索引擎中网络爬虫单一的网页采集任务也有所区别。
1.2 设置巡查级别优化资源分配
互联网上不同的网站信息更新速度是不同的,在现有软、硬件的条件下要发挥系统的最大功用,必须保证最大限度地覆盖巡查范围、减少漏巡与巡查盲区。对于不同的新闻、博客、论坛网站,根据人气和信息量的不同,我们在系统中设置了不同的巡查优先权。对于信息量大、更新速度快的网站加大巡查频度,设置高优先级别的巡查模式,反之则减少巡查频度,设置低优先级别的巡查模式。传统平均分时巡查中假设一个巡查系统有n个任务,执行完任务的总时间为T巡l+T巡2+…+T巡n,假设某一任务对应的网页信息更新速度最快,每次更新时间为T更新。为保证系统在该网页信息更新前对其进行巡查必须满足T巡1+T巡2+……+T巡n<T更新。由此可知系统每次巡查周期须小于该网页的更新周期,否则将造成漏巡。据此平均分时巡查的缺点凸显出来:一是当总巡查时间达到一定值后不能增加新的巡查内容;二是某些信息更新周期慢的网页易重复巡查造成资源浪费。采用加权优先级式分配巡查任务根据权值大小按不同频度对网页进行巡查,可以很好地解决上述问题,大大提高巡查范围和巡查响应速度。
1.3 分类报送
通过增量式巡查筛选出来的网络舆情包含了各种各样的信息,这些信息中有急需处置并马上向用户报告的,有可暂缓处置稍后报告的,也有不需处理不报告的。系统需对这部分信息建立一套合理的分级研判制度和报告制度,其中关键字是分级的重要依据。系统根据关键字的紧急程度不同依次为分为五个级别。
在关键字设置上系统根据网站地域性和网站针对网民群体的不同而设置不同的关键字。对于地域性广、网民来源分散的,要设置相对具体的关键字以求捕获信息的准确性;对于地域性窄、网民来源集中的,可以设置相对模糊关键字,以求获取最大限度的信息量。对于特定行业、特定网民群体相关的网站,多设置特定关键字而少设置通用关键字,这样可以提高信息筛选的效率。
2、系统框架
舆情巡查系统主要有任务调度模块、信息采集处理分析比对和结果处理三个模块组成,如图1所示。
任务调度模块负责巡查任务的分配,它通过任务调度策略从任务池中选择一个或多个优先级别相同的任务进入就绪队列等待执行;信息采集处理分析比对模块是系统核心所在,它利用多线程技术对所要巡查的网页信息进行采集分析研判,获取与预设关键字相关的内容,该模块是系统资源的主要使用单元;结果处理模块对巡查结果予以显示、存储并根据关键字中包含的不同分类信息采取不同的报送方式向用户报送。
3、 系统的实现
3.1 任务调度
系统对一个网站(专题、版块)的巡查对应一个任务,并有一套机制保证任务的合理执行。任务调度主要的功能是对巡查优先级进行调度,对信息量大、更新频繁的网站增加巡查次数以求及时获取最新舆情动态,达到资源的优化配置目的。
任务的数据结构如图2所示,url是待采集网页标题列表的所在网页的链接地址,通常是一个新闻专题入口、论坛的版块、博客目录;domain是URL中包含的域名,该标识不仅用于在提取网页URL过程中过滤非本网站域名的链接达到爬虫汇聚的目的,还用于将相对链接地址组合成绝对链接地址;权值是任务调度的核心,权值大小反映了任务被执行的频度,它由用户根据某一待巡查内容的信息量和信息更新速度以及人气等综 合因素而设定。网页信息更新速度快应设置较小权值。反之设置较大权值。任务每执行一次,其次数标识加1,累计值=权值×次数,累计值的大小作为任务调度时决定哪个任务选中执行的依据。任务调度时任务管理器首先在任务列表中查找累计值最小的任务,找到后将其加入到就绪任务列表中等待执行。某一时刻有多个相同最小累计值时按照先后顺序依次加入到就绪任务列表。当任务执行完成后,该任务的累计值和执行次数标识值都会增加,任务从就绪任务列表中移除,待执行完所有就绪任务列表中的任务后,任务管理器再次查找执行累计值最小的任务,如此循环。
3.2 舆情信息采集
(1)网页抓取系统爬虫采用广度优先的方式对网页进行抓取。当一个任务(网页URL)被调度进入执行状态时,系统利用HTTP协议访问该网页URL(新闻专题、论坛版块等)并将该页面下载到本地,网络爬虫首先提取该网页包含的一条URL,然后对提取的URL按事先设置好的策略进行过滤,过滤的策略是基于该网页所在的网站域名符合一定规则,即提取的URL包含所对应的域名时予以保留,反之予以丢弃,系统通过查询确认队列中未收录该URL,否则予以丢弃,最后对过滤后的URL加入待下载全连接队列并重复前面的步骤直到提取完该网页内所有URL。系统采用正则表达式提取网页所包含的所有URL,不同网站的网页中包含的URL格式有所不同,有绝对超级链接和相对超级链接之分,对于后者必须添加网站的域名使之成为一个绝对超级链接以方便后续网页采集。待该网页内所有的URL提取完并按唯一性加入到待下载队列后,爬虫程序采用多线程方式对队列中的URL进行网页内容抓取。
(2)网页处理 在抓取网页后,要经过网页预处理这一步骤。该步骤的主要功能是去除与舆情处理无关的内容,包括网页中重复的内容和其他与舆情无关的信息。经过处理后就可以对网页的标题和文本内容进行提取。不同的网站生成的网页结构不同,要提取不同网站内的网页不能通过单一的模板。系统采用正则表达式对网页的标题和内容进行提取。如在标题提取时根据HTML语法使用正则表达式提取
(3)关键字比对系统是基于关键字预设的巡查系统,不同的任务(巡查内容)对应不同关键字列表。当准备运行的任务被加载后,任务管理器根据当前任务从关键字库中查找并加载与之对应的关键字列表,关键字列表中不同关键字包含不同的分类级别、报送等级信息。网页经过预处理后就与关键字列表中的关键字逐一进行碰撞比对。当比对成功时,关键字和网页中特定部分信息被加入到报告队列中的待系统依据关键字包含的信息作相应的处理。
3.3 巡查结果的显示、报送与存储
对于巡查中发现的有价值的网络舆情信息,系统要及时向用户显示报告。舆情显示内容包括信息级别、URL、主题、内容摘要以及涉及的敏感词汇等。通过这些内容,用户就能对当前所巡查的网站舆情信息有全面的掌握这有利于下一步分析研判。在所有采集到的网络舆情中,部分信息级别较高、包含敏感话题关键字的舆情要第一时间向用户报告的,系统采用短信报警的方式对这部分重要的信息实现报送。此外,系统采用XML格式对巡查结果予以存储,将巡查结果存储的目的是防止相同内容舆情的重复采集报送,使间隔性的巡查在信息获取方面整体上保持连续性。
4、结束语
网络舆情越来越受到社会的关注,及时准确的网络舆情不仅是今后各类机构决策的重要参考,也是各类机构判断决策施行的效果的依据,这对网络舆情监测提出了更高的要求,将促进网络巡查手段的发展。我们在舆情巡查系统实现的过程中遇到了一些难点,包括:网页结构复杂,特别是包含大量Frame和采用JavaScript生成的网页在网页信息采集上有所限制;还有系统是基于关键字巡查的,虽然对关键字组合出现的各种可能作了预测,但是在表达式设定捕获范围上难以掌控,容易造成捕获范围过大和过小的问题。本文针对网络舆情巡查系统的功能和设计过程作了研究,具体的算法和实现方式还有待进一步优化和深入研究。
参考文献:
[1]周靖.VisualC#2010从入门到精通[M].清华大学出版社,2010.
[2]潘正高.基于主题关键词的网络舆情分析研究[J].宿州学院学报,2010.5.
[3]何佳,周长胜,石显锋,等.网络舆情监控系统的实现方法[J].郑州大学学报(理学版),2010.3.