论文部分内容阅读
随着计算机技术的不断发展,使用IT技术实现虚拟网络舆情监控越来越受到政府、企业的重视。网络突发事件应急管理是公共安全保障的核心问题,应急管理与网络舆情有着密切的关系,近十多年来,随着信息化的普及,信息内容的爆炸式增长,使得从海量的网络数据发现和处理突发事件信息越来越重要和困难。而应急处理的时效性要求很高,往往要求采取即时措施,传统的采集和分析方式已很难满足这种实时性的需求,因此建立一个互联网舆情监控系统是很有必要的,该系统不仅要能发现事件,还要能够“发现早”,“发现全”。根据权威机构调查,到2012年我国网民数量已经突破5亿关口,国内互联网普及率达到38.3%,其中,移动上网用户达到3.5亿。互联网活动参与者数量增长明显。如今,互联网被称为继电视、广播、纸媒之后的“第四媒体”。随着源源不断的网民参与,互联网取而代之,成为了社会舆论的晴雨表。主要体现在新闻网站、知名论坛、贴吧、博客等平台上,这类媒体也被统称为虚拟社会。由于网络的监管不严格,甚至漏洞百出,网民参与其中基本没有门槛,活动成本基本为零,但其影响却较现实更广泛、渗透更深,造成的社会影响不容忽视。如果任由其发展、不加以引导,那么,大量的负面互联网舆情信息充斥到虚拟社会中,无疑会给社会的长治久安造成不良影响,埋下社会隐患。对于政府机构,加强虚拟社会舆情监管、应对,积极化解危机,对维护社会稳定,实现我国的现代化建设,经济建设不断向前有着很重要的现实意义。互联网是一个宝库,尤其是在互联网大数据时代,借助IT技术,实现对虚拟网络舆情的及时、全面的监控已经迫在眉睫。本文将主要介绍互联网舆情监控系统的设计与实现,以及网络爬虫(Web Crawler)和Lucene索引的优点和在互联网舆情监测系统中的应用。本文设计的互联网舆情监控系统主要分为信息采集模块、信息检索模块、数据分析模块和数据展示模块。信息采集模块的核心是网络爬虫,采集范围覆盖整个互联网,包括新闻媒体、论坛、博客、微博客及视频类网站。信息检索模块的核心功能是实现大数据的快速、精确的检索,这里将用到支持Lucene索引的Mongo数据库,它将检索速度提高到5秒以内。还有数据分析模块和数据展示模块,分别用来对文本的语义进行分析和最终数据的展示。网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是:由于爬虫的存在,才使得搜索引擎有了丰富的资源。使用搜索引擎,使我们检索信息的能力获得了空前的提高,成本有效地降低,可以说,搜索引擎是现代的计算机技术、因特网技术与传统的索引理论相结合的成功典范。随着网络的普及,其影响力不断扩大,信息急速增长,网络毋庸置疑,已经成为了当今信息最大的载体。搜索引擎帮助我们实现了从海量的互联网获取信息提过了有效的途径。但是,网络世界是复杂的,多元化的,而用户对数据的获取是有方向性的,有目的性的,如Google、百度等面向整个虚拟社会的通用型的搜索引擎越来越凸显出其局限性,搜索引擎如何提供用户基于主题的快速、准确和深入的查询,是摆在我们面前的一个难题。网络爬虫作为搜索引擎的核心部件,就自然成为了我们研究攻克的主要方向,无论多么强大的搜素引擎,在后面,都有一个高效的网络爬虫为它服务。本文还要介绍另外一个关键技术,Lucene索引,一个高效的数据检索工具,在我要提到的舆情监控系统中,将起到不可或缺的作用。