论文部分内容阅读
互联网舆情监测系统实时监测网络信息传播,是新媒介发展的产物。舆情监测让用户第一时间发现舆情,追踪舆情,了解舆情发展,使预防违法犯罪成为可能。互联网爬虫作为舆情监测的一部分,很大程度上决定了舆情监测的实时性。本文设计并实现了网站文本数据采集系统,通过用户配置网站模板等相关信息,定制抓取目标网站内容,为舆情系统提供实时数据源。本文设计的网站文本数据采集系统主要通过爬虫资源配置与监控平台和爬虫抓取信息平台两个子系统来实现对定制网站内容的抓取。爬虫资源配置与监控平台采用Struts2和Spring等JavaEE开源开发框架,利用系统分层结构和模块化设计,提高了系统开发效率与可扩展性。爬虫抓取信息平台参考SourceForge开源网络爬虫Heritrix项目架构,进行了重新设计开发,以适应自身产品需要。爬虫资源配置与监控平台主要负责对待抓取的网站信息进行配置,包括:站点、频道、种子、模板等配置信息。另外平台实现了对配置模板的测试功能,验证模板配置的准确性。同时平台提供了爬虫抓取历史动态展示图,方便用户监测后台爬虫抓取数量。还可以导出模板错误记录,进行错误模板的修改。爬虫抓取信息平台主要负责对配置网站信息的抓取,通过种子加载、网页下载、网页解析、存储四步,实现对网页内容的采集。在系统设计和开发过程中,作者参与并完成了以下五个方面的工作:(1)搜集客户需求,调查爬虫产品现状,整理出本系统的整体需求与各模块的功能需求。(2)完成了系统总体架构设计与功能模块划分。(3)根据各功能模块划分,进行了各模块功能解决方案的制定,根据方案,作者完成了网站信息配置管理、模板测试、抓取记录状态展示、爬虫种子获取、HTML下载、模板解析、存储等模块的设计。(4)作者根据具体设计,对各功能模块进行了编程实现。(5)作者对重点开发模块进行了功能测试,并对采集准确度进行了验证。本系统作为内部测试版本,可以满足客户基本需要,但仍旧未成为部门有竞争力的产品。未来,需要在模板自动化配置与爬虫采集效率方面进行改进,使其成为部门有竞争力的产品,为公司带来可观利润。