网站文本数据采集系统的设计与实现

来源 :北京交通大学 | 被引量 : 8次 | 上传用户:jjx2777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网舆情监测系统实时监测网络信息传播,是新媒介发展的产物。舆情监测让用户第一时间发现舆情,追踪舆情,了解舆情发展,使预防违法犯罪成为可能。互联网爬虫作为舆情监测的一部分,很大程度上决定了舆情监测的实时性。本文设计并实现了网站文本数据采集系统,通过用户配置网站模板等相关信息,定制抓取目标网站内容,为舆情系统提供实时数据源。本文设计的网站文本数据采集系统主要通过爬虫资源配置与监控平台和爬虫抓取信息平台两个子系统来实现对定制网站内容的抓取。爬虫资源配置与监控平台采用Struts2和Spring等JavaEE开源开发框架,利用系统分层结构和模块化设计,提高了系统开发效率与可扩展性。爬虫抓取信息平台参考SourceForge开源网络爬虫Heritrix项目架构,进行了重新设计开发,以适应自身产品需要。爬虫资源配置与监控平台主要负责对待抓取的网站信息进行配置,包括:站点、频道、种子、模板等配置信息。另外平台实现了对配置模板的测试功能,验证模板配置的准确性。同时平台提供了爬虫抓取历史动态展示图,方便用户监测后台爬虫抓取数量。还可以导出模板错误记录,进行错误模板的修改。爬虫抓取信息平台主要负责对配置网站信息的抓取,通过种子加载、网页下载、网页解析、存储四步,实现对网页内容的采集。在系统设计和开发过程中,作者参与并完成了以下五个方面的工作:(1)搜集客户需求,调查爬虫产品现状,整理出本系统的整体需求与各模块的功能需求。(2)完成了系统总体架构设计与功能模块划分。(3)根据各功能模块划分,进行了各模块功能解决方案的制定,根据方案,作者完成了网站信息配置管理、模板测试、抓取记录状态展示、爬虫种子获取、HTML下载、模板解析、存储等模块的设计。(4)作者根据具体设计,对各功能模块进行了编程实现。(5)作者对重点开发模块进行了功能测试,并对采集准确度进行了验证。本系统作为内部测试版本,可以满足客户基本需要,但仍旧未成为部门有竞争力的产品。未来,需要在模板自动化配置与爬虫采集效率方面进行改进,使其成为部门有竞争力的产品,为公司带来可观利润。
其他文献
本论文引入“科学精神”这一概念,以考察新闻评论发展中的问题与现象。通过文献梳理与经验考察,论文提出新闻评论的科学精神有两个核心内容:真实与逻辑。以“新闻评论的科学
<正> 一、前言基础运动能力是人们生活所需要的跑、跳、投等各种动作技能。基础运动能力在幼儿时期已经在日常生活中随意学会,但还需要通过各种锻炼方法,使他们能掌握正确的
目的:观察归脾汤加减配合经颅微电流刺激治疗心脾两虚型郁证的临床疗效及症状改善情况,初步评价其治疗心脾两虚型郁证的有效性,并基于症状的改善从理论上探讨该证候的病因病
以富村110kV数字化变电站为例,通过与常规综自站比较,对数字化变电站安装、调试方法进行了探讨和总结。
<正> 前言 本标准等效采用美国ASTM C170-90(1994)《规格石材干燥、水饱和压缩强度试验方法》。 本标准与GB/T9966.1—1998《干燥、水饱和、冻融循环后压缩强度试验方法》的
利用统计学的方法分析了1981年到2010年永兴蒸发量年、季、月的变化特征,并根据道尔顿蒸发定律和永兴岛的气候特点,分析了影响永兴蒸发量的主要气象要素及其与蒸发量的相关性,结
用有机化合物萘、偶氮苯代替金属铅、铋 ,用热分析法绘制二组分凝聚体系相图 ,仪器设备简单 ,操作方便 ,同样能达到二组分金属相图的实验要求。
总结了面向中文文本网页的文本综述的生成过程,详细分析了文本预处理、语句相似度计算、局部主题区域发现、差异性获取、综述生成等关键技术。在内容选择上,通过融合关键词和
新闻记者职业团体是新闻业的重要组成部分,是考察新闻职业化与社会历史变迁的一个切入点,因而在中国新闻史研究中是不容忽视的,但学界尚未给予足够的重视。本文以1921—1937
随着互联网技术的快速发展,我国传统传媒企业的生存和发展面临着诸多压力与挑战,传统的商业模式受到了很大的冲击,传媒行业业态正处于深刻的变革当中。在这样的背景下,越来越